I LA EVALUACION
• Problemática
DE APRENDIZAJES
en torno a la evaluación
• Evolución del concepto
de evaluación
• La medida en educación.
1.
de aprendizajes educativa
Recogida de información
• Pruebas objetivas
'
• Pruebas verdadero/falso • Pruebas de elección múltiple • Otros tipos de pruebas objetivas • Pruebas libres • Otros tipos de pruebas libres • Pruebas diagnóstico • Características
de las pruebas
• Banco de pruebas • La medida en educación. • Toma de decisiones
11.
Clasificación
en la evaluación
educativa
• Clases de evaluación •
El
proceso de la evaluación
~ ,.
~
~ Alcalá, 166
CCS I EDITORIAL
-
28028 MADRID
'Ir 91 725 20 00 / @§ 91 726 25 70 www.editorialees.eom
I e.e.:
[email protected]
ISBN84f42-019-9 9 "788498"420197
Teófilo Rodríguez Neira • Luis Álvarez Pérez Paloma González-Castro • Julio A. González-Pienda José Muñiz Fernández • José C. Núñez Pérez Enrique Soler Vázquez
LA EVALUACiÓN DE APRENDIZAJES
Editorial
ees
Página web de EDITORIAL
CCS:
www.editorialccs.com
© Autores Varios © 2006. EDITORIAL
CCS, Alcalá 166/28028
MADRID
Queda prohibida, saivo excepción prevista en la ley, cuaiquier forma de reproducción, distribución, comunicación pública y transformación de esta obra sin contar con autorización de los titulares de la propiedad intelectuai. La infraccIón de los derechos mencionados puede ser constitutiva de delito contra ia propiedad intelectuai (arts. 270 y ss. dei Código Penai). El Centro Españoi de Derechos Reprográficos (www.cedro orgl vela por el respeto de los citados derechos.
Diagramación editorial: Concepción Hernanz ISBN-1 O: 84-9842 -019-9 ISBN-13: 978-84-9842-019-7 Depósito legal: M-38569-2006 Fotocomposición: M&A, Becerril de la Sierra (Madrid) Imprime: Gráficas Blonde S.L. (Madrid)
AUTORES Álvarez Pérez, Luis. Universidad de Oviedo. Departamento de Psicología González-Castro, Paloma. Universidad de Oviedo. Departamento de Psicología González-Pienda, Julio Antonio. Universidad de Oviedo. Departamento de Psicología Muñiz Fernández, José. Universidad de Oviedo. Departamento de Psicología Núúez Pérez, José Carlos. Universidad de Oviedo. Departamento de Psicología Rodriguez Neira, Teó:ftlo. Universidad de Oviedo. Departamento de C. de la Educación Soler Vázquez, Enrique. Universidad de Columbia. Máster en Educación
índice
Prólogo
9
1. PROBLEMÁTICA EN TORNO A LA EVALUACIÓN DE APRENDIZAJES
11
2. EVOLUCIÓN DEL CONCEPTO DE EVALUACIÓN EDUCATIVA
23
3. LA MEDIDA EN EDUCACIÓN. 1. RECOGIDA DE INFORMACIÓN
53
4. PRUEBAS OBJETIVAS
73
5. PRUEBAS VERDADERO/FALSO
81
6. PRUEBAS DE ELECCIÓN MÚLTIPLE
95
7. OTROS TIPOS DE PRUEBAS OBJETIVAS 1. 2. 3. 4.
V/F múltiples Respuestas combinadas Emparejamiento Clasificación
5. Respuesta doble 6. Respuesta limitada 7. Problemas científico-matemáticos
121
,.
123 124 124 126 127 128 130
8. PRUEBAS LIBRES
133
1. Respuesta abierta
136
8
La evaluación
9. OTROS TIPOS DE PRUEBAS LIBRES 1. 2. 3. 4.
de aprendizajes
147
Pruebas mixtas Examen oral Prueba práctica real Proyecto 5. Simulación
149 150 155 156 157
10. PRUEBAS DIAGNÓSTICO
167
1. Observación
169
1.1. Observación espontánea 1.2. Observación estructurada
169 170
2. Encuesta
178
2.1. Entrevista 2.2. Cuestionario
178 179
11. CARACTERÍSTICAS DE lAS PRUEBAS 1. 2. 3. 4.
Propiedades psicométricas Otras características Relación entre las características de un examen Principios éticos y deontológicos de la evaluación
12. BANCO DE PRUEBAS 13. lA MEDIDA EN EDUCACIÓN.
183
185 189 190 193 195
11.
CALIFICACIÓN
217
14. TOMA DE DECISIONES EN lA EVALUACIÓN EDUCATIVA
227
15. ClASES DE EVALUACIÓN
247
1. Sistema evaluado 2. Tiempo de aplicación 3. Fines de la evaluación
249 250 252
3.1. Evaluación formativa 3.2. Evaluación aumativa
252 256
16. EL PROCESO DE lA EVALUACIÓN
263
Glosario
283
Referencias bibliográficas
297
Prólogo
El objetivo fundamental de este libro, que ahora presentamos, es analizar desde distintas perspectivas la problemática implicada en la evaluación del aprendizaje de los estudiantes. Nos guía la idea de que no puede haber un aprendizaje cabal si no se acompaña de una evaluación eficaz y rigurosa, pues aprender y evaluar son dos caras de la misma moneda del saber. El libro pretende facilitar al profesorado estrategias y pautas prácticas para llevar a cabo una evaluación adecuada de los aprendizajes de los estudiantes. Se han tratado de combinar de forma equilibrada los fundamentos teóricos y técnicos de la evaluación con la vertiente aplicada, incluyendo todo un conjunto de ejemplos, casos prácticos e ilustraciones que permitan un acercamiento a lo que realmente ocurre en el día a día del aula. Se trata, en suma, de un libro con vocación aplicada y práctica, basado en casos reales, pero sin que ello suponga olvidarse de los fundamentos sobre los que descansan las estrategias de evaluación propuestas. El texto ha sido distribuido en 16 capítulos. Se empieza con una invitación al análisis de la problemática singular que cada uno tiene sobre la evaluación. Sigue un estudio diacrónico de su evolución a lo largo de la historia de la educación, con el fin de llegar a una definición de lo que hoy se entiende por evaluación. En este punto nos detenemos para estudiar dicha definición, analizando separadamente sus componentes. Se aclara el sentido de la medida en educación, primero con un pormenorizado estudio de distintos instrumentos para recoger información sobre los resultados conseguidos por los alumnos, completado con una serie de características psicométricas que deben tener dichas pruebas, así como unas directrices deontológicas sobre su uso, y, en segundo lugar, con la manera de formular juicios para valorar dichos resultados en forma de calificación. Finaliza el análisis de dicha definición, c00 el estudio de un tercer aspecto fundamental, a la par que comprometido para el profesor, la toma de decisiones, que supone una aproximación deontológica a la tarea evaluadora, dadas las consecuencias que de la misma pueden derivarse para el alumno. Este tercer aspecto, esencial de toda evaluación de aprendizajes, trata
10
La evaluación
de aprendizajes
también de ayudar y dar respuesta al profesorado que a menudo se siente poco ap(jyado ante su responsabilidad evaluadora. El profesor no está solo y, aunque con singular responsabilidad, en modo alguno debe constituirse en agente único de las consecuencias de la evaluación, lo que sí debe asegurar el profesor es su objetividad y las garantías de su «modus operandi». Nuevas reflexiones podrían incorporarse al entorno de la toma de decisiones, por ejemplo, la pretensión de identificar igualdad de «oportunidades» con igualdad de «resultados», o el impacto producido por la ampliación del período de enseñanza obligatoria. El estudio sobre la toma de decisiones se completa con un análisis sobre las Clases de evaluación. En el último capítulo, se ofrece un resumen de los distintos pasos del proceso evaluador. Para facilitar la comprensión de la terminología que se usa a lo largo del libro, se añade un glosario que incluye una amplia gama de términos relacionados, no sólo con la evaluación, sino también con otras tareas docentes, tales como la programación, las estrategias de enseñanzaaprendizaje, la acción tutorial, etc. Todo ello se enriquece con una selección actualizada de referencias bibliográficas. En su conjunto, el libro constituye una continuación y actualización de otro publicado anteriormente por los autores sobre La evaluación en el aula. Esperamos que la lectura del libro permita que los profesores de todos los niveles, desde la Educación Primaria hasta la Universidad, reflexionen sobre el sentido mismo de la evaluación y, así, vayan conformando una equilibrada aproximación a su tarea evaluadora, de forma que les ayude a desprenderse de estereotipos, modas pasajeras y prejuicios. En cuanto a los profesores de etapas de educación obligatoria, les ayudará a analizar la estrecha vinculación que la evaluación tiene con la atención a la diversidad, imprescindible en dichas etapas, concretada en una programación flexible y en unas estrategias metodológicas adaptadas a los alumnos. El libro también puede ser de gran ayuda para los alumnos que cursan estudios universitarios sobre educación, tales como maestros, logopedas, educadores sociales, pedagogos y psicólogos, entre otros, dado que como futuros evaluad ores en distintos ámbitos, deben conocer las reglas fundamentales de la evaluación. Los autores
551ntZION5IHdV 510 NOI)Vn1VA5I V1 V ONHO.L N5I I lDl.LVW5I1aOHd I
La problemática relacionada con la evaluación, tanto desde el punto de vista teórico como práctico, no suele dejar indiferente a nadie; es más, a menudo se convierte en una «auténtica palestra de confrontación tanto ideológica como técnica» (Zabalza, 1989: 235). Como otros fenómenos educativos, la evaluación, con todo lo que conlleva, sufre periódicos vaivenes en lo que se refiere a su valor y consideración. Con el fin de que cada lector, de acuerdo con su experiencia y sus conocimientos, subraye, elimine o amplíe lo que considere oportuno en relación con este tema, en los párrafos siguientes, y antes de iniciar su estudio sistemático, se recoge una miscelánea de opiniones que suelen oírse en los centros de enseñanza y se leen en la bibliografía especializada. En todas las publicaciones que abordan la evaluación educativa se mencionan problemas asociados. Los interesados encontrarán esta amplia problemática en tratados ya clásicos sobre evaluación que muchos autores han ido aportando a lo largo de la historia de la educación; entre otros, es obligado citar a Adams (1983), Bloom Hasting y Madaus (1975), Cronbach (1972), Ebel YFrisbie (1977), Gronlund (1973), Lafourcade (1977), Popham (1978), Scriven (1967), Stufflbean y Shinkfield (1985), Tenbrink (1981), Thorndike y Hagen (1969), Tyler (1950). También, como más cercanos a nuestro entorno: Barberá (1999), Casanova (1997), Monedero (1998), Sabirón (1999) y Zabalza (1989). Opiniones referentes a aspectos varios y diversos: exámenes; juicios de valor sobre el rendimiento de los alumnos; fines de la evaluación; programación, calificación y evaluación; desfase entre la teoría y la práctica; dificultades y límites de la evaluación; su función de control y selección. 1. Destacan las opiniones sobre los exámenes, en los que, para algunos, se concentran todos los «diablos» de la educación. Así, se dice que los exámenes producen más efectos negativos que positivos, que son represivos y suponen un instrumento de poder, que reflejan un estilo de enseñanza conservador y autoritario, que producen ansiedad y provocan secuelas muy negativas en la personalidad y desarrollo de los alumnos; en fin, a veces se ven como una amenaza que desmotiva y llega a alienar y dañar el propio autoconcepto, por lo que se declaran incompatibles con una educación que pretenda ayudar a'realizarse
14
La evaluación
de aprendizajes
al alumno. Luchar contra los exámenes fue una de las consignas estudiantiles de Mayo del 68. Otros, sin embargo, acuden al sentido común para demostrar que la mayoría de los alumnos no sufre estos daños. Efectivamente, dicen, una mala nota dada a un alumno que se ha esforzado puede causarle un perjuicio, pero normalmente las malas calificaciones se asignan a los alumnos que no han estudiado; y los alumnos que no se esfuerzan suponen un problema mayor que los que estudian, trabajan y se preocupan, por lo que no hay que corregir la evaluación, sino la instrucción. Por otro lado, añaden, una preocupación moderada por los exámenes es siempre beneficiosa: el aprender a enfrentarse con situaciones problemáticas que la vida va a deparar, como son los exámenes, es una parte necesaria de la maduración. Los problemas de los alumnos que fracasan suelen ser de otra índole, y no se van a solucionar suprimiendo los exámenes. Casi nadie dice que en la enseñanza reglada puede haber instrucción sin evaluación, incluso para algunos ésta llega a ser la «pieza clave» del sistema educativo: no puede haber enseñanza y aprendizaje si no hay unas metas que alcanzar, y si éstas no se valoran; es decir, enseñar, aprender y evaluar son partes interrelacionadas del ciclo de instrucción. Sin embargo, desde otras posiciones, aunque moderadas, se insiste en la sustitución de algunos instrumentos de evaluación, y se llega a decir que se podría educar mejor sin exámenes formales; no obstante, en la práctica parece difícil encontrar alternativas. 2. La emisión de juicios de valor sobre los alumnos y sobre la calidad de sus tareas se suele basar en una información elemental o en una percepción muy genérica sobre su personalidad; es decir, se critica la tendencia en la práctica evaluadora a reducir el espectro de informaciones y, por tanto, a simplificar los juicios de valor. Para Gimeno (1988: 377): «la importancia de las notas y de las evaluaciones escolares desde un punto de vista social, académico y personal para los alumnos contrasta con la simplicidad de los procesos por los que se adjudican a los alumnos; unos procesos que tienen mucho que ver con una típica conducta simplificada de toma de decisiones por parte del profesor». En este sentido, algunos estudios señalan cómo la toma de decisiones se realiza frecuentemente urgida por exigencias administrativo-institucionales y por las necesidades del momento, sin una oportuna elaboración de acuerdo con algún modelo estructurado. 3. Se suele considerar también que los instrumentos de evaluación se usan a menudo con fines distintos para los que fueron diseñados; por ejemplo, pruebas destinadas a identificar logros de los alumnos se utilizan como variable exclusiva para valorar centros o profesores. Si la eficacia de la instrucción se juzga desde instancias externas sólo a partir de las respuestas en los exámenes, surge en los profesores la tentación de preparar a los alumnos para lo que se les va a exigir en las pruebas; tanto más si las consecuencias de las malas notas recaen personal y directamente en el profesor. La
Problemática
en tomo a la evaluación
de aprendizajes
excesiva influencia de los exámenes hace que puedan modificarse las calificaciones: la práctica puede ir desde capacitar a los alumnos exclusivamente en los contenidos de los que se van a examinar o enseñar las respuestas de lo que se va a preguntar, hasta subir la nota; lo que muestra que el fin influye en la enseñanza. Otras veces, es el mismo profesor el que decide incluir en las calificaciones factores distintos del grado de adquisición de objetivos de aprendizaje (Stiggins, Frisbie y Griswold, 1989). Se conceden notas altas como premios y bajas como castigos, convirtiéndolas así en instrumentos de control en clase. El uso de las calificaciones para estos propósitos se acepta sólo si revierte indirectamente en una mejor disposición hacia el aprendizaje (una asignatura que no se califica se convierte en una «maría»); porque, de lo contrario, se estaría comunicando a los alumnos que se prima más el comportamiento social que el aprendizaje de las metas del programa de la escuela. En general, se admite por muchos que los alumnos que hacen más esfuerzo y demuestran más deseo de aprender deben ser recompensados por ello; por lo que un reto significativo para todo profesor es encontrar formas de premio, distintas a las calificaciones, que puedan estimular a los alumnos a actuar cerca de los niveles óptimos de su capacidad cognitiva. Esta no es una tarea fácil, puesto que los alumnos responden de manera diferente a las palabras de elogio, a las notas oficiales, a las caras sonrientes ya privilegios especiales. Sólo si desarrollar actitudes de los alumnos hacia algo o su disposición a esforzarse figuran entre los objetivos de aprendizaje programados, y si el profesor ha planificado procedimientos instruccionales para ayudar a los alumnos a desarrollar estos comportamientos, se puede juzgar apropiado considerados en la asignación de las calificaciones. 4. La presión sobre profesores y alumnos para alcanzar calificaciones altas ha llevado a diseñar currículos dirigidos por los exámenes, es decir, a suprimir aquellos temas o materias que no se van a controlar, con lo que los exámenes se convierten en programación. Así, se critica que a veces se enseña para aprobar exámenes, más que para alcanzar unos objetivos basados en unos intereses personales o en unos valores o necesidades sociales. De aquí el aforismo de que los que construyen las pruebas controlan el programa )~en último término, el aprendizaje de los alumnos. Parece que esto ha influido en las prácticas educativas más de lo conveniente. 5. Con frecuencia se señala que hay un gran desfase entre la teoría y la práctica; incluso entre los materiales disponibles y esa misma práctica. Las causas son muy complejas: burocracia escolar, presión de tiempo, prejuicios acientíficos, actitudes típicas de profesores y alumnos conformadas por años de experiencia escolar, inercia y rutina de las técnicas de evaluación tradicional, etc. Esto no se puede corregir ni fácilmente ni muy de prisa. A este desfase contribuye no poco la confusión patente en la bibliografía y en la normativa al respecto, como lo pone de manifiesto Juan Manuel Álvarez Méndez (1994: 316) cuando escribe:
15
16
La evaluación de aprendizajes
Esfácil encontrarse con t(!j.'tosque van matizando sucesivamente el concepto de evaluación, implicando en lo que aparentemente es una simple adjetivación, funciones y formas de evaluación muy dispares. Aparecen términos que aluden a la evaluación como inicial, diagnóstica, formativa, continua, personalizada, predictiva, sumativa, final; normativa, criterial, global, individualizada, sistemática. Más recientemente (MEC [1989] Diseño Curricular Base. Educación Primaria, Madrid, MEC) se habla de evaluación puntual, integral e integradora, uniforme o pluriforme, cualitativa, cuantitativa, interna, externa. Últimamente y ya en la literatura especializada aparecen conceptos de nueva incorporación tales como evaluación iluminativa, procesual, etnográfica, de producto, respondiente, ideográfica, participante, democrática, burocrática ... Muchos términos superponen significados, otros los ocultan, otros los confunden, otros los in tercambian. En otros casos, las interpretaciones que se hacen de ellos los hacen diferentes sin modificar su forma linguística; en otros, a los mismos términos se les asignan funciones y fines diferentes haciéndolos irreconocibles, y en otros la coincidencia sólo se da en la expresión pero aluden a referentes totalmente distintos... No faltan casos donde la confusión es total, pero sobre ella se articulan discursos que desconciertan a quienes se aproximan o intentan comprender el estado de la cuestión. La paradoja es que el profesor que debe «resolver»la evaluación de cada día en el aula contempla abrumado este desconcierto terminológico como espectador de su propio espectáculo sobre un escenario en el que él actúa. Todo lo cual hace ver que la evaluación no es una sola cosa sino varias, aunque se ejerzan al amparo de un mismo rótulo.
6. Debido al deterioro del concepto de evaluación educativa, con demasiada frecuencia tienden a identificarse evaluación y calificación. Es posible que las posiciones extremas, que proponen desterrar la calificación, hayan surgido del hecho de que la práctica tradicional haya entrado en una rutina divorciada de una teoría rigurosa que, por un lado, la depure y,por otro, la avale. 7. Las dificultades a la hora de evaluar objetivos que incluyen algunos tipos de capacidades, supone, más que una opinión, una preocupación generalizada. La mayoría de las pruebas se mueven en torno a una memorización comprensiva; pero hay otros muchos procesos mentales o capacidades cognoscitivas importantes susceptibles de aprendizaje y que, por tanto, se deberían evaluar; por ejemplo, el pensamiento crítico, la creatividad, etc. Sin embargo, a veces resulta casi imposible explicitar sus indicadores, por lo que es difícil evaluados. Los procesos de aprendizaje que experimenta un alumno tienen efectos tremendamente importantes, pero con frecuencia son intangibles, sutiles e impredecibles; incluso algunos de estos efectos pueden no aparecer hasta mucho tiempo después de dejar la escuela. La imposibilidad práctica de medidos con alguno de los tests disponibles en la actualidad, puede impedir la necesidad de medidos, por importantes que sean. Especialmente complicados son los problemas de la evaluación de habilidades manuales o capacidades psicomotrices. Por un lado, se necesitan tiempos reales a veces muy largos; por otro, resulta difícil especificar bien los comportamientos elementales de que se componen para poder evaluados. con el fin de proponer al alumno los procesos remediales para cada uno por sep:lr:ldo.
Problemática en torno a la evaluación de aprendizajes
Pero sobre todo faltan estrategias para evaluar las capacidades afectivas. Con demasiada frecuencia se califican contenidos actitudinales sin base objetiva, por lo que no es extraño que tales calificaciones estén tan des prestigiadas y devaluadas, tanto para profesores como para alumnos. 8. Frente a las críticas de algunos autores referentes a las limitaciones de la evaluación, otros señalan que éstas van más allá de lo racional: porque no se pueden medir algunos logros educativos, se concluye que no se puede medir ninguno; porque no se pueden operativizar todos los fines educativos, se relega todo intento de operativización previa y necesaria para una medida adecuada; porque la maduración de una persona transciende la educación formal, ni se intentan controlar los logros de la misma; porque se defiende que la evaluación debe ser un instrumento de investigación didáctica y de información, se olvidan otros pasos intermedios y, en todo caso, indispensables para realizar tal investigación, como es la medida rigurosa y explícita de los aprendizajes. 9. Por último, los que defienden como fin de la evaluación informar al alumno de su logros y causas, sin valoración por parte del profesor, censuran lo que la evaluación tiene de control y selección. A este respecto Gimeno (1981: 217), recogiendo el sentir de otros muchos autores, escribe que la evaluación debería tener como función básica: "... de cara al alumno, una información que le ayude a progresar hacia el autoaprendizaje, ofreciéndole noticia del estado en que se encuentra y las razones del mismo, para que coja él mismo este dato como guía de autodirección, meta de toda educación». * * * Hasta aquí algunas de las opiniones más persistentes sobre la evaluación educativa. A continuación nos proponemos es tudiaria con rigor. Para ello es necesario tener respuestas claras a una serie de cuestiones. En primer lugar, tendríamos que preguntamos si es posible evaluar; y en caso de que nuestra respuesta fuese, como es presumible, afirmativa, seguir preguntándonos por el qué, quién, cómo, cuándo y, sobre todo, para qué evaluar. En los párrafos siguientes trataremos estas cuestiones para ir respondiéndolas con más amplitud a lo largo de la presente publicación. 1. ¿Es posible evaluar? ¿Es conveniente, necesario y útil hacerla? La cuestión no es discutir a favor o en contra de la evaluación, sino centrarse en el tipo de evaluación que cada situación requiere según los diferentes diseños curriculares y las exigencias administrativas. De todas maneras, para tomar una postura es imprescindible llegar antes a una definición o al menos a una descripción que no caiga en extremismos. Si tratamos de definirla exhaustivamente, corremos el riesgo de producir una formulación tan complicada que resultará válida sólo para un grupo especializado de investigadores. Pero un enfoque más reducido corre también el peligro de fijarse únicamente en la calificación como actividad que los profesores ejercen más frecuentemente.
17
La evaluación
de aprendizajes
Para llegar a una definición equilibrada, ayuda analizar su relación con los demás elementos del currículo, programación y metodología, así como con los fines para los que se emplea. a) Se suele admitir que la evaluación marca la diferencia entre un currículo de una sola dirección, de profesor a alumno, en consecuencia asimétrico o «balística» en palabras de Bell (1981), y un proceso interactivo simétrico que proporciona feedback y provoca cambios tanto en profesores como en alumnos. La evaluación sirve también para relacionar los otros elementos del currículo es decir, para relacionar los medios con los efectos que produce la educación, juzgando la pertinencia y eficacia de ambos. Modificar un programa, o incluso unas estrategias de enseñanza, sin cambiar el sistema de evaluación, tiene todas las probabilidades de no conducir a nada. Por el contrario, la experiencia dice que, si se modifica el sistema de evaluación, aun sin modificar explícitamente el programa de enseñanza, es mayor la repercusión sobre el aprendizaje. A esto se refiere el aforismo ya citado de que quien controla el examen controla el programa que se lleva a cabo. Es importante la planificación previa de un sistema de evaluación que pueda servir de base a la preparación de un programa. La evaluación nos da una medida del nivel del que se parte, el nivel al que se llega y del progreso realizado. Pues bien, este proceso debe comenzar ya en el mismo momento de la programación de objetivos de aprendizaje, precisando en la formulación de los mismos el criterio, grado de perfección o nivel aceptable de la actuación esperada del alumno. b) Los fines explícitos de la evaluación se enumerarán al tratar del «para qué» evaluar; pero, además, una serie de fines se esconden tras el currículo oculto. Por citar uno, el prestigio de la institución: no siempre tal prestigio logrado a través de la evaluación es de absoluto interés para los centros, ya que algunos no lo han adquirido por el resultado de sus exámenes, sino por una larga tradición; por el contrario, otros centros acostumbran a dar a conocer el porcentaje de alumnos que tiene éxito en pruebas de todo tipo, como medio para consolidar su prestigio. Todo ello, fines y relación con los otros elementos curriculares, puede dar pistas para formular una adecuada definición de evaluación. 2. Qué: ¿Qué intentamos evaluar? La evaluación educativa puede recaer sobre sistemas, instituciones, docentes, etc. En el presente trabajo nos centramos exclusivamente en el estudio de la evaluación de aprendizajes de los alumnos en el marco de una instrucción formal. Para asegurar la validez de esta evaluación, es decir, para evaluar realmente lo programado, es necesario, entre otros requisitos, describir rigurosamente las capacidades y los contenidos científicos especificando los indicadores pertinentes. Comprende, por consiguiente,
Problemdtica
en torno a la evaluación
de aprendizajes
un análisis de objetivos, una formulación de los grados de consecución aceptados y un diseño de situaciones de aplicación. 3. Quién: Debemos también tener respuestas sobre los sujetos que intervienen en la evaluación. ¿Deben intervenir sólo los protagonistas de la instrucción, profesores y alumnos, o también otros agentes externos? ¿Se debe continuar admitiendo que al profesor le corresponde la construcción de pruebas y el análisis de datos; al alumno, la autocorrección y la autoevaluación; y a las Juntas de Evaluación, en las etapas que así lo exige la ordenación educativa, la interpretación global de datos y la toma de decisiones? 4. Cómo: Problemática en torno a los instrumentos de evaluación. Hay que considerar: el formato y el número de preguntas necesario; el tipo de interpretaciones que se van a hacer de los resultados; el referente que se va a utilizar, un grupo normativo o un criterio absoluto. Si la interpretación va a ser normativa, la descripción de lo que se va a evaluar puede ser más general, aunque siempre haya que definir fronteras; en muchos casos, el contenido científico general de los materiales de instrucción basta para marcar los límites de la prueba. Si la interpretación va a ser de dominio, la especificación ha de ser mayor, describiendo por separado los elementos que lo componen, capacidad y contenido. Por último, para hacer una interpretación criterial, hay que formular de modo preciso los objetivos de aprendizaje y controlar adecuadamente cada uno de ellos mediante una nota dada a partir de varias preguntas. Conviene señalar que cuando se hace una evaluación por objetivos, al contrario que cuando se hace una evaluación de dominio, no se puede acudir a una muestra, ni hacer deducciones o extrapolaciones sobre las capacidades y contenidos no examinados a la hora de interpretar las calificaciones; hay que controlar todas y cada una de las capacidades y contenidos reflejados en los objetivos. 5. Cuándo: Hay que decidir en qué momentos se realiza la evaluación: inicial, intermedia, continua, final. 6. Para qué: ¿Para qué evaluamos? A los fines ya mencionados al hablar del currículo oculto, añadimos los que más a menudo se citan explícitamente. a) Control: La evaluación tiene como fin el control del proceso de instrucción. Diferenciar y certificar el fracaso y el éxito de los logros instruccionales de los alumnos ha sido su papel tradicional. b) Motivación: Las investigaciones han demostrado que, cuando un estudiante está verdaderamente motivado, su actuación está mucho más cerca del máximo de sus posibilidades. La buena disposición para aprender es un elemento indispensable para conseguido. Son muchos los factores que intervienen en la motivación (Álvarezet al., 1999). Un estudiante está más motivado, por ejemplo, cuando acepta los objetivos que se le proponen; pero es superfluo decir que la evaluación en general y, en particular, el grado de éxito en un examen están también
19
La evaluación
de aprendizajes
directamente unidos a la motivación. Los alumnos tienden a estudiar más cuando preparan un examen, y estudian más intensamente aquello que esperan que «caiga».Si los alumnos conocen de antemano que se les va a examinar, los requisitos del examen y, sobre todo, si el examen consigue medir bien los logros de los alumnos respecto a los objetivos pertinentes, entonces su influencia motivadora será definitivamente más útil. Los exámenes deben considerarse como motivación extrínseca y otros factores, como las expectativas y las necesidades, como motivación intrínseca. Como ambas contribuyen al aprendizaje, el suprimir una de ellas produciría una disminución en el rendimiento de muchos alumnos. Para algunos afortunados, la motivación intrínseca puede ser tan fuerte que por sí misma sea suficiente para provocar los esfuerzos necesarios para aprender; para otros, la motivación provocada por los exámenes es indispensable para estudiar. c) Feedback para los profesores: La evaluación permite al profesor detectar si los alumnos han asimilado bien lo que trataba de comunicarles y hacer un juicio sobre las técnicas de enseñanza utilizadas, lo que posibilita la corrección de su modo de enseñar. Además, el proceso de construir las pruebas es una ocasión para que los profesores revisen y precisen la programación. d) Feedback para los alumnos: Permite al alumno informarse de sus aprendizajes, es decir, le hace saber lo que ha aprendido y lo que le falta por aprender, descubriendo sus deficiencias. A veces se insiste excesivamente en lo no conseguido. Los fallos no tienen por qué ser más informativos que los logros; no se deben ignorar, pero hay que subrayar también los logros positivos. Se sabe que tenemos tendencia a realizar y repetir actividades en la medida en que van seguidas de cierto éxito. Este fenómeno se conoce como «Leydel Efecto» de Thorndike. En concreto, los estudiantes llegan a darse cuenta de que ciertos tipos de conducta están asociados al éxito certificado por las buenas notas. Así, si los alumnos son juzgados por su nivel de conocimiento a través de pruebas que exijan exclusivamente memoria, tendrán tendencia simplemente a memorizarlos. Por el contrario, si las pruebas requieren que los estudiantes interpreten datos, apliquen principios y resuelvan problemas, estos mismos estudiantes trabajarán de otra manera para tener éxito en este tipo de pruebas. A la larga, el sistema de evaluación utilizado determina en gran medida el tipo de actividad a la que se entregarán durante el aprendizaje. e) Título: La evaluación supone también una responsabilidad social, de la que se deriva la que tienen los profesores frente a la misma sociedad al evaluar, dado que en algún momento la evaluación supondrá la concesión de títulos por parte de la Administración. * * *
Problemática en tomo a la evaluación de aprendizajes
A partir de aquí, intentaremos profundizar en el significado que se le ha ido atribuyendo al concepto de evaluación a lo largo de la historia de la educación -sobre todo en las tres últimas décadas, en que muchos autores han ido subrayando y seleccionando distintas formas y funciones de la evaluación educativa para formular su propia definición-, para contestar la primera pregunta, «si es posible evaluar», con el fin de optar por una definición que sintetice las mejores aportaciones. A continuación estudiaremos el resto de las cuestiones aquí planteadas, para analizar los elementos que la constituyen con objeto de depurar sus posibles defectos, redescubrir su concepto y sus funciones auténticamente educativas dentro de una teoría coherente que refuerce las intuiciones y las rutinas cotidianas del aula y, sobre todo, dentro de una práctica asequible a cualquier profesor que necesite perfeccionar la suya. Con todo ello, pretendemos que los profesores mejoren su competencia en la evaluación educativa; lo que se puede concretar en los siguientes estándares, adaptados de los Standards for Teacher Competence in Educational Assessment of Students, elaborados por una comisión de expertos designados por las tres asociaciones educativas más representativas de Estados Unidos: American Federation of Teachers, National Council on Measurement in Education y National Education Association. 1. Elección de métodos de evaluación: Los profesores tienen que saber elegir métodos de evaluación pertinentes, útiles, técnicamente correctos e imparciales. En este sentido, deben comprender, por un lado, cómo una evaluación válida puede ayudar a diagnosticar necesidades educativas a nivel individual y grupal, diseñar adaptaciones curriculares individuales y grupales, proporcionar un adecuado feedback a los estudiantes y motivades, etc.j por otro lado, también deben ser conscientes de que determinados enfoques evaluativos pueden ser incompatibles con algunos objetivos, afectando negativamente a la toma de decisiones acerca de los estudiantes. 2. Elaboración de métodos de evaluación: Si bien los profesores emplean a veces instrumentos elaborados por otros, lo más frecuente es que utilicen los que ellos mismos generan. Por este motivo, deben asimilar y seguir principios adecuados para analizar la calidad de los métodos de evaluación y elaborados. 3. Aplicación de los resultados de la evaluación: No es suficiente que los profesores sean capaces de seleccionar y elaborar buenos métodos de evaluación, también deben estar preparados para aplicar, interpretar y analizar los resultados de pruebas objetivas, abiertas y diagnóstico, identificando así los puntos fuertes y débiles del aprendizaje de sus alumnos, con el fin de estimular su desarrollo educativo y no incrementar innecesariamente sus niveles de ansiedad. 4. Elaboración de procedimientos para la calificación: Calificar,como elemento esencial de la evaluación, es parte indispensable de la tarea docente. Así pues, los profesores deben ser capaces de diseñar e implememar procedimientos para generar cali.ficacionesa partir de puntuaciones obtenidas por los alumnos, asegurándose de q~e sus calificaciones sean racionales, imparciales y justificadas, evitando formas sesgadas, tales como utilizadas como castigo.
21
22
La evaluación
de aprendizajes
5. Toma de decisiones educativas: Los profesores deben ser capaces de utilizar de forma efectiva los resultados de las evaluaciones para tomar decisiones educativas, no sólo en clase sobre los estudiantes, sino también en la comunidad local sobre aspectos escolares, y en la sociedad en general sobre el sistema educativo. 6. Comunicación de los resultados de la evaluación: Los profesores tienen que informar habitualmente sobre los resultados de las evaluaciones a los estudiantes, a los padres o a otras personas autorizadas. Así, para hacerla con eficacia, los profesores deben ser capaces de utilizar la terminología adecuadamente y explicar con claridad su significado, limitaciones e implicaciones. 7. Identificación de evaluaciones no éticas o ilegales: La imparcialidad, los derechos de todos los implicados y la ética profesional deben presidir todas las actividades de la evaluación educativa, desde la planificación inicial y la recogida de información hasta la comunicación de las decisiones tomadas. Por esta razón, los profesores deben estar bien informados sobre sus responsabilidades éticas y legales, y deben ser conscientes de que algunos procedimientos de evaluación pueden ser incorrectamente utilizados con consecuencias perjudiciales para los alumnos, tales como violación del derecho a la privacidad o uso inadecuado de los resultados de los exámenes de los alumnos para otros fines como valorar la labor docente de los profesores.
"AI.l")
n051
NOI)"n'''AEI 510 I OJ.dEl)NO) '510 NOI)n'OAEI I
OlnlJd'i)
Podríamos decir de manera sencilla, que no simple, que la historia de la evaluación educativa es la historia del referente, defmido por Barbier (1993: 71) como «aquello en relación con lo cual se produce o es susceptible de producirse eljuicio de valor», es decir, del eje de referencia por el que se valora un proceso de enseñanza-aprendizaje. Unas veces este referente es implícito y otras explícito, unas veces es externo al proceso mismo y otras está inserto en él; siempre estuvo allí donde se producía una valoración de algún elemento del proceso educativo. Cuando el referente es implícito, una de las tareas básicas es identificar, definir y precisar los factores que lo constituyen, para evitar subjetivismos o arbitrariedades y reducir el campo del llamado «currículo oculto». Por el contrario, cuando es explícito, está expresado a través de unos indicadores precisos y suele aparecer relacionado con las finalidades o metas educativas. A lo largo de la historia de la educación, esas finalidades han ido cambiando y, en consecuencia, también lo han hecho los ejes de referencia. En unos casos, el referente de la evaluación educativa cumple una función nomotética y, en otros, selectiva. La función nomotética servirá para encontrar regularidades que permitan pronosticar comportamientos futuros y está relacionada con la valoración normativa (cap. 13), que determina el rendimiento de los alumnos a partir de las regularidades del grupo. La función selectiva clasificará a los alumnos en más o menos competentes, por lo que está más relacionada con la valoración criterial (cap. 13). Desde otro punto de vista, el desarrollo de la evaluación educativa, superada la época precientífica, no surge espontáneamente, sino que está ligada a los diversos modos de hacer ciencia, a los paradigmas científicos.
LOS COMIENZOS DE LA EVALUACiÓN EDUCATIVA: LA EVALUACiÓN PRECIENTíFICA 1. Los sistemas de enseñanza, desde la Antiguedad hasta la Edad Contemporánea, crearon un gran número de procedimientos de instrucción, que aún siguen influyendo en la actualidad. Sin embargo, no parece que los docentes de estas
26
La evaluación
de aprendizajes
escuelas hayan utilizado para la evaluación referentes explícitos, sino que se valoraban los logros a partir de referentes implícitos, fueran éstos sociales o económicos, casi siempre con funciones selectivas. Se evalúa sin una teoría expresa de la evaluación. Dubois (1970) y Coffman (1971) citan los procedimientos que ya se empleaban en la China Imperial alrededor del segundo milenio a. C. para seleccionar a los aspirantes que iban a formar parte del alto funcionariado. Por su parte, Sundberg (1977) considera que en la Biblia hay un pasaje que bien pudiera tomarse como una evaluación, cuando Gedeón selecciona a unos luchadores empleando pruebas situacionales. En el mundo clásico griego, Platón, en su libro VII de la República, nos presenta un sistema de enseñanza en el cual la promoción es consecuencia de una evaluación claramente selectiva. McReynold (1975), además, estima que el Tetrabiblos, obra atribuida a Ptolomeo, es el libro de evaluación más importante de la Antiguedad. En la época romana, Cicerón, en su obra De Oratore, ya tiene en cuenta lo que en la actualidad llamaríamos evaluación formativa (cap. 15): el futuro orador ha de desarrollar sus talentos naturales y adquirir aquellos otros de los que carece, ambos descubiertos mediante una tarea de discernimiento. Por fin, san Agustín, en el tratado De Magistra, indica que han de establecerse criterios que permitan distinguir entre un sano realismo y un pedante verbalismo, con el fin de comprobar si el discípulo ha captado la esencia de las cosas no a través de vanas palabras, sino de leyes válidas. En la Edad Media aparecen los exámenes con un carácter más formal. En torno a ellos se centra todo el sistema universitario. Así, por ejemplo, la prueba para llegar a «magister»,llamada «inceptio»,era un claro examen oral público en donde el aspirante debía demostrar sus conocimientos en presencia de un tribunal; sin embargo, los fracasos en estos exámenes eran poco frecuentes, ya que sólo accedían a ellos los alumnos que obtenían el visto bueno previo de sus maestros. En el Renacimiento, como aportación significativa sobre la evaluación propia de nuestro entorno, mencionaremos la obra Examen de ingenios para las ciencias, de Juan Huarte de San Juan, publicada en Baeza en el año 1575, en la que ya se plantea la posibilidad de seleccionar a los individuos. Su procedimiento selectivo supone que los hombres difieren por sus habilidades, y que éstas se fundan en diferencias de naturaleza; las cuales, a su vez, son apreciables a través de exámenes físicos. Con Juan Huarte, la observación se convierte en instrumento básico para llevar a cabo la evaluación. Con el tiempo, las prácticas en los exámenes fueron conformando un conjunto de normas que las disposiciones de instituciones docentes fueron enriqueciendo. Así se introducen los exámenes escritos que se regulan con toda minuciosidad mediante criterios de evaluación para cada nivel y grado. Especialmente interesantes son los criterios que se recogen en Ratio atque Institutio Studiorum (1598, Nápoles, Tarquinio Longo), publicado en edición bilingue por Gil (1992). Este estado de cosas es el que llega a la época de la Ilustración. En el último cuarto del siglo XVIII, el pensamiento enciclopedista y la Revolución Fran-
Evolución
del concepto de evaluación
educativa
cesa favorecen el derecho de todos los ciudadanos a la educación, y también plantean la exigencia de que el acceso a la especialización se condicione a la comprobación -evaluaciónde los méritos individuales. Ya en la primera mitad del siglo XIX se asiste a un cambio con la instauración de los sistemas nacionales de educación vinculados a la concesión de diplomas garantizados por el Estado; el ejemplo más claro es el sistema educativo napoleónico. Tales diplomas se lograban después de superar un programa de exámenes, que dio lugar al «examen de Estado»; lo que capacitaba para desempeñar determinados puestos sociales y, en algunas ocasiones, eran el instrumento idóneo para determinar la jerarquía en la sociedad y aumentar el poder social (Barbier, 1993). Tal es el caso de los títulos de bachillerato concedidos por el gobierno francés a los que deseaban ser funcionarios civiles o militares. Lo mismo ocurría en Inglaterra con las comisiones reales que evaluaban los servicios públicos de instrucción, y cuyo referente evaluador era económico y de ajuste social. Surge así, según Weber, un sistema de exámenes que consagra una preparación específica para satisfacer las necesidades de una nueva sociedad jerárquica y burocratizada. En este sentido, dice Max Weber (Weber, M. [1956] Wirschaft und Gesellschaft, T. II, Berlin, Kinpenhauer und Witsch, pág. 735; citado por Barbier, 1993): «un sistema de exámenes jerarquizados, que consagra un entrenamiento específico y que permite la aparición de carreras específicas (..), Jn la Europa moderna, en relación con el desarrollo de las necesidades de una organización burocrática, que intenta poner en correspondencia individuos jerarquizados y comparables con lajerarquía de lospuestos ofrecidos». En este tiempo influyen poderosamente concepciones educativas y sociales como el Positivismo de Comte (1795-1857) y el Sociologismo de Durkheim (1858-1917). Los fenómenos sociales adquieren la categoría de realidades objetivas que rigen los procesos del desarrollo humano. Tienen el doble carácter de metas que deben ser alcanzadas y de condiciones genéricas de la existencia. En este sentido, se convierten en los únicos criterios de la evaluación que actúan como referentes, unas veces explícitos y, las más de ellas, implícitos. La conducta se mide tanto por lo que tiene que lograr como por lo que en ella interviene y la moldea de distintas maneras. No obstante, esas pruebas evaluativas quedan perfectamente integradas en el racionalismo académico europeo, preocupado casi exclusivamente de la instrucción académica. Mientras, empiezan a aplicarse en América las primeras técnicas evaluativas.Así en 1845, Horace Mann (1845) dirige una evaluación basada en tests de papel y lápiz, que llegan a implantarse en las escuelas de Bastan. Fisher, en 1864, siguiendo el camino iniciado por Mann, contribuye a hacer las evaluaciones con referentes más objetivos y explícitos respecto a determinadas destrezas lectoescritoras. Este modo de evaluar no responde a la aplicación de un enfoque teórico o paradigma. La evaluación se reduce más bien a un modo de hacer basado en prácticas rutinarias, que frecuentemente usan instrumentos de medida de poca fiabilidad.
27
28
La evaluación de aprendizajes
2.
ÉPOCA DE lOS TESTS PSICOlÓGICOS Se puede afirmar que el período de inicio y posterior desarrollo de los tests constituye el primer paso hacia una presentación científica de la evaluación; primero fuera del ámbito docente, para más tarde ir introduciéndose de forma paulatina en las escuelas. Es a partir de 1869 con Galton (fecha de publicación de su Hereditarius Genius), y sobre todo con la fundación por Thurstone en Chicago en 1935 de la Psychometric Society, cuando empieza el desarrollo de muchas de las técnicas de evaluación psicológica, a la vez que se estudian las condiciones psicométricas de fiabilidad y validez de los tests. Galton, influenciado por el paradigma «rasgos o factores» propio de la Psicología diferencial imperan te, se interesa por la medida de las diferencias individuales de carácter psicológico y crea el «test»como método prácticO y rápido para medir las peculiaridades de cada individuo, frente a la lentitud de otros procedimientos de análisis basados en patrones yen tipologías físicasy psíquicas. El uso en la Psicología del modelo de «rasgos o factores» y; en consecuencia, su aplicación a la evaluación está ligado al triunfo del evolucionismo de Darwin, así como a la buena imagen del darwinismo social propuesto por H. Spencer. Precisamente, el abandono de aquellos patrones psicofísicos en el campo de la Psicología favorece la elaboración y desarrollo de tests más ligados a la práctica docente. Así, las ideas reformistas de Rice (Ayers, 1918) le llevan a comprobar, hacia 1887, los conocimientos de ortografía de unos 30.000 estudiantes, usando pruebas objetivas; investigación que es considerada como la primera evaluación formal sobre un programa educativo. Siguieron experiencias semejantes con tests aplicados a otras materias, como la Aritmética. En esta misma época, Cattell (1861-1934), autor del término «test mental» y que pasa por ser uno de los primeros defensores de la medida objetiva de los tests, introduce un procedimiento de evaluación basado en la experimentación y; por tanto, repetible y comparable. Sin embargo, el test mental, tal como era entendido por Cattell, estaba aún ligado al asociacionismo inglés; de ahí, la falsa creencia de pensar que los factores intelectuales se podían medir a través de aspectos psicofísicos. Esta tendencia de aplicación de las prácticas psicológicas a la instrucción se ve reforzada gracias a las publicaciones de Thorndike (1904) sobre las facultades mentales y su medida, y a la aparición de tests estandarizados. Entre estos tests estandarizados se pueden citar: Escala para la escritura a mano de los niños de Thorndike, Test de razonamiento aritmético de Stone, Test de Escritura de Thorndike y de Ayers, Test de Ortografía de Ayers, Escala para el Dibujo de Thorndike, y otros tests y escalas como las de Courtis, Hillegas, Buckingham, etc. A partir de 1900, empezaron a adquirir importancia en Europa los estudios de Binet (1857-1911) sobre tests normativos y estandarizados para evaluar las
Evolución del concepto de evaluación
29
educativa
capacidades cognitivas. El desarrollo de este tipo de pruebas se vio en Francia por la promulgación de la ley sobre enseñanza obligatoria, buía a los niños por niveles a lo largo del sistema educativo, utilizando mativos. Con Binet empiezan los análisis de los procesos mentales mediante procedimientos sencillos, a través de tareas que pueden fuera de los laboratorios.
favorecido que distritests norsuperiores realizarse
Años más tarde, a causa de las necesidades de reclutamiento y de la asignación de puestos de responsabilidad, mando y manejo de instrumentos técnicos que exigía la situación de urgencia presentada por la Primera Guerra Mundial, surge la elaboración de tests colectivos de inteligencia general: el Alfa (para los lectoescritores), el Beta (para los analfabetos), y de cuestionarios e inventarias de personalidad, siendo el primero el de Woodworth (Phillips, 1974). Al término de la guerra, los tests psicológicos se ponen al servicio de fines sociales. Durante la década que va de 1920 a 1930, denominada período de los tests, se idean tests estandarizados, entre los que se pueden citar las baterías de test de aprovechamiento, el Stanford Achivement Test-1922 y las pruebas objetivas de McCall-1922, Ruch-1929, Rusell-1930 y otros, para medir toda clase de destrezas escolares con claros referentes objetivos externos y explícitos, basados en procedimientos de medida de la inteligencia, con los que se realizan evaluaciones a grandes colectivos de escolares. Estas aplicaciones estandarizadas son sorprendentemente bien acogidas en e! ámbito educativo. Aún más, McCall (1920) propone que los maestros construyan sus propias pruebas objetivas, en vez de confiar exclusivamente en las propuestas por especialistas externos. El final de este período se puede fijar hacia los años cuarenta del siglo pasado, cuando los tests psicológicos se perfeccionan con el desarrollo del cálculo estadístico y con e! análisis factorial, lo que permite identificar los rasgos mentales subyacentes. En Estados Unidos hacia los años cincuenta, surge un movimiento «antitest» que critica, entre otros aspectos, el que se centre exclusivamente en los alumnos y apenas en los currículos, lo que provoca la aparición de nuevas alternativas.
LOS INICIOS DE LA EVALUACiÓN CIENTíFICA EDUCATIVA La Docimología (neologismo, de! griego DOKLI.JlX¿;m = probar, propuesto por Pieron, 1968, para designar e! estudio científico de los métodos de evaluación; Pieron, 1969, y Bonboir, 1974, recogen en sus publicaciones las ideas principales de esta corriente evaluativa), que se inicia en Francia hacia 1920 y que pervive como corriente independiente hasta bien entrada la década de los cuarenta en que toma carta de ciudadanía con Tyler, supone un primer intento de concep-
3.
30
La evaluación
de aprendizajes
tualización de la evaluación educativa. Critica la baja calidad de los exámenes y la imprecisión de las calificaciones, debido a la variabilidad de las informaciones, a la heterogeneidad de los criterios empleados y, en fin, al divorcio entre lo que se enseña y las metas de la instrucción. La evaluación dependía, en último término, de la preparación académica y del talante más o menos exigente del profesor. Como solución, propone unas prescripciones -docimología prescriptivaque ayuden a superar la subjetividad de la valoración: a) elaboración de taxonomías para formular objetivos; b) diversificación de fuentes de información: exámenes, expedientes académicos, técnicas de repesca y tests; c) unificación de criterios de corrección a partir del acuerdo entre los correctores de las pruebas; d) revisión de los juicios de valoración mediante procedimientos tales como la doble corrección o la media de distintos correctores.
4.
LA REFORMA TYLERIANA Algunos consideran a Tyler como el padre de la evaluación educativa, ya que fue el primero en dar una visión metódica de la misma, superando, desde el paradigma conductista como corriente entonces en boga, la mera evaluación psicológica. Entre 1930 y 1945, en el famoso Eight-féar Study de la Universidad del Estado de Ohio (Smith y Tyler, 1942), plantea la necesidad de una evaluación científica que sirva para perfeccionar la calidad de la educación. Como resultado de estos estudios, publica en 1950 su obra más famosa, a saber, Tyler, R. W (1950) Basic principies of curriculum and instruction. Chicago: University of Chicago Press (en lo que se refiere a la evaluación, es obligado citar también: Tyler.1967), en la que hace una clara exposición de lo que entiende por currículo, integrando su método sistemático de evaluación educativa. El intento de Tyler es presentar un currículo racional delimitado por cuatro cuestiones: 1. 2. 3. 4.
¿Qué objetivos desea conseguir la escuela? ¿Qué actividades educativas se pueden aplicar para lograr esos objetivos? ¿Cómo pueden organizarse de manera eficaz esas experiencias? ¿Cómo podemos comprobar si se alcanzan los objetivos? OBJETIVOS (1)
ACTIVIDADES
ORGANIZACiÓN
EVALUACiÓN
(2)
(3)
(4)
Evolución del concepto de evaluación
educativa
La evaluación educativa, dice Tyler (1973: 109), es «aquel proceso que tiene por objeto determinar en qué medida han sido alcanzados los objetivos previamente establecidos». Como consecuencia, precisa las siguientes condiciones de una buena evaluación: a) propuesta clara de objetivos; b) determinación de las situaciones en que se estima que el alumno manifiesta la conducta esperada; c) elección de instrumentos apropiados de evaluación, normalmente tests; d) interpretación de los resultados de las pruebas; e) determinación de la fiabilidad y objetividad de las medidas. Podría representarse este proceso con el siguiente esquema:
Especificación de objetivos COMPARACiÓN Elaboración de pruebas
Resultados de las pruebas
Es de advertir que Tyler, aunque no lo desarrolla, alude también a que la valoración de objetivos de aprendizaje debe traer como consecuencia una toma de decisiones sobre los aciertos o fracasos de la programación y sobre la posibilidad de su perfeccionamiento; aspecto que retornarán, entre otros, Cronbach y Stufflebeam. Para Tyler,el eje de referencia de la evaluación son los objetivos, por lo que proporciona criterios suficientemente claros para su explicitación, aspecto eéste que en 1924 desarrolló Franklin Bobbitt, mejoró Henry Harap en la misma década, y racionalizó luego Tyler. En los años cincuenta, Benjamin Bloom y David Krathwohllo ejemplificaron en los ámbitos cognoscitivo y afectivo, respectivamente; y fue perfeccionado por Robert Mager (1977), que introduce en la formulación de los objetivos, además del verbo de acción que expresaba la conducta, el nivel de perfección deseable de las metas previstas. Se han de tener en cuenta: las necesidades e intereses del alumno, las necesidades de la sociedad, las peculiaridades de las ciencias que se estudian y las propuestas de la Psicología del Aprendizaje. A pesar de que se han de considerar todos estos elementos, a la hora de proponer los objetivos educativos, se suele elegir como punto de partida preferente alguno de ellos. Así, Tylerse plantea la siguiente disyuntiva: ¿Laescuela ha de servir para que los jóvenes se adapten a la sociedad o, por el contrario, para que el educando desarrolle su propia individualidad interaccionando con el
31
32
La evaluación
de aprendizajes
entorno? La respuesta condiciona la selección de objetivos y, por tanto, del referente. Hay que señalar que Tyler,lo mismo que sus coetáneos, está influido por Dewey, quien considera que la escuela debe perseguir el desarrollo individual, teniendo en cuenta, no obstante, que el proceso educativo es un proceso socializador y, por ello, sigue determinadas reglas sociales. El niño aprende por su relación con el entorno, y es allí donde recoge las herencias culturales, pero éstas no son tan fuertes como para determinar la personalidad del alumno. Las reformas tylerianas no se aplicarán de un modo inmediato (a España llegan con la Ley General de 1970). En la década de los cincuenta, período que Stufflebeam (Stufflebeam y Shinkfield, 1987) llama «época de la inocencia» o de la <
5.
EL PERFECCIONAMIENTO DE LA ACTIVIDAD EVALUATIVA: LA TOMA DE DECISIONES A principios de los años sesenta, resultaba muy llamativo el divorcio entre las acciones del proceso instructivo y los referentes que servían para valorado. La crisis económica obligaba a cuestionar muy seriamente la rentabilidad de las inversiones educativas, lo que provocó la proyección de la eficacia de esquemas de evaluación empresariales al mundo educativo por parte de autores como Cronbach, Suchman, Scriven, etc. Esta visión crítica, junto al «síndrome Sputnik», condujeron, en 1965, a establecer en Estados Unidos el Acta de la Educación Elemental y Secundaria (ESEA)ya crear el National Study Comitte on Evaluation. Tomaban definitivamente cuerpo nuevas conceptualizaciones al establecer una evaluación que no sólo pretende constatar el rendimiento del alumno relacionando los resultados con los objetivos, sino que introduce ya explícitamente la toma de decisiones
Evolución del concepto de evaluación
educativa
en relación no solamente con el aprendiz, también con los programas. La evaluación pasa de ser externa a considerarse como parte del mismo proceso educativo. Ya es patente la formulación de una teoría explícita sobre la evaluación en el ámbito propiamente educativo, con referencias al origen y finalidades instructivas según diversas concepciones ideológicas. Cronbach (1963, 1971) Y Cronbach y Snow (1969) hacen una crítica de las evaluaciones al uso por su carencia de relevancia y utilidad. Defienden que la evaluación, además de basarse en objetivos explícitos, debe ser principalmente una ayuda para que los educadores tomen decisiones acerca de cómo educar, destacando y elaborando lo que en Tylerhabía quedado como mera sugerencia. Laevaluación, según Cronbach (1963), es la recopilación y uso de información a fin de adoptar decisiones en cuanto a los programas educativos. Introduce, así, frente al uso tradicional de la evaluación fmal o del producto, cuya decisión única era la promoción o repetición de curso de los alumnos, el uso de la evaluación del proceso, enriqueciéndola con nuevos tipos de decisiones: a) decisiones sobre la mejora de la metodología: estrategias y materiales de instrucción; b) sobre el alumno: necesidades, selección, promoción, agrupación, progresos, deficiencias, etc.; c) sobre la calidad del sistema escolar: profesores, organización, etc. Suchman (1967) profundiza en la convicción de que la evaluación debe basarse en datos objetivos que sean analizados con metodología científica, matizando que la investigación científica es preferentemente teórica y; en cambio, la investigación evaluativa es siempre aplicada. Su principal propósito es descubrir la efectividad, éxito o fracaso, de un programa al compararlo con los objetivos propuestos y; así, trazar las líneas de su posible redefinición. Esta investigación evaluativa, para Suchman, debe tener en cuenta: a) la naturaleza del destinatario del objetivo y la del propio objetivo; b) el tiempo necesario para que se realice el cambio deseado; c) el conocimiento de si los resultados esperados son dispersos o concentrados; d) los métodos que han de emplearse para alcanzar los objetivos. Suchman, además, aboga por defender también los evaluadores externos, dado que los profesores, al estar muy implicados en los procesos instruccionales, pueden tergivesar la evaluación. Metfessel y Michael (1967) se sitúan dentro del enfoque «tyleriano», pero sin olvidar la consideración de la toma de decisiones de Cronbach. Su aportación se reduce a estructurar un modelo evaluativo en etapas, dirigidas por un evaluador externo pero con la participación del propio profesor. En esas etapas se articulan una serie de elementos que empiezan a considerarse consustanciales a la evaluación: la formulación de objetivos, la selección de instrumentos de evaluación, el análisis de las informaciones recogidas y las recomendaciones sobre posibles cambios en los programas. Scriven (1967, 1974, 1975 Y 1983) adelanta los planteamientos de una evaluación que aminora la importancia de los objetivos y la desplaza hacia las nece-
33
34
La evaluación
de aprendizajes
sidades educativas. Esta innovación aparecerá con más fuerza más tarde como uno de los enfoques de la evaluación cualitativa. Scriven pasó a la historia de la educación por haber sido el primero en formular la distinción entre evaluación «sumativa»y «formativa» (cap. 15). Los resultados obtenidos en una evaluación deben considerarse buenos o malos, no sólo de acuerdo con la consecución de los objetivos que se pretenden, lo que da lugar a la evaluación final o «sumativa», que hace un juicio de valor sobre los efectos de la enseñanza en e! alumno; también según las necesidades del alumno, es decir, lo que merezca la pena evaluar, lo que da lugar a la evaluación «formativ3.»,que recae, con intención de mejorarlos, sobre la metas, contenidos, procesos, procedimientos, actitudes, etc., tanto del profesor como del alumno. Owens (1971 y 1973) YWolf (1974 y 1975) desarrollan el llamado método «contrapuesto», que intenta iluminar los aspectos más importantes de un programa siguiendo un proceso dialéctico en e! que dos grupos de evaluadores, con referentes distintos, investigan los pros y los contras para contraponerlos. Este enfoque pretende ser más eficaz para identificar objetivos originalmente no previstos y para perfeccionar la toma de decisiones en el campo de la educación. Stufflebeam (1967) Y Shinkfield (1985) consideran que la evaluación es víctima de una grave enfermedad causada por el escepticismo, la ausencia de directrices, la pésima calidad de la práctica evaluativa, etc. Para superar este estado de cosas, es necesario reformar el concepto de evaluación y todo lo que ello implica, con objeto de definir el qué, e! cómo y e! para qué se han de valorar los programas educativos. Así, Stufflebeam y Shinkfield (1987: 163) consideran que «la evaluación es un proceso para identificar, obtener y proporcionar información útil y descriptiva acerca del valor y el mérito de las metas, la planificación, la realización y el impacto de un objeto determinado, con elfin de servir de guía para la toma de decisiones, solucionar los problemas de responsabilidad y la comprensión de los fenómenos implicados», todo ello resumido en el acrónimo CIPP: evaluación del contexto, del «input», de! proceso y del producto. Pero añaden que en una evaluación interna se corre el riesgo de realizar una falsación de! programa que se quiere evaluar. Por ello, indican que es necesario valorar también la propia evaluación, es decir, desarrollar una «metaevaluación con normas estandarizadas», de manera que se manifiesten las conclusiones objetivas no sólo de la acción evaluada, sino también de la misma evaluación.
Evolución del concepto de evaluación
35
educativa
LOS EVALUADO RES DE LA «NUEVA OLA» En 1972, McDonald y Parlett convocan en Inglaterra una «Conferencia de Evaluadores» que se celebra en Cambridge y a la que asisten, entre otros, Hamilton y Stake. Al término de la conferencia, se hizo pública una declaración de intenciones que refleja el comienzo de la corriente de la evaluación «cualitativa»y la postura de los que Stenhouse (1984) llama evaluadores de la «nueva ola». Todos estos autores se hallan cerca del paradigma cognitivo. Esto supone que para evaluar hay que hacer un análisis de las estrategias cognitivas, así como del empleo de técnicas proyectivas que pongan de manifiesto los estados mentales del alumno. Todas las teorías que surgen en este momento coinciden en señalar la fragilidad del modelo de objetivos, ya que reduce la evaluación del proceso instructivo a términos maniqueos de éxito o fracaso, sin llegar a comprender toda la riqueza del mismo. Ante la excesiva parcelación de objetivos y fijación de procesos de enseñanza-aprendizaje, acentúan la libertad intrínseca del sujeto e intentan elevar esta visión a paradigma que sirva para sustentar una práctica evaluadora, en el marco de una educación cuya finalidad no siempre es conseguir productos de uso. Hagamos, dicen, una escuela en la que se equilibren dos mundos, el de la eficacia y el de la libertad. Este posicionamiento, que evoluciona buscando un nuevo sentido de la evaluación desde perspectivas cognitivas y sociológicas, es sólo una manifestación de una polémica mucho más amplia entre dos paradigmas, el conductista y el cognitivo. McDonald (1971 y 1973) es el autor del llamado enfoque «halística», en el que todas las informaciones relativas al currículo son igualmente importantes. No se puede evaluar teniendo sólo en cuenta determinados datos, aunque éstos sean tan importantes como los rendimientos de los alumnos. La tarea del evaluador, que es externo, consiste en obtener y comunicar esas amplias y variadas informaciones. Serán los agentes que reciben esa información, profesores y autoridades educativas, quienes tomen las decisiones correspondientes. Parlett (1972) y Hamilton (1977) critican también el modelo de una evaluación por objetivos, ya que se muestra inadecuado para comprender la complejidad educativa y, en consecuencia, insuficiente para una toma de decisiones. Proponen la llamada evaluación «iluminativa», que también tiene en cuenta la totalidad del currículo, es decir, su fundamentación, evolución, realizaciones, dificultades y, además, sus ventajas e inconvenientes en las más diversas situaciones escolares. Aunque estiman que el fin de la evaluación es tomar decisiones, las tareas del evaluador, como ya había indicado McDonald, se deben reducir fundamentalmente a recoger información neutral para iluminar las dificultades del currículo. Para ello se usan la observación, las encuestas en forma de entrevistas y cuestionarios, el análisis de documentos, etc. La toma de decisiones se somete a la participación democrática de todos los afectados, ya que la evaluación ha de tener en cuenta los intereses de todos aquellos a quienes afecta el currículo.
6.
36
La evaluación
de aprendizajes
Stake (1967, 1975 Y 1976), corno reacción a la noción «tyleriana»de la evaluación preocupada por la fiabilidad de las puntuaciones y la validez de las predicciones, evaluación que llama
o
o, ro "O"O esea que pasen) peraciones como Operaciones actividades elación lógica egar) stir) ue Q)
'uro <..>
deseados :::l e(5deseados ecomo realmente han acontecido) observados Antecedentes (Las yoperaciones Resultados planeadas Antecedentes Relación empírica observadas oQ) verdaderamente (Las condiciones existen) que (Los se han resultados obtenido) que Operaciones actividades Relación empírica
ógica
Todo ello da lugar a la evaluación «respondente», cuya finalidad es ayudar al «cliente»,al alumno, a superar tanto sus problemas corno los defectos del currículo establecido para solucionárselos; lo que exige que el evaluador responda a las demandas que se le presentan negociando, mediante una comunicación continua con el «cliente», lo que debe hacerse; Amal, del Rincón y Latorre (1992) desarrollan ampliamente el modelo de Stake. Stenhouse recoge las recomendaciones de la conferencia de Cambridge sobre la evaluación en el Humaníty Currículum Project (Stenhouse, 1981); sin
Evolución
del concepto de evaluación
educativa
embargo, está en contra de la distinción entre evaluador externo y el que desarrolla el currículo, porque los únicos que pueden evaluado son los mismos protagonistas, profesores y alumnos. y también, aunque reconoce sentirse deudor de las aportaciones de los evaluadores de la «nueva ola», critica la falta de claridad de sus criterios para la valoración del currículo, por lo que propone la consideración de los siguientes aspectos: a) La evaluación de un currículo consiste más en aclarar su significado que en calcular su valor. y esto sólo puede determinarse mediante la observación empírica de lo que ocurre en el aula (criterio de significado). b) Es necesario estudiar su potencial, el «para qué ...», en relación con el perfeccionamiento de capacidades, motivación, etc. (criterio de potencial). c) Hay que considerar los problemas que el currículo plantea en la práctica; interesantes por su rentabilidad, en la medida en que sean susceptibles de repetirse en diferentes situaciones o porque adquieran especial relevancia (criterio de interés). d) El evaluador debe poner en relación el potencial y el interés del currículo con las condiciones contextuales y ambientales de la realidad práctica de la escuela o del aula. Ello permite anticipar las consecuencias de las decisiones que se tomen en un ámbito determinado (criterio de condicionalidad). e) Es necesario estimar el valor de un currículo respecto de las innovaciones y cambios deseados en la educación en general o en una escuela en particular (criterio de elucidación). Eisner (1988) que, antes de ser profesor de educación, fue pintor, propone sustituir, o al menos complementar, la evaluación basada en planteamientos «científicos» por informes educativos periciales inspirados en las prácticas de los críticos de arte. Afirma que la pericia, también en educación, es el arte de la percepción que supone la comprensión de las características de una realidad compleja; ser perito en vinos, por ejemplo, es ser capaz de distinguir las sutilezas de las diversas denominaciones y «añadas» a partir de datos gustativos, visuales y cenestésicos. La crítica, por otro lado, es el arte de la comunicación; el crítico es un perito que no se contenta con comprender las cualidades de un objeto o suceso, también pretende revelar a otros menos iniciados lo que él ha descubierto; en nuestro caso, la compleja realidad educativa y sus consecuencias. La crítica pericial que propone Eisner implica hacer una descripción vívida y detallada de la realidad educativa que se quiere evaluar por medio de representaciones no sólo numéricas, también literarias, visuales estáticas o dinámicas, etc., cada una adecuada para una determinada situación. El mismo Eisner, sin embargo, confiesa que estos métodos cualitativos son sutiles y requieren «arte»; además, resulta compleja la verificación de sus conclusiones.
37
38
La evaluación
7.
de aprendizajes
LA EVALUACiÓN EDUCATIVA DESDE LA PSICOLOGíA DEL APRENDIZAJE Desde Tylerhasta nuestros días ha habido múltiples aportaciones de la Psicología del aprendizaje al campo de la evaluación educativa; aportaciones que se pueden relacionar también, reduciendo los matices, con los paradigmas conductista y cognitivo, que, como hemos visto, han inspirado la mayoría de los modelos evaluativos.
7.1.
Enfoquecondudual Prescindiendo de posturas extremas, como la de Watson, que casi nunca entraron en el ámbito educativo, es uno de los enfoques que sigue influyendo en las evaluaciones docentes. Considera que los comportamientos de un sujeto son fundamentalmente una consecuencia de lo que aprende. Lo mental es cualitativamente similar a la conducta manifestada; por consiguiente, la evaluación se basa en el estudio de la conducta observable que puede ser comprobada por observadores independientes. Como la conducta queda definida por el binomio estímulo-respuesta, es decir, por la relación entre los factores ambientales -estimulosy los factores conductuales -respuestas-, la obtención de la información sobre esa conducta consiste en un análisis (coincide con el modelo A-B-C,es decir análisis del comportamiento [B=behavior], sus antecedentes [A]y sus consecuentes [C]), cuyas fases, según Peterson (1968), son: a) observación sistemática de la conducta, en nuestro caso de los aprendizajes del alumno; b) observación sistemática de la condiciónestímulo que precede al comportamiento; c) manipulación experimental de una condición que está relacionada funcionalmente con la conducta; d) observación y registro posterior de los cambios en el comportamiento. La evaluación conductual se realiza básicamente a partir de una valoración criterial (cap. 13), y los criterios se toman de la fuente sociológica del currículo. Se trata, por tanto, de comprobar la presencia o ausencia de aquellas conductas o de aquel conjunto de repertorios conductuales precisados en objetivos operativos que vienen exigidos por la sociedad. El enfoque conductual desemboca fundamentalmente en la evaluación cuantitativa, que históricamente se redujo de hecho a la medida del éxito o fracaso de los resultados del aprendizaje con valoraciones criteriales sumativas (cap. 15), por mucho que sus defensores manifiesten en teoría que este tipo de evaluación no tenga que reducirse a una clasificación de alumnos por su capacitación" sino que, sólo a partir de la valoración de rendimientos, se puede y debe llegar al análisis y a la valoración de la metodología empleada, de la com-
Evolución
del concepto de evaluación
39
educativa
petencia del profesor, de la organización del centro, del sistema tutorial general, de todos los elementos del proceso de instrucción.
y,
en
Un avance de este planteamiento se produce con el enfoque neoconductual, representado sobre todo por Gagné (1970), también por Gagné y Briggs (1976), para quien la evaluación no sólo ha de tener en cuenta las conductas observables, sino también las capacidades implícitas en los objetivos propuestos de acuerdo con las características individuales de cada aprendiz.
Enfoquecognitivo 7.2. Este enfoque está representado por Ausubel (1976) y también por Ausubel y Sullivan (1980), que consideran que la evaluación ha de tener en cuenta el modo en que los sujetos representan e! conocimiento en sus estructuras previas. Esta forma de evaluar (Greeno, 1980) viene determinada por la necesidad de utilizar en la evaluación las mismas técnicas de representación que los profesores usan para enseñar y los alumnos para aprender conceptos, métodos y destrezas propios de su proceso de aprendizaje. Estas técnicas son las redes semánticas que sirven de guía para formular las pruebas de evaluación. Posner (1979) también se valió de las redes semánticas para explorar lo que sabían sus alumnos antes y después de un proceso de enseñanza-aprendizaje. Antes, para comprobar los conocimientos previos con respecto a los objetivos nuevos que se iban a transmitir; y después, para valorar la modificación de las estructuras previas y la forma en que se ha integrado la nueva información. En una línea muy parecida, Novaky Gowin (1988) utilizan para evaluar aprendizajes los mapas conceptuales mediante la comparación entre el mapa conceptual elaborado por e! alumno y un «modelo» establecido previamente por e! profesor. También sugieren, en la línea de Posner, la posibilidad de comparar los mapas conceptuales de! alumno antes y después del proceso de instrucción. La conclusión más importante que se puede obtener a partir de este enfoque es la necesidad de evaluar teniendo como referente los conocimientos previos del alumno, que constituirán la base para la valoración de los nuevos aprendizajes, para establecer a partir de los mismos los avances conseguidos y la posterior toma de decisiones.
LA PRÁCTICA EVALUATIVA EN LA ACTUALIDAD Sin contar la práctica evaluativa acrítica, heredera del racionalismo academicista europeo, que se reduce a proponer exámenes y a dar notas repitiendo como
8.
40
La evaluación
de aprendizajes
profesores el modelo que han soportado como alumnos, nos encontramos con que actualmente aún subsisten en una extraña convivencia muchos de los enfoques o modos de evaluar conductuales,neoconductuales y cognitivos que han ido apareciendo a lo largo de la historia de la educación, algunos de los cuales han sido objeto de estudio en el presente capítulo. Podríamos decir que cada una de esas aproximaciones evaluativas mantiene hoy lo que de más relevante y práctico había en ellas. Como novedad relativa en la actualidad, se pueden citar los matices que introducen tres nuevos enfoques.
8.1.
La evaluacióncualitativa Unas fuertes influencias sociológicas con matices ideológicos y orientaciones cognitivistas dan lugar a la evaluación cualitativa, entre cuyas características se pueden señalar las siguientes: a) Se subraya la importancia de los procesos sobre los productos del aprendizaje. Lo decisivo no es lo que el alumno aprende, sino más bien cómo lo está aprendiendo. Esta concepción del proceso instruccional en que el alumno es el protagonista, justifica la predilección por el uso de la evaluación formativa (cap. 15). b) Se recoge también como función principal de la evaluación el proporcionar una información holística o global, y de ahí la necesidad de evaluar todos aquellos factores que afectan al proceso instructivo: presupuestos, condiciones, estilos, estrategias y ritmos de aprendizaje, rendimientos, relación entre esfuerzo y resultados, etc., y, en general, los distintos intereses de los sectores implicados mediante un tratamiento democrático de la información, es decir, teniendo en cuenta las aportaciones de profesores, alumnos y demás agentes educativos. c) La evaluación es básicamente personalizada y se hace de acuerdo con los intereses y aptitudes de cada alumno. Se usan los presupuestos metodológicos de la investigación etnográfica (descripción de un modo de vida, de una cultura, teniendo en cuenta el punto de vista de los nativos), que recoge múltiples informaciones a través de escalas de observación y control, informes de observadores externos, encuestas en forma de entrevistas y cuestionarios, análisis de tareas, estudio de casos, etc. No cabe el uso de las típicas pruebas objetivas o de ensayo. La evaluación cualitativa no queda codificada en una calificación al estilo tradicional, sino más bien en un informe (Stenhouse, 1987: 140): «Siyo como estudiante me fío del juicio de mi profesor, deseo más bien una crítica que una calificación. En el caso contrario, desearía más una calificación que una crítica". Lo que late debajo de este texto es la vieja polémica entre el uso de métodos cuantitativos y cualitativos. Los defensores de la evaluación cualitativa ven también en la atribución de números a las realidades edu-
Evolución del concepto de evaluación
41
educativa
cativas una fuente de engaño (Santos Guerra, 1988); es de advertir que el término «números» lo refieren también a los eufemismos de «apto», «insuficiente», etc. La evaluación cualitativa aparece aplicada de un modo claro en el modelo de «investigación-acción» (Kemmis, 1988, cita a Collier, 1945, ya Lewin, 1946, 1947 Y 1952, como los iniciadores de la «investigación en la acción»), que puede definirse como el proceso por el que los prácticos -profesorespretenden resolver sus problemas de un modo científico, con el fin de dirigir, corregir y evaluar las consecuencias de sus decisiones. Esta metodología resucita en los años ochenta con la corriente denominada de «animación pedagógica» (Barbier, 1977) y en los proyectos de «investigación cooperativa» (Cabrera, Espín y Rodríguez, 1988; Ward y Tikunoff, 1982), iniciativas ambas para poner en marcha y evaluar los proyectos de innovación educativa. Estas corrientes, como es sabido, han sido objeto de diversas matizaciones. R. Neira (2002) señala como de especial interés las observaciones de Carr (1989, 1990) Ylas de Elliott (1990,1993).
La evaluación basada en el currículo Actualmente se oye también la expresión «evaluación curriculaf», aunque, como confiesan algunos de sus defensores (Tucker, 1985), poco hay de nuevo en ella, a no ser su preocupación por evaluar los rendimientos insuficientes y proponer, siguiendo las exigencias de la evaluación formativa (cap. 15), una intervención para superar esas deficiencias. Empezó a emplearse en Estados Unidos por los mismos años en que en Europa aparecieron los evaluadores de la «nueva ola», aunque es difícil determinar el grado de influencia mutua y en qué sentido fue. Ambos toman el currículo como referente de la evaluación educativa. Ocurre que consideran que los currículos deben ser abiertos, es decir, deben variar de un centro a otro y, en consecuencia, también los referentes de la evaluación. Se podría resumir, por tanto, este enfoque en el aforismo: «Evalúa lo que enseñas, y enseña lo que evalúas». Son tantos los modelos que han aparecido bajo la etiqueta de «evaluación curricular» y, por otro lado, tan repetitivos en sus planteamientos, que nos vemos obligados a remitimos a las referencias bibliográficas: Modelo Gickling-Thompson (1985), Modelo Blankenship (1985), Modelo Howell-Morehead (1987), Modelo Salvia-Hughes (1990). Citamos aparte el Modelo de Carrascosa el al. (1991) porque integra las aportaciones de muchos de ellos. En este modelo se destaca que los rendimientos del alumno deben analizarse teniendo en cuenta al propio alumno y su estilo de aprendizaje y, sobre todo, los elementos físicos, sociales y personales del contexto curricular. Como todos estos modelos, defiende una evaluación formativa (cap. 15) e intenta integrar conceptualizaciones y prácticas tan diversas como el análisis conductual, los tests de rendimiento, la teoría de la construcción de tests, las aportaciones de la psicología cognitiva y de la psicología social, etc.
8.2.
42
Laevaluaciónde aprendizajes
8.3.
La evaluaciónadaptativa En este apartado pretendemos apuntar las tendencias que se detectan actualmente en la investigación y el desarrollo de la evaluación educativa. Lo primero que cabría señalar, porque va a teñir todo lo demás, es que tanto la investigación básica como la aplicada en el campo de la medición educativa gozan en la actualidad de una excelente salud. Basta echar una ojeada a lo que se publica en las revistas internacionales especializadas o a los congresos anuales más representativos, tales como los de la American Educational Research Association (AERA)o la National Council on Measurement in Education (NeME), para constatado. No está de más subrayar este interés actual por el rigor y la objetividad en la medición educativa, puesto que no siempre ha sido así, especialmente en nuestro país. En líneas generales, se asume que sin una medición educativa rigurosa no puede haber una educación eficiente. Medir con precisión para enseñar con rigor podría ser el lema de los tiempos que corren. Ese sería el escenario; pero, ¿cuáles son los problemas candentes y los focos de debate actuales que ocupan a investigadores y profesionales? Veámoslo, yendo de lo más general a lo más específico. En los últimos 20 años ha tenido lugar un enorme desarrollo de la tecnología psicométrica, que ha impulsado y potenciado la construcción y análisis de los instrumentos de medida en las ciencias sociales, la educación incluida (Linn, 1989), con la aparición de la familiade modelos englobados bajo la denominación genérica de Teoría de Respuesta a los Ítems (Hambleton, Swaminathan y Rogers, 1991; Lord, 1980;Muñiz, 1997a;Van der Linden, 1997). Este nuevo enfoque ha permitido dar solución a un viejo problema central que no encontraba una salida adecuada dentro del marco de la aproximación clásica; a saber: la Teoría de Respuesta a los Ítems (TRl) va a permitir evaluar a las personas en una determinada variable sin necesidad de utilizar la misma prueba para todas ellas. Esto será posible debido a que los modelos de la TRl expresan en la misma métrica puntuaciones obtenidas por medio de pruebas distintas, lo cual era imposible bajo la óptica clásica. Nótese que, dentro del acercamiento clásico, si se desea comparar a dos personas en una variable, ha de aplicárseles el mismo test; si bien es verdad que, para sortear este escollo, se venían utilizando algunos remedios estadísticos que funcionaban razonablemente bien en la práctica. Expresado en pocas palabras, los modelos de la TRl generan mediciones invariantes respecto de las pruebas utilizadas para obtenedas. Esta importante característica liberaliza el uso de los instrumentos de evaluación, permitiendo una medición ajustada al sujeto, mediante la adaptación de la prueba a las características de la persona evaluada. Esta propiedad, en conjunción con los potentes ordenadores personales, va a dar lugar a la revolución tecnológica más importante de los últimos años en el campo de la medición educativa: los TestsAdaptativos Informatizados (TAl). Valiéndose de amplios bancos, que recogen la elaboración continua de ítems para reponedos y actualizados, y mediante los TAl, se aplica a cada persona el
Evolución del concepto de evaluación
educativa
test que mejor se adapta a sus características. Las ventajas que esto conlleva son enormes, tanto en la precisión de las mediciones como en el tiempo invertido, incluso en la satisfacción de los examinados, que de este modo se enfrentan a pruebas acordes con su nivel, por lo que se minimizan los aspectos frustrantes que lleva anejos toda evaluación. En algunos países, este tipo de evaluación se está imponiendo rápidamente por las ventajas que ofrece tanto para el examinador como para los examinados (Olea, Ponsoda y Prieto, 1998, 1999; Muñiz, 1996; Renom, 1993, 1997; Van der Linden y Glass, 2000; Wainer, 1990). El uso de los TAl plantea todo un conjunto de problemas técnicos nuevos sobre los que trabajan intensamente los especialistas en la actualidad. Cabría citar, por ejemplo, la nueva forma de estimar la fiabilidad mediante la Función de Información, que permite calcular la precisión de las pruebas para los distintos niveles de la variable medida, en vez de ofrecer un valor global como hacía el coeficiente de fiabilidad clásico; o los nuevos métodos para evaluar el sesgo de los instrumentos de medida, en la actualidad rebautizados como Funcionamiento Diferencial de los Ítems (Camilli y Shepard, 1994; Fidalgo, 1996; Holland y Wainer, 1993). Un campo clásico de la medición educativa como son los TestsReferidos al Criterio (Berk, 1984; Glaser, 1963; Muñiz, 2003; Popham, 1978), ha cobrado un nuevo impulso gracias a la TRl, sobre todo en lo relativo a la estimación de la fiabilidad, mediante la función de información, la cual posibilita un establecimiento más riguroso de los puntos de corte, de modo que minimicen los errores al clasificar a las personas según dominen o no el criterio/dominio evaluado. Los métodos para establecer los puntos de corte de forma rigurosa siguen generando en la actualidad abundantes investigaciones, dada la relevancia que ello puede tener para la vida académica y profesional de muchas personas (Berk, 1986, 1996; Cizek, 1996; Muñiz, 2003). Otro campo clásico que ha sido muy potenciado por la irrupción de la TRl ha sido la construcción de los ítems (Haladyna, 1994; Osterlind, 1998), al convertirse éstos en la unidad de medición y análisis en detrimento del test, como queda bien patente en la propia denominación de la TRl. Asimismo, la construcción automática de ítems y tests por ordenador (Hambleton, Slater, Narayana y Setiadi, 1996) es otra línea en la que se trabaja activamente. Si bien las líneas y temas señalados ocupan las energías de la mayoría de investigadores y profesionales en la actualidad, a la vez que constituyen el paradigma dominante en la medición educativa, existen otros análisis y posicionamientas que pugnan por abrirse paso. Es el caso, por ejemplo, de todo lo relacionado con la ética y deontología de la evaluación educativa, y es que de poco vale una tecnología de evaluación poderosa sin las riendas ético-deontológicas. No hay que olvidar que se evalúa a personas y sobre ellas se toman decisiones, de modo que toda precaución en este sentido es poca. Los profesores, amén de otros colectivos relacionados con la educación, y la propia administración deberían ser conscientes de la necesidad de una buena preparación en la tecnología de la evaluación, lo que redundaría en beneficios para el proceso educativo y
43
44
La evaluación
de aprendizajes
para los alumnos evaluados. En este sentido, son muy interesantes las directrices elaboradas por la federación de profesores americanos y otras asociaciones sobre las competencias requeridas por los profesores para evaluar a los alumnos (American Federation of Teachers, 1990), así como las directrices para el uso adecuado de los tests en ámbitos educativos elaboradas por varias organizaciones educativas Goint Committee on Testing Practices, 1988). Finalmente, no se puede pasar por alto el «chisposo» debate surgido en torno a lo que ha dado en llamarse un tanto pretenciosamente evaluación auténtica (Bravo y Fernández del Valle, 2000; Hakel, 1998; Powell, 1990), como si otras formas de evaluar no lo fuesen. Los partidarios de este enfoque argumentan a favor de una evaluación alejada de situaciones estandarizadas en cuanto a formato de respuesta de las pruebas y otros aspectos, abogando por dar un mayor realismo al proceso evaluativo, para acercar la evaluación lo más posible a la situación real que se pretende medir. En realidad, esto no es nada nuevo, pues técnicas como el muesfreo de conductas reales en el puesto de trabajo o la utilización de centros de evaluación en los que se simulan las condiciones reales son bien conocidos y utilizados en psicología industrial y del trabajo desde hace mucho tiempo. En el ámbito educativo, dos formas de evaluación en esta línea auténtica serían la evaluación de rendimientos (Performance Assessment) y el portafolio. En la evaluación de rendimientos, se trata de evaluar a través de ejecuciones concretas del examinado, en vez de utilizar pruebas estandarizadas. En el caso del portafolio, la idea es que el alumno presente un portafolio o carpeta en la que incluya todos los trabajos que considere oportunos para demostrar su preparación en un determinado campo. De entrada, la idea de introducir realismo en el proceso evaluativo parece razonable, pero su implementación en la práctica conlleva numerosos problemas aún no bien resueltos, como es la estimación de la fiabilidad de las evaluaciones o su elevado coste en tiempo y dinero. El debate sigue abierto y, hoy por hoy, no hay evidencia empírica de que estas alternativas ofrezcan mediciones más fiables y válidas que las aportadas por las evaluaciones convencionales estandarizadas; y éstas y otras propiedades psicométricas son irrenunciables, hágase la evaluación en nombre del principio que se haga. Al hilo de este planteamiento de la evaluación auténtica, se reabren viejas polémicas, como el uso de los ítems de elección de respuesta frente a los de respuesta construida (Hakel, 1998; Osterlind, 1998), o se retornan otras latentes como la surgida en torno a la validez consecuencial (Messick, 1989), relativa a si el estudio de la validez debe o no de incluir las consecuencias del uso de los tests. Nadie duda de que vigilar el uso adecuado de los tests es de suma importancia, pues la mayoría de los 21:>U50S se producen más por la mala práctica que por fallos en las propiedades psicométricas de las pruebas (Frederiksen, Mislevyy Bejar, 1993; González-Romá y Espejo, 2003; Prieto y Delgado, 1996, 1999, 2003); pero el que esto sea así no parece avalar que haya que incluir las consecuencias del uso de los tests en los análisis de validez, pues ello sacaría la validez del ámbito técnico y científico donde se encuentra para alojada en el más resbaladiZO de los valores. Mezclar
Evolución del concepto de evaluación
educativa
ambos tipos de problemas no parece que vaya a ser beneficioso ni para la validez ni para la mejora del uso de los tests. Además de estas razones, la utilización de aplicaciones informáticas enriquecidas con medios audiovisuales e internet está potenciando de manera insospechada la utilización de bancos de pruebas objetivas de estructuras varias (Parshall y Balizet, 2001; parshall, Davey y pashley, 2000; Zenisky y Sireci, 2000). Queden ahí estos apuntes generales sobre algunos de los temas que más atención están recibiendo actualmente en el campo de la medición educativa. Otros muchos podrían citarse, lo que pone de manifiesto la gran actividad investigadora que está teniendo lugar en este ámbito con tan fuertes implicaciones sociales.
LA EVALUACiÓN EN EL SISTEMA EDUCATIVO ESPAÑOL 9. Los interesados podrán encontrar en Álvarez Méndez (1994) una interesante exploración diacrónica documentada de la evaluación escolar a lo largo de los sistemas educativos españoles, Aquí es obligado citar la Ley General de Educación de 4 de agosto de 1970 ya que, introduciendo cambios radicales y novedosos en diferentes aspectos, hace que en el sis~ema educativo español pueda hablarse con propiedad de evaluación. Es más, en fechas posteriores, apenas ha habido modificaciones relevantes en lo que se refiere a la evaluación del rendimiento educativo. A partir de dicha Ley,la educación general se considera no ya como un proceso selectivo, sino de formación integral del alumno: De acuerdo con esto, según la Orden de 16 de noviembre de 1970, la eval\lación se concibe como una actividad sistemática, integrada en el procesp educativo, cuya finalidf1d es el mejoramiento del mismo mediante un conocimiento, lo más exacto posible, del alumno en todos los aspectos de su perso.nalidad y una información ajustada sobre el proceso educativo, sobre losfactores personales y ambientales que en éste inciden, Es, pues, ahora cuando la normativa empieza a considerar una serie de aspectos referentes a la evaluación: Consiste en una apreciación cualitativa que, como parte de la propia actividad educativa y mediante un seguimiento continuo del alumno, ha de servir para valorar tanto su formación como su capacidad de aprendizaje posterior, Desde este momento, la evaluación deja de considerarse, pues, como un apéndice del proceso y ajeno a él mismo, como una continua realización de exámenes y como un mero procedimiento selectivo, Sus funciones han de ser de diagnóstico, pronóstico, orientación y promoción; y ha de servir para establecer tanto dicha promoción como la recuperación o la repetición,
45
46
La evaluación
de aprendizajes
Ha de ser hecha primordialmente por el profesor, pero se habla también de la autoevaluación del alumno como medio para que éste llegue a conocer su propio proceso de aprendizaje. Debe llevarse a cabo de modo permanente, evaluación continua, que ha de tener su peso en la valoración del curso; aunque, para esta última, se considera también el resultado del examen final previsto en la Ley. Según la etapa educativa, la evaluación quedará formalmente expresa en los boletines de notas en tres, cuatro o cinco ocasiones a lo largo del curso. Sin embargo, debido entre otras cosas al peso de la tradición, en la realidad del aula este concepto de evaluación se fue desvirtuando, alejándose así de los aspectos formativos que contenía la Ley.De hecho, por ejemplo, la evaluación se siguió asentando en los exámenes tradicionales, y la evaluación continua se convirtió realmente en una continua evaluación, es decir, en una continua realización de pruebas.
A modo de conclusión El desarrollo y la constitución de las prácticas evaluativas a lo largo de la historia de la educación han supuesto la pervivencia selectiva de una serie de enfoques y modelos, muchos con mayor incidencia en la investigación educativa que en la práctica de la evaluación docente, que se han ido sucediendo, reiterando y superponiendo hasta llegar a la realidad actual, como hemos ido viendo en las páginas precedentes. En un primer período precientífico, la evaluación, sin fundamento teórico alguno, se reducía fundamentalmente a la comprobación del rendimiento escolar con objeto de determinar la posible promoción de los alumnos hacia cometidos diversos. La evaluación era espontánea e interna al aula, ya que al profesor, por el hecho de serio, se le suponía una competencia incuestionable para evaluar a sus alumnos. La preocupación se centraba en desarrollar instrumentos adecuados; primero fueron los exámenes orales y luego se evolucionará hacia los escritos tipo ensayo. El período de los tests supuso un avance significativo, no sólo por la introducción de las pruebas objetivas en la escuela, sino sobre todo porque, aunque evaluar seguía siendo comprobar rendimientos, se amplía el campo a la personalidad, inteligencia, actitudes, etc., y a la vez se introduce la evaluación externa al aula. Fue a partir de Tylercuando la evaluación educativa se estructura y teoriza, a partir del paradigma conductista, para convertirse en un proceso que tiene por fin determinar en qué medida han sido alcanzados los objetivos; es decir, a la
Evolución del concepto de evaluación
educativa
comprobación seguía una valoración que ponía de manifiesto el grado de coherencia que existía entre los resultados esperados y los obtenidos. Evaluar empezaba a ser comprobar resultados para emitir, según unos criterios de referencia, un juicio de valor que se plasmaba en una calificación. En un período posterior de reflexión, en el que se intenta introducir en la escuela la eficacia empresarial, se añade formalmente un nuevo elemento a la evaluación, la toma de decisiones. A partir de ahora, en que la evaluación se consideraba casi definitivamente estructurada, la preocupación se centró en debatir sobre la calidad y cantidad de información necesaria para realizar una adecuada valoración y posterior toma de decisiones. El contenido de las informaciones, sobre todo en el racionalismo académico europeo, había re caído restrictivamente sobre los rendimientos. Precisamente, el movimiento docimológico se explica como un intento de perfeccionar ese academicismo. Durante la euforia conductista, la valoración y toma de decisiones se aplicó a los resultados reflejados en una conducta final observable formulada en forma de objetivo operativo, lo que se superó con las aportaciones neoconductistas aplicándolas también a las capacidades implícitas en los objetivos. Desde la perspectiva del paradigma cognitivo, estos modelos de la pedagogía por objetivos empiezan pronto a ser considerados insuficientes para suministrar referencias apropiadas que nos permitan tomar buenas decisiones. Surge así la dialéctica entre la exactitud y la riqueza; es decir, ¿nos interesa más que la evaluación sea exacta o que abunde en matices y consideraciones? La tensión hacia el rigor había llevado a insistir en la objetividad, en el control de las situaciones, en la automatización de la corrección, en la reducción de la evaluación a las conductas observables y cuantificables, en la importancia de la fiabilidad de los datos obtenidos, etc.; así surgieron las pruebas objetivas, los tests estandarizados, la observación mediante sistemas de categorías operativizadas, etc. Otra valoración desde el cognitivismo sobre estos planteamientos la recoge Zabalza (1989) que, en primer lugar, subraya cómo la evaluación no debe ser un hecho puntual; sino un conjunto de pasos que se condicionan mutuamente, se ordenan secuencialmente, son un proceso, actúan de modo integrado y constituyen un sistema. En segundo lugar, la evaluación no se ha de separar del proceso de enseñanza-aprendizaje, dado que no es un apéndice independiente en dicho proceso, sino que forma parte del mismo y tiene un papel específico con respecto al conjunto de componentes que integran la enseñanza como un todo, está en un sistema. En el sistema educativo, la evaluación ha de servir también para recabar y analizar datos respecto de sus elementos relevantes: objetivos, medios que se utilizan, tareas que se llevan a cabo en el aula, relaciones de comunicación que se establecen, organización, e incluso la propia evaluación que se realiza. Y como todo el proceso de enseñanza está orientado a la consecución de deter-
47
48
La evaluación
de aprendizajes
minados aprendizajes por parte del alumno, al evaluar éstos, no sólo algún tipo de aprendizaje sino su desarrollo global, debemos valorar por añadidura su eficacia como sistema total. De evaluar restrictivamente conductas finales observables de los alumnos se pasa así, desde posiciones cognitivistas, a planteamientos evaluativos globales de cariz cualitativo; en donde la evaluación se entiende más como comprensión profunda e iluminación de las características de los alumnos, teniendo en cuenta todas sus formas de representación tanto en los procesos como en los productos del aprendizaje. Estas exigencias siguen aumentando hasta llegar a solicitar cada vez más información sobre aspectos de la personalidad del alumno, desde la perspectiva de la Psicología cognitiva y, desde la perspectiva sociológica, sobre las circunstancias que le rodean; y hasta reclamar una apertura conceptual que dé cabida en la evaluación a resultados no previstos y acontecimientos imprevisibles. Esto es, evaluación más allá de los objetivos y de la realización correcta de una actividad (exigencia que tiene sus raíces en la noción vygotskyana del ZDp,citada en el cap. 15), enfocada al tipo de ayuda que el aprendiz necesita. La dificultad de explicitar todo ello para que no quede en una arbitrariedad subjetiva y en estructurado para poder ser interpretado lleva en algunos casos al desaliento y, en definitiva, al abandono de la toma de decisiones externa al alumno. El evaluador se tendrá que limitar a recoger información de manera neutral para que sean los interesados los que las tomen. Después de tan largo camino, evaluar se reduce a informar. Desde la perspectiva cuantitativa, sin abandonar nunca la posterior toma de decisiones externa, también se sintió la necesidad de ampliar el campo de las informaciones, que se mantuvieron, no obstante, parceladas y operativizadas. A esto responde la aparición de taxonomías que distinguen múltiples capacidades para fijar como eje de referencia aspectos de carácter cognoscitivo, psicomotriz o afectivo. * * *
Aun corriendo el riesgo de simplificar excesivamente la realidad y de dibujar una caricatura, a veces más expresiva que los detalles de una fotografía, ensayamos una clasificación de los anteriores enfoques y modelos de evaluación en dos grandes tendencias (un amplio y matizado estudio de los diversos enfoques y modelos educativos se puede encontrar en R. Neira, 1999); bien entendido que los rasgos que se atribuyen particularmente a ambas no significan en la realidad exclusión en la otra tendencia, sino énfasis propio. Tendencia cuantitativa: Entre los autores que podemos encuadrar en esta tendencia se encuentran Tyler,Thorndike, Skinner, Gagné, etc. Su enfoque educativo en general, y respecto a la evaluación en particular, se enmarca dentro de los siguientes rasgos característicos:
Evolución del concepto de evaluación
educativa
a) El fin de la educación es alcanzar un repertorio de objetivos explicitados, preferentemente en los ámbitos cognoscitivo y psicomotriz; teniendo también en cuenta indirecta e implícitamente otros ámbitos de la personalidad individual y social que sirven de referente criterial externo a la evaluación. b) La organización escolar está orientada hacia una mayor eficacia, con objeto de lograr mejoras progresivas en las metas y métodos previamente establecidos. c) El currículo está centrado en la estructura de las disczplinas. d) El profesor es un instructor especialista de su materia. e) La función principal de la evaluación es medir, jerarquizar y seleccionar, dando prioridad al rigor sobre la riqueza evaluativa. Cada etapa educativa se concibe como una preparación para la siguiente; por lo que, a medida que se va ascendiendo en el sistema educativo, la evaluación va eliminando alumnos hasta quedar pocos en el vértice, en una concepción piramidal de la educación. La evaluación es esencial para la educación, porque: Todo proceso es analizable y se puede descomponer en procesos más elementales, con su entrada y su salida. La educación es un proceso, a veces muy complejo, y nuestro conocimiento actual del mismo es muy imperfecto; por lo que no sabemos analizado y, por tanto, somos incapaces de medir todos sus productos. En principio, se puede afirmar que al menos los productos importantes de la educación -los rasgos esenciales de los objetivos de aprendizaje- son medibles. Si es un producto importante, debe producir un cambio de comportamiento observable: es decir, una persona que ha cambiado considerablemente, debe comportarse de una manera claramente diferente. Si es observable, es medible, es decir, existe una base para medido; porque lo fundamental de toda medida es una observación verificable en relación con un referente. Hoy tenemos instrumentos para medir algunos aprendizajes, aunque nos falten aún instrumentos, unidad, escala, cero, etc., para otros. A las objeciones y ataques que se suelen formular contra la evaluación cuantitativa, responden con diversos argumentos. Por ejemplo: decir que lo que un «alumno sabe y puede hacer es más importante que una calificación», implica la afirmación falsa de que la calificación no tiene relación con lo que sabe y puede hacer el alumno; y decir que «los exá-~s no tienen valor educativo» implica que las calificaciones derivadas de los exámenes no tienen relación con las metas y objetivos propuestos como síntesis de la educación deseada. La realioad, concluyen, es que los exámenes, y en general los instrumentos de la evaluación, ayudan a calificar,y la calificación pretende ser un resumen de los resultados de un proceso de aprendizaje, es decir, la valoración del estado
49
50
La evaluación
de aprendizajes
interno del alumno, la «medida» de lo que es, sabe y puede hacer, indispensable para una toma de decisiones adecuada. Tendencia cualitativa: Entre los autores de esta tendencia se encuentran Dewey, parlett, Stake, Stenhouse, etc. Su enfoque educativo en general, y respecto a la evaluación en particular, se enmarca dentro de los siguientes rasgos característicos. Los cuatro primeros apartados recogen algunas de las ideas que ya en abril de 1952 intentó exponer Rogers en la Universidad de Harvard. La conferencia, que se hizo famosa aunque duró apenas 10 minutos, tuvo la virtud de exasperar a los presentes ya muchos de los que luego tuvieron la oportunidad de enterarse de su contenido, y por ello se conoce como la «bomba pedagógica» de Rogers. a) El fin de la educación es el desarrollo personal y social, hasta alcanzar autoestima y seguridad, para llegar a un bienestar. El referente evaluador no está siempre explicitado de forma plena y total, acentuando la libertad de! sujeto y dejando un amplio margen a la subjetividad. b) La organización escolar está orientada a favorecer laflexibilidad en programas, objetivos, métodos, etc. c) El currículo está centrado en el cliente; el alumno, en sus necesidades individuales, sentimientos, intereses, estilos de aprendizaje, etc. d) El profesor es e! motivador yfacilitador de todo e! proceso de aprendizaje. e) La función principal de la evaluación es la de diagnosticar y servir de feedback para mejorar el rendimiento, dando prioridad a la riqueza sobre el rigor evaluativo. Se concibe la educación como permanente en un sistema cerrado del que nadie sale. En vez de seleccionar, la evaluación busca las condiciones que capaciten a cada individuo a alcanzar su techo de desarrollo. Por e! contrario, la evaluación educativa clásica ejerce una influencia distractora y hasta nociva sobre alumnos, profesores y el proceso de aprendizaje, porque: En todo sistema físico (partículas) o social (personas), cuando se introduce un elemento extraño para medido, se perturba, y puede llegar a destruir e! sistema. Ejemplos son e! termómetro que modifica la temperatura de un vaso de agua, e! encuestador que distorsiona con su mera presencia los comportamientos de los encuestados o e! examen para e! alumno. Además, los comportamientos mejores no se pueden describir porque apenas si son observables; sólo se miden los resultados menos nobles de la educación porque suelen ser más fácilmente observables. El individuo es capaz de dirigirse a sí mismo, y de encontrar en su propia naturaleza su equilibrio (homeostasis) y sus valores, sin que nadie decida por otros. Ponen el ejemplo de la nutrición infantil.
Evolución del concepto de evaluación
educativa
La «alienación» fundamental del hombre consiste en no ser fiel a sí mismo. Para agradar, para conservar la atención de los demás, el hombre llega a falsificar su experiencia; queda alienado por intentar adaptarse a valores que no son los suyos. El alumno actúa en los exámenes para «agradar» a otros, sus padres y profesores. En resumen, concluyen que para educar no se deben emitir juicios de valor: no a los exámenes y a las calificaciones. Por la misma razón se deberían derogar los diplomas en tanto que títulos de competencia, indicadores del fin o conclusión de algo que por definición es un proceso continuo y sin fin, el aprendizaje. Profesores, alumnos y evaluadores deben sentirse libres en el grupo para exponer su punto de vista y sus ideas, pero sin imponerlas a los demás y sin temor a ser rechazados. Por el contrario, la enseñanza debe centrarse en los intereses de los demás, y la evaluación debe reducirse a la información y diagnóstico de la realidad escolar.
* * * En un intento de buscar las claves que permitan explicar las diferencias y entender mejor estas dos tendencias que hemos polarizado para un mayor contraste, aunque ya hemos dicho que es difícil establecer una línea divisoria tan neta, podemos hacer una reflexión sobre los aspectos más subrayados en cada una de ellas. A veces se pueden confundir medida y predicción (toda decisión lleva implícta una predicción). No es lo mismo medir la creatividad, la motivación, el interés, y por supuesto unos resultados en ámbitos más familiares como el cognitivo y psicomotriz, que predecir, a partir de esta medida, los efectos que se producirán en el futuro. Y la misma predicción tiene diversos alcances: en tiempo, a corto (para la próxima evaluación) ya largo plazo (para el resto de la vida del alumno); y en profundidad, reduciéndose a comportamientos escolares más concretos o llegando a los más humanos, personales y sociales. La divergencia entre las dos tendencias extremas e incluso las matizaciones intermedias que puedan hacerse, pueden atribuirse a que la «cuantitativa» se fija preferentemente en la medida y en una predicción a corto plazo (por ejemplo, para la próxima evaluación, para el próximo parcial, para el próximo curso), que ven como posible: Sí a la evaluación, porque es posible medir aprendizajes; y la «cualitativa» en la predicción a largo plazo (por ejemplo, para su vida profesional), que ven como imposible: No a la evaluación, o más exactamente, no a la evaluación cuantitativa porque no podemos predecir nada y menos imponer nuestras decisiones a otros; hay que «inventar» una nueva evaluación. DejandQ aparte los planteamientos maximalistas de los que eliminan la valoración, los juicios de valor externos, la toma de decisiones sobre otros y reducen la evaluación al acopio de información neutral, creemos que la evaluación
51
52
La evaluación
de aprendizajes
educativa comprende ambos aspectos: evaluar es medir, y evaluar es predecir, aunque más bien a corto y medio plazo. Por lo que optamos por centrar la evaluación no exclusivamente en la medición de los resultados finales, sino en la recogida de información sobre todas las variables cognitivas y afectivas que intervienen en el proceso de aprendizaje -y en concreto sobre la capacidad de atención (selectiva y sostenida), los niveles de comprensión (conocimientos previos y estrategias de representación y de estructuración de la información) y aplicación, así como sobre la expresión (oral y escrita) yel recuerdo a largo pla20-, como subrayan las tendencias cualitativas, pero cuantificadas en una medida, como reclaman las tendencias cuantitativas: todo ello encaminado a una toma de decisiones posterior a la medición, con objeto de lograr una «optimización», tanto del proceso como de los resultados finales del aprendizaje. De aquí que proponemos y adoptamos como definición de evaluación educativa la siguiente: Proceso sistemático, e integrado en la actividad educativa que mide lo más exactamente posible el estado actual del alumno, incluyendo logros, estrategias de aprendizaje, factores personales y ambientales, etc., que influyen en dicho aprendizaje, con objeto de llegar a una toma de decisiones.
La evaluación educativa es la medida o comprobación del grado de consecución de objetivos, lo que comporta una recogida de información para emitir un juicio de valor codificado en una calificación, con vistas a una toma de decisiones.
En los capítulos siguientes profundizaremos en estos tres elementos que constituyen la evaluación educativa: recogida de información, con un estudio detallado de los distintos tipos de pruebas o instrumentos para recoger dicha información, calificación y toma de decisiones.
NOI)VINHO:lNI I VOI~O)E1H -1 NOI)V)nOEl I
510
NEIVOIOElIN V1
Existe un relativo escepticismo sobre la medida en la educación. Esta actitud viene en parte justificada por cierto rechazo ante el uso de conceptos estadísticos que alejan a algunos profesores de su estudio y también porque, en muchos casos, se mantiene la creencia de que en educación la medida sólo puede aplicarse a aspectos poco importantes y no a atributos sutiles y cualidades esenciales. Las dificultades, sin embargo, que entraña la medida educativa pueden y deben solucionarse satisfactoriamente, pues todo profesor necesita hacer medidas para apreciar la calidad de los aprendizajes de sus alumnos (Pidgeon y Yates, 1976). Para abordar el estudio de los dos primeros elementos de la evaluación, recogida de información y calificación, que en conjunto constituyen la «medida», es conveniente hacer una transferencia clara del concepto de medida de las ciencias empíricas y de las matemáticas a las ciencias sociales en general, y a la educación en particular. Por tanto, empezaremos recordando algunos de sus aspectos fundamentales.
Variable: En primer lugar, debe tenerse en cuenta que todo aquello que varía cualitativa o cuantitativamente es susceptible de ser medido. Es decir, se podrán medir propiedades tales como la raza, la belleza, la temperatura o la longitud, siempre que en un momento dado se concreten en un elemento del conjunto en que puede existir dicha propiedad, que llamaremos variable. Por ejemplo, la variable belleza se concreta en personas que son muy bellas, poco bellas; la longitud se concreta en segmentos de 1,2 o 3 metros. Defmición de medida: De una manera descriptiva podemos decir que medir es asignar a cada elemento de un conjunto un valor, numérico o no numérico, y sólo uno. Así, si por un lado tenemos segmentos de distinta longitud y, por otro, una serie de números (1, 2, 3, 4), medir es asignar al primer segmento el 1, al segundo el 2, y así sucesivamente. Esta asignación suele hacerse fijando, previa y convencionalmente, un origen o cero y una unidad o patrón, para poder emitir un juicio comparativo entre cada segmento y dicha unidad. En el diagrama siguiente, se fija de modo convencional el origen en el punto O, y se llama 1 a la distancia OX; a partir de este momento, y por comparación, ya podemos asignar números y, por tanto, medir los segmentos OY=2, OZ=3, XY=l, XZ=2, YZ=1.
56
La evaluación
o
y
x
de aprendizajes
z
Estas medidas son, en definitiva, juicios en los que se afirma que dichos segmentos son iguales o dos/tres veces mayores que el patrón unidad. Propiedades de la medida: variables unas ciertas operaciones, servarse también en los números sin embargo, sólo las dos que nos a la medida en educación.
En toda medida, si podemos realizar con las las propiedades de estas últimas deben conque representan las medidas. Estudiaremos, interesarán cuando hagamos las aplicaciones
1. Propiedad de orden: Si una cualidad es más intensa que otra, los números que representan estas cualidades deben ser también uno mayor que otro. Por ejemplo, la medida de un segmento S) es 4, y la de otro S2es 2; si el primer segmento es mayor que el segundo, sus medidas también deben serio:
meS)) = 4
m(S2) = 2
meS)) > m(S2)
4 >2
[meS) es la medida del segmento S]
2. Propiedad de unión: Es la segunda propiedad de la medida que interesa tener presente. El resultado de la unión o suma de las cualidades que no tengan elementos comunes debe ser igual al resultado de la unión o suma de sus medidas. En el ejemplo de los segmentos, si se unen dos de ellos no superpuestos, se obtendrá otro cuya medida es igual al resultado de sumar las medidas de los segmentos originales:
meS)) + m(S2)
=4 +
2
= m(S3)
[mS3 es la medida del segmento unión de SI y S2]
Escalas: Son escalas los distintos modos de asignar números. Para medir las variables, según su naturaleza, hay que utilizar diferentes tipos de escalas, que no siempre cumplen las dos propiedades mencionadas. Por tanto, nos interesa destacar la clasificación de las escalas de medida, indispensables para clarificar posteriormente el concepto de medida en educación.
La medida en educación.
1.
Recogida de información
57
1. Escala nominal: En la escala nominal, a cada elemento de un conjunto, es decir, a cada concreción de la cualidad variable, se le asigna un valor (numérico o no numérico). Esta asignación significa que a elementos distintos corresponden medidas (números o símbolos) distintas. En las medidas que utilizan esta escala, no se cumple la propiedad de orden y mucho menos la de unión. Esta escala puede servir para clasificar. Blanca
-----0._
O
Negra
--~.-
IoN
oB
Por ejemplo, para medir la variable raza, se utiliza la escala nominal, en la que se puede asignar a la raza blanca el valor O (o B), Y a la raza negra el valor 1 (o N); el OY el 1 no pretenden significar que una sea mayor o superior a la otra.
2. Escala ordinal: Cuando se mide con la escala ordinal, también se asigna a cada elemento un número (u otro símbolo no numérico); pero aquí un número mayor que otro indica que la cualidad que representa sea también mayor o superior. Se cumple en esta escala la propiedad de orden, pero sigue sin cumplirse la de unión. Por ejemplo, para medir la variable belleza se utiliza la escala ordinal. Se asigna a la persona más bella el número 3 (o el símbolo M = Muy bella), ya la menos bella el número O(o el símbolo N = Nada bella). Los elementos del conjunto, las personas, aparecen ordenadas -propiedad de orden- de más a menos bellas.
m (Persona A) = 3 o M m (Persona B) = 2 o R m (Persona C) = 1 o P m (Persona D) = O o N
Sin embargo, la diferencia de belleza entre las personas a las que se les asigna el1 yel 2 no tiene por qué ser igual a la diferencia entre las que miden 2 y 3. Tampoco el asignar un Osupone carencia total de belleza. y desde luego, no tiene sentido el sumar la belleza de dos personas, como no lo tiene el sumar sus medidas. En resumen, se cumple la propiedad de orden, sin que los intervalos sean iguales, pero no se cumple la propiedad de unión. Esta escala puede servir para ordenar. 3. Escala de intervalo: Coincide con la escala ordinal, pero aquí la igual diferencia entre números indica igualdad de diferencia de cualidad.
m (TI) = 40 m (T2) = 30 m (T3) = 20 m
(T4)
= 10
Podemos citar como ejemplo la escala de grados Celsius para medir temperaturas. Si las temperaturas de cuatro líquidos son de 40, 30, 20 Y10, aparecen ordenadas cumpliéndose la propiedad de orden; pero, además, la igual diferencia entre 40 y 30, entre 30 y 20 Y entre 20 y 10 indica también igualdad de diferencia entre sus temperaturas.
Como en la escala ordinal, el hecho de asignar a un líquido el valor O no quiere decir que carezca de nivel térmico. Y tampoco se cumple la propiedad
58
La evaluación
de aprendizajes
de unión, pues no tiene sentido sumar temperaturas de los líquidos; si mezclamos los dos primeros líquidos, evidentemente no se obtiene un líquido de temperatura 40+30. Esta escala, que también sirve para ordenar, tiene en cuenta la proporcionalidad.
4. Escala de cociente o razón: Las medidas en esta escala cumplen ambas propiedades, de orden y de unión: la igualdad de diferencia entre dos medidas indica igualdad de diferencia de cualidades, y el Osignifica carencia de atributo. m
(L1)
=4
m(Lz)=3
m (L3)=2 m (L4) = 1
1.
Sea la longitud. Al medir segmentos, se obtienen medidas de 4, 3, 2 Y 1, que los ordenan, según la propiedad de orden, de mayor a menor. La diferencia entre e! primero y el segundo, 4 y 3, es la misma que entre el segundo y el tercero, 3 y 2. Si se unen el primero y el segundo, se obtiene un nuevo segmento cuya medida es 4+3, cumpliendo la propiedad de unión. Además, el valor O significa carencia de longitud.
APLICACIONES A LA EDUCACiÓN A continuación estudiaremos cuáles de estos aspectos, propiedades y escalas, podemos aplicar a la medida educativa para sacar las conclusiones oportunas.
Variables en educación: Aprender es un cambio, continuo y con cierta estabilidad, de unas estructuras y esquemas cognitivos previos, lo que permite modificar y ampliar los conocimientos existentes para abordar otros aprendizajes. Se enmarca dentro de una secuencia que pasa por tres momentos: recepción, manejo e integración de la información. El momento de la recepción exige que e! aprendiz preste atención, el manejo de la información supone unos adecuados conocimientos previos, así como estrategias adecuadas para estructurar la información y, por último, tarea esencialmente personal de! alumno, la integración de la información en los esquemas preexistentes, lo que implica su modificación y ampliación para poder ser aplicados de nuevo (Álvarez y Soler, 1999). Aque!, o aquello, que no puede cambiar no es sujeto de aprendizaje. Por tanto, es claro que e! aprendizaje tiene algo que ver con alguna variable. Es difícil establecer si esa variable es e! estado interno de! aprendiz o alguna otra cualidad. Sin embargo, como en cualquier caso, e! comportamiento o respuesta del alumno en los ámbitos cognoscitivo, psicomotriz y afectivo es el indicador o expresión externa observable de aquella variable, cualquiera que sea, se puede tomar e! comportamiento observable como la variable de la medida en educación. En resumen, postulamos que, en e! contexto escolar, sólo podemos llegar a la variable educativa, el estado interno, a través de! comportamiento externo del aprendiz; aunque somos conscientes de que a cada estado interno del
La medida en educación.
1.
Recogida de infonnación
aprendiz le puede corresponder un conjunto de comportamientos observables (no diferenciables significativamente). De forma gráfica puede expresarse de la siguiente manera:
••. k3, k2, k'2' k"2 kp k'p k"l k'3' k"3
el .• e2 .• e3
e n .••.
k,n k' n, k" n
Por ejemplo, la amplia gama de comportamientos (kl' k\, k\) que supone hacer sumas disponiendo los sumandos de diversas maneras, realizando los cálculos por diversos procedimientos, etc., la relacionaríamos con un estado interno (el) del alumno; el hecho de que realice multiplicaciones también de diversas maneras (k2, k'2, k"Z) lo asociaríamos con otro estado interno del aprendiz (ez); y así sucesivamente. Variable y objetivo: Cada familia de comportamientos también se relaciona con un objetivo. Gráficamente:
el .•
•
•
kp k\, k"2." k'\• .• k2, k'2' k3, k'3' k"3 O2 01 03
e2 e3 .•.•
Por ejemplo, la familia de comportamientos ~ (kl' k\, k"l) supone la consecución del objetivo (al) «Sumar números reales»; la familia~, el objetivo (02) «Multiplicar números reales»; la familia IS, el objetivo (03) «Dividirnúmeros reales». Variable y aprendizaje: Si, como origen de la medición, se fija un estado inicial a través de su correspondiente familia de comportamientos asociados:
eo"
y si los comportamientos
• ko, k'o, k"o
Kl son la consecución del primer objetivo al' los comportamientos ~ la consecución del segundo objetivo Oz, y así sucesivamente de todos los objetivos formulados en una programación, entonces el cambio de comportamiento desde ~ a Kl' a~, etc., es la expresión observable de la consecución de los objetivos al' 0Z' etc., o también el indicativo de la dis-
59
60
La evaluación
de aprendizajes
tancia que queda por recorrer para alcanzados; como aparece en el siguiente esquema:
(eO,el)
(eo,e)
••. '111(
(~,kl)
(~,kz)
•.
(eO,e3) ••.
01
••. '111(
(~,k3)
0z
•.
••.
03
Cambio y medida: Si a cada par de estados, representados por sus indicadores observables, se le asigna un valor, estamos formulando un juicio, es decir, estamos realizando una medida. Por ejemplo, al alumno que alcanza el objetivo 1 se le asigna un 5 o un SF; si alcanza el objetivo 2, un 7 o N; y si el objetivo 3, un 10 o SE: 5
10
7
Propiedades de la medida en educación: De las dos propiedades de la medida que citamos anteriormente, en educación nunca se cumple la de unión, y solamente a veces la de orden. Sumar no se puede unir a multiplicar, ni tiene sentido el asignar un 5+ 7 al que es capaz de realizar ambas operaciones. En consecuencia, no se cumple la propiedad de unión, ya que no tiene sentido sumar estados internos, ni sus comportamientos asociados, ni sus medidas. Por otro lado, la propiedad de orden sólo se cumple cuando un objetivo supone los anteriores. En el caso ya tantas veces citado, saber dividir (03) supone ser capaz de multiplicar (Oz) , ya la vez saber sumar (°1), Gráficamente, se puede expresar con los esquemas siguientes:
< I
el
< ez
e3
K < Kz < ~ 1
01 < 0z < 03
En este y pocos casos más, se da una ordenación inclusiva y se cumple la propiedad de orden. En la mayoría de los casos, los objetivos no tienen relación entre sí o están sólo parcialmente solapados; por tanto, no se da dicha relación. Algunos ejemplos pueden ser:
La medida en educación.
61
Recogida de información
1.
MATEMÁTICAS: «Calcular áreas de figuras planas»:
01: Círculo
05: Trapecio
Oz: Cuadrado
06: Sector circular
03: Rectángulo
07: Corona circular
04: Rombo
LENGUA: «Realizar composiciones
aa O
escritas»: ,
01: Descripción Oz: Narración
VO
a-zlO
03: Diálogo 04: Cartas comerciales 05: Impresos
Las escalas en educación: Puesto que en la medida educativa no se cumple la propiedad de unión, no podremos utilizar la escala de cociente o razón; no se pueden medir aprendizajes como se miden longitudes o masas. Por ahora sólo disponemos de dos escalas: 1. Escala ordinal o de intervalo: Sólo en aquellos casos en que los objetivos están ordenados inclusivamente, es decir, cuando la consecución de cada objetivo lleva implícita la de los anteriores, y por tanto se cumple la relación de orden, está justificada la escala ordinal. Se puede asignar un número a cada par de estados internos, o a cada par de sus indicadores. Siguiendo con el ejemplo de las operaciones matemáticas, los alumnos parten de la situación en que no saben operar (eN. Si el objetivo final es que sean capaces de dividir números reales, cuando con el cambio (e3/K) llegan a va de divididos (03)' se les asigna 10 o SB; si su cambio de comportamiento (eolKa) a (el/Kl) y son capaces solamente de sumados (01)' se les asigna 5 o SF; en cuanto aprenden más, cambien a (ez!Kz) y sean capaces de multiplicados (Oz)' se les asigna un 7 o N.
(ko,kl)
(eO,el).ooI{
•.
(eo,ez)"
•. (ko,kz)"
(eO,e3)
••••
(ko'~)"
m(Ol) = 5 o SF
.••.
•
m(Oz) = 7 o N
•. m(O)
= 10 o SB
62
La evaluación
de aprendizajes
Se está utilizando una escala ordinal, como la que se usa para medir la belleza. Sería más discutible el uso de una escala de intervalo, como la utilizada para medir temperaturas, ya que sería difícil sostener la igualdad de distancias entre (er!Ko) H (e¡!K¡) H (e/Kz) H (e31Ks).En estos casos de inclusividad de los objetivos, está justificado utilizar los códigos tradicionales de O a 10 o de suspenso a sobresaliente de una escala ordina!. O/l/suspenso
5/S/aprobado
7/N
10/S8
¡ r
O
2. Escala nominal: En educación, en la mayoría de los casos no se cumple la relación de orden; por consiguiente, no queda otra alternativa que utilizar la escala nominal; es decir, medir cada objetivo (O, O') por separado independientemente de los demás, codificándolo con 1/0, Apto/No Apto, Adquirido/NO Adquirido. Si los alumnos saben calcular el área del triángulo (Objetivo O) se les asigna Apto; si no saben calcular el área del círculo (Objetivo O') se les asigna No Apto, que no tiene relación con el anterior.
(eo,ej) =} (ko,k¡) =} O = 1/0 o Apto;No Apto (Eo,Ej) =} (Ku,Kj) =} O' = 1/0 o Apto;No Apto
o
Media ponderada
Recordemos que evaluar es medir para tomar decisiones y, a su vez, medir es recoger información para emitir un juicio de valor, codificado generalmente en una calificación. Uno de los secretos de las buenas calificaciones es que estos juicios de valor se basen en una abundante observación controlada; dado que la carencia de una buena información, o la que se reduce a la constatación de comportamientos aleatorios de los alumnos, convierte las calificaciones en meras opiniones de los profesores. Una observación controlada de los resultados válidos y fiables necesita, pues, de un planteamiento sistemático de los diversos instrumentos de evaluación. Un resultado deducido de una buena observación controlada y sistemática, cuando se aplica una escala ordinal o nominal, no ofrece dificultades especiales de interpretación para emitir un juicio de valor; sin embargo, en ocasiones hay que globalizar varios resultados, obtenidos a partir de escalas nominales, en un resultado único. En estos casos, una solución para poder hacer posteriormente un juicio de valor es recurrir a la media ponderada, consistente en asignar un
La medida en educación.
1.
63
Recogida de información
coeficiente, igualo distinto, a cada objetivo que marque su peso específico relativo; determinación que, como cualquier otra, puede estar teñida de subjetividad y restarle rigor. Por ejemplo, si un alumno en una prueba no responde a las preguntas correspondientes a los dos primeros objetivos, cuyos coeficientes son 10% para el objetivo 01 y 30% para 02' pero lo hace a las de los dos últimos, cuyos coeficientes son 20% para 03 y 40% para °4, el resultado global [R] será: OBJETIVO (O)
COEFICIENTE (P)
°1
0,1 (10%)
o
°2
0,3 (30%) 0,2 (20%) 0,4 (40%)
10 10
°3 °4 R=
I
p¡ N¡ = (0,1
x O) +
(0,3
O
x
O) + (0,2
x
10) + (0,4
x
10) = 6
Este «6" está ya afectado por los coeficientes. El rigor va quedando más deteriorado en el caso de tener que hallar la media ponderada de resultados de partes muy distintas de una materia, y más aun si es de distintas asignaturas. Es importante tener presente este modo de proceder cuasiautomático, pero subjetivo, para obtener los datos de la evaluación educativa, con objeto de desmitificarlos de su aureola de precisión que con todo fundamento subrayan las críticas conocidas. Porque la realidad es que muchos profesores, una vez que llegan a un 4,5, se olvidan de sus ingredientes subjetivos y lo consideran como los 4,5 m de longitud de una viga. Las medidas en educación no son homogéneas como las del orden físico; difieren en las escalas y, por tanto, en la exactitud de las unidades, en la situación del cero, etc. Por todo ello, algunas de las cosas que hacemos con los resultados de las correcciones de los exámenes, tales como calcular medias, desviaciones, coeficientes de correlación, sólo tienen sentido y valor si se las somete a una interpretación adecuada. Es necesario ser conscientes de las limitaciones de nuestras medidas, pero no por eso debemos dejar de hacer lo que nos parece útil; y una de esas cosas útiles es medir los aprendizajes sin olvidar, no obstante, las licencias que nos tomamos. Debemos también recordar que una misma medida puede representar diversas cualidades (las familias de comportamientos antes mencionadas); un 4,5 no significa exactamente lo mismo en todos los alumnos. Por último, conviene reiterar una vez más que la medida es un elemento de la evaluación, y la recogida de información es un aspecto de la medida, porque a partir de ella debe emitirse un juicio de valor para poder tomar decisiones: volver a estudiar la lección, estudiar otros temas, pasar curso, repetir, etc. Y deben tomarse no sólo a partir del juicio o calificación hecha con el resultado
64
La evaluación
de aprendizajes
numérico, sino de acuerdo, además, con otros datos contextuales: aptitud, situación afectiva personal, etc. Por eso no se justifica la argumentación de muchos profesores cuando afirman: «Siapruebo a este alumno con un 4,5, tengo que aprobar a todos los que lleguen a esta calificación»; porque, insistimos, ni el 4,5 representa el mismo estado en todos los alumnos, ni los datos contextuales que deben acompañar a la medida para tomar decisiones son los mismos en todos los casos. El problema está en objetivarlos diferenciadamente. La calificación se tratará en el capítulo 13 y la problemática de la toma de decisiones educativa en el 14. Ahora nos preocupa exclusivamente la recogida de información y, en este sentido, son varios los métodos para calcular una media ponderada a partir de los resultados de varias respuestas; métodos que, por supuesto, y al igual que los objetivos, deben ser conocidos previamente por los alumnos. Se dan varias opciones. a) En primer lugar, se puede considerar que los resultados de cada prueba [N] no son compensables y, en consecuencia, se requiera un mínimo, por ejemplo de 5, en cada pregunta para calcular resultados. Si Ni < 5, no se tienen en cuenta los resultados parciales superiores a 5 para calcular el resultado global, quedándose en O, en 1 o en 4 como máximo. Si Ni ~ 5, se calcula el resultado global [R] por medio de alguno de los procedimientos detallados en los casos siguientes de preguntas compensables. Si se considera, por el contrario, que los resultados parciales [N] son compensables, el resultado global [R] se calcula por medio de la fórmula general: R = L (Pi X N), en donde R es el resultado global, P el coeficiente o peso atribuido a cada prueba, N es el resultado de cada prueba y L la suma de los productos (P x N). Se contemplan varias posibilidades. b) Las preguntas son equivalentes. Es el sistema más simple y el más frecuentemente usado. Por ejemplo, en un examen de 4 preguntas: P1 = P2 = = P3 = P4 = 25%, Yse da 10 a cada respuesta buena, 5 a las regulares y O a las malas. Si contesta todo bien: (0,25 x 10) + (0,25 x 10) + (0,25 x 10) + (0,25 x x 10) = 10.
+ (0,25 x 10) + O + O = 5. Si contesta dos regular y dos mal: (0,25 x 5) + (0,25x 5) + O + O = 2,5.
Si contesta dos bien y dos mal: (0,25 x 10)
c) Las preguntas no son equivalentes, ya que algunos profesores creen que ciertos ítems deben valer más que otros porque controlan objetivos más importantes, tienen una mayor dificultad, son de mejor calidad o requieren más tiempo. En este caso, a cada pregunta se le asigna un coeficiente según un criterio que puede ser: -
Empírico: Basado en resultados tabulados de otros ítems equivalentes.
La medida en educación.
1. Recogida de
65
información
-
Estimado: Basado en la experiencia profesores.
del profesor
-
Establecido: No tiene en cuenta los resultados previos reales, sino que se determina a priori según el perfil establecido de competencia que se supone debe poseer un especialista.
Por ejemplo, en un examen de 4 preguntas: P1 P4
=
o, mejor, de varios
= 50%, P2 = 25%, P3 = 20%,
5%:
Si contesta las dos primeras mal y las dos últimas + (0,2 x 10) + (0,05 x 10) = 2,5. Si, por el contrario, contesta las dos primeras mal: (0,5x10) + (0,25 x 10) + ° + ° = 7,5.
bien:
°+ °
+
bien y las dos últimas
O también, en un examen de ítems VerdaderolFalso y Elección Múltiple, el profesor puede decidir que cada ítem EM debe valer el doble que cada ítem VIF. Por razonable que en apariencia parezca dar este peso diferente a cada pregunta, algunos autores sostienen que tiende a tener efectos relativamente pequeños y rara vez proporciona resultados más válidos o fiables. Los datos de la tabla siguiente, tomada de «Evaluation and Examination Service» (1982). (Evidence far nat weighting abjective test items, EES Memo n. 5I. Iowa City, IA: University of Iowa), sobre los efectos de distintos pesos específicos de ítems aplicados en cuatro exámenes, avalan esta afirmación de que no hay ventaja obvia cuando se usan pesos específicos distintos:
Examen
21 83 41alumnos 160 50 90 34 8ien: específico +4 105 N° N° ítems Correlación 0,976 ,923 00,983 8(1-140) 8(1-45) ===0,945 +1 +1 8(1-70) +1 Peso
En la tabla se recogen los pesos específicos diferentes que presentaron cuatro profesores para la corrección de sus exámenes. En la última columna, aparece la correlación entre los resultados obtenidos considerando las preguntas equivalentes (pesos de + 1 y O) Y las corregidas usando los diversos pesos específicos propuestos en la cuarta columna. El ordenamiento de los
66
La evaluación de aprendizajes
alumnos fue prácticamente el mismo en todos los casos y las fIabilidades Kuder-Richardson (Muñiz, 2003) eran casi idénticas. d) Otra propuesta para mejorar la fIabilidady validez de los resultados es fijar un peso específico diferente para cada distractor de las PO. Por ejemplo: Un niño se qUf!jade dolor agudo y sensibilidad en el bajo abdomen, con náusea. ¿Quédebe hacer la madre? a) Darle un laxante. b) Meterlo en la cama. c) Llamar al médico.
Nota: Elegir la alternativa a) supone -1, la b) un Oy la c) un + 1. También en este caso los resultados experimentales han sido decepcionantes, y pocas veces se han encontrado ganancias en fiabilidad y validez apreciables y consistentes (Downey; 1979). Con el agravante de que, si la mayoría de los profesores, aun especialistas, tienen sufIcientes dificultades para construir buenos ítems cuyas respuestas sean simplemente buenas o malas, hacerlos con distractores de distinto valor parece una tarea imposible. e) La mejora de exámenes a través de la adición de buenos ítems equivalentes les parece a algunos una propuesta más prometedora. Así, Sabers y White (1969) afIrman que el cálculo de la media ponderada supone un esfuerzo que no merece la pena, ya que corregir sin estas diferentes ponderaciones ahorra tiempo y; además, los resultados equivalentes son más fáciles de interpretar. Proponen, en cambio, que se pueden obtener las mismas ventajas añadiendo más ítems; es decir, si un examen cubre dos objetivos, uno de los cuales se considera que es dos veces más importante -no precisamente más difícil- que el otro, es preferible escribir más preguntas, por ejemplo el doble de ítems, del más importante. Esto dará resultados más fiables y válidos que si se escribe el mismo número de ítems para cada objetivo, pero los del más importante se valoran el doble. Sin embargo, no está claro que el mismo argumento se pueda aplicar a los objetivos más complejos, para concluir que dar a los ítems más difíciles un valor extra rebaja la eficacia tanto del ítem en particular como la del examen en su totalidad. Recogiendo las opciones anteriores, se puede concluir que una buena regla para mejorar las pruebas es aumentar el número de las preguntas más importantes -lo que equivale implícitamente a una media ponderada- y;además, no ponderarlas todas necesariamente de la misma forma; todo ello condicionado al tiempo disponible para realizar el examen.
o
Corrección del azar
En relación con el peso de los ítems, es necesario considerar la distorsión que las respuestas acertadas por azar introducen en los resultados, aspecto éste especialmente importante en las pruebas objetivas (cap. 4). Tal distorsión debe
La medida en educación.
1.
67
Recogida de informac~ón
ser corregida con objeto de eliminar o reducir en lo posible la ganancia que resulta de la adivinación ciega. En otras palabras, se intenta no dar esperanza de ventaja al alumno que adivina a ciegas sobre e! que no lo hace. Supongamos que un alumno contesta a ciegas 100 ítems V;F (Cap. 5). Puesto que hay sólo dos posibles respuestas, una correcta y otra falsa, se puede esperar que e! alumno podría acertar 50 por azar. Otro alumno, que no sabe menos que el anterior pero que no se expone a adivinar a ciegas, no contesta ninguna pregunta y, por tanto, recibe un O. Sin la corrección del azar, el resultado del primer alumno sería mayor que e! de! segundo, cuando los dos debieran ser iguales. Para corregir el resultado conseguido por azar por e! primer alumno, es necesario restar de su calificación una cantidad igual a la que se espera que gane por azar. Puesto que en un examen con ítems V;F se puede esperar que el alumno responda una cuestión mal por cada una que conteste bien, e! número de respuestas incorrectas se resta de! número de las correctas. Si las preguntas, en vez de dos respuestas, tienen tres, se espera que el alumno dé dos respuestas incorrectas por cada una correcta; en este caso, para hacer la corrección del azar, habría que restar, del número de respuestas correctas, la mitad del número de respuestas incorrectas. Si los ítems de EM (cap. 6) tienen cuatro posibles alternativas a cada pregunta con una correcta, la relación de respuestas incorrectas a correctas es de 3 a 1, y la corrección del azar exigiría restar, de! número de respuestas correctas, 113 del número de respuestas incorrectas. Esto nos lleva a la siguiente fórmula general de corrección
R=B-~
d -1
de! azar:
(En donde R es el resultado global, B es el número de ítems correctamente contestados, M los ítems incorrectamente contestados, d el número de distractores u opciones de los ítems, Si se desea referir la nota a una escala de 10, basta con dividir el resultado por el número total de ítems de que se compone el examen y multiplicado por 10.)
Es fácil ver que esta fórmula se convierte en R=B-M en el caso de dos alternativas (V;F), o R=B-M/3 en el caso de ítems EM de cuatro alternativas. En vez de «penalizaD) al alumno que adivina, se podría «premiar» al alumno que no lo hace; es decir, siguiendo con e! mismo supuesto, en vez de restar 50 unidades de! resultado de! que adivina a ciegas, se podrían sumar 50 unidades al resultado de quien no lo hace. Esto también eliminaría la ventaja esperada de adivinar a ciegas. La hipótesis en este caso es que, si el que no adivina hubiera adivinado, daría la respuesta correcta a 1/2 de los ítems V;F. En ítems EM de tres alternativas, el que no adivina daría respuestas correctas a 1/3 de los ítems. La lógica de esto lleva a otra fórmula general para corregir el azar: R1
= B- O d
(En donde R' es el resultado global corregido de acuerdo con los ítems omitidos, B es el número de respuestas correctas, O el número de ítems omitidos, d es el número de distractores.)
68
La evaluación
de aprendizajes
De nuevo, la fórmula se convierte en R'=B+O/2 en el caso de ítems VIF,y R'=B+O/4 en el caso de ítems EM de cuatro alternativas. Si se aplican las dos formas de corrección del azar a unos mismos resultados, se obtendrán resultados corregidos distintos, pero perfectamente correlacionados: a un resultado más alto que otro obtenido por el primer método, corresponde también uno más alto obtenido por el segundo. Sin embargo, el valor medio (los de omisión serán mayores) y su variabilidad (los de omisión serán más variables casi siempre) serán diferentes. Por otra parte, conviene señalar que, si no se omiten ítems, los resultados corregidos del azar mediante la resta de una fracción de las respuestas incorrectas correlacionan perfectamente con los resultados no corregidos; es decir, con el número de respuestas correctas. Lo cual supone que la magnitud de los efectos de una corrección del azar depende de la proporción de ítems omitidos. La aplicación de cualquiera de las dos fórmulas sólo tendría un efecto relevante si, por parte de algún alumno, se omitiera un considerable número de ítems. Como los resultados en los que no se corrige el azar dan una especial ventaja al alumno arriesgado y «listo»,su validez como medida de logros de aprendizaje disminuye. Sin embargo, en contra de lo que a veces se cree, la corrección del azar no pretende penalizar al que deduce las respuestas, sino simplemente anular la posible ventaja que pueda tener el alumno que adivina a ciegas sobre el que no contesta ítems por desconocer la respuesta. Si no se corrige el azar, los alumnos «expertos en hacer exámenes» saben que no tienen nada que perder, y quizá algo que ganar, si intentan responder todos los ítems. Por el contrario, si se corrige, no responderán los ítems en los que vean pocas posibilidades de acertar. Por último, se señalan algunas consideraciones que deben tenerse en cuenta al corregir el azar en pruebas objetivas: a) La probabilidad de obtener un resultado «alto» adivinando a ciegas es muy pequeña. Nadie saca matrícula por casualidad. b) Los alumnos mejor preparados tienden siempre a evitar la adivinación a ciegas. La corrección del azar evita o reduce la tentación de adivinar también en los alumnos mal preparados. c) No hay que confundir la adivinación a ciegas con la deducción racional de la respuesta correcta, adivinación no a ciegas, que, como tal, se puede recomendar a los alumnos. d) Esta deducción racional puede proporcionar una información útil sobre el nivel general de conocimientos de los alumnos.
La medida en educación.
1.
69
Recogida de información
INSTRUMENTOS DE EVALUACiÓN Se trata de estudiar los formatos o tipos de pruebas con los que se puede recoger la información sobre el rendimiento de los alumnos. Ostedind (1998) define «instrumento de evaluación» como un instrumento de medida que propone al alumno un estímulo y una forma prescriptiva de emitir una respuesta, a partir de la cual se puede deducir la consecución de un objetivo de aprendizaje; dicho de otro modo, se entiende por «instrumentos de evaluación» aquellos recursos que, en diferentes situaciones, facilitan identificar modos de actuación como indicadores para medir el grado de consecución de objetivos de aprendizaje. Estas situaciones no deben limitarse a las pruebas orales y escritas. El recurso más tradicional o novedoso y e! indicio más pequeño que ayuden a un docente a comprender mejor a un alumno, o que ayuden a un alumno a comprenderse mejor a sí mismo, deben considerarse como válidos, siempre que en alguna medida puedan estimarse. Conviene, por tanto, esforzarse en obtener todos los indicios a través de todos los medios apropiados. Dado que a los objetivos de aprendizaje no se accede de modo inmediato, se usan instrumentos que proporcionen datos a partir de los cuales se pueda inferir si el alumno los ha alcanzado. Los diversos modos de actuación de los alumnos servirán como indicadores del grado de consecución de los objetivos, aunque indicadores aislados no sirven para evaluar la complejidad del comportamiento de un alumno. De ahí la necesidad de ir integrando todas las informaciones que se puedan obtener a través de los diversos instrumentos de evaluación; diferentes de las actividades de enseñanza-aprendizaje en la medida en que pretenden valorar el grado de consecución de unos objetivos. Tanto unos como.otras incluyen procesos mentales sobre contenidos científicos, pero difieren en e! fin para el que se usan: en un caso son estrategias de aprendizaje y en otro, instrumentos de evaluación que pretenden provocar una respuesta definida de! alumno. Una situación que supusiera cualquier respuesta, como en algunos casos la observación y las encuestas, permitiría considerada como instrumento de evaluación sólo desde un punto de vista analógico. Por tanto, la evaluación de aprendizajes necesita una amplia gama de instrumentos -tests o exámenes compuestos por ítems, preguntas o pruebas (términos con significados diferenciados, pero que usamos indistintamente)-que respondan a ciertas cualidades, con el fin de que los datos obtenidos puedan valorarse y significar algo para e! propio alumno, para el profesor, para la institución educativa y para la sociedad que, en última instancia, ha establecido la estructura educativa. Y no vale apelar a refugiarse en la connotación peyorativa que la palabra examen encierra para, por ello, estar en contra de los mismos; porque todo profesor examina y califica. Diseñar situaciones para comprobar la consecución de objetivos de aprendizaje es una tarea de gran importancia en educación. Aunque siempre hubo y sigue habiendo otros protocolos, esta tarea frecuentemente se reduce a cons-
2.
70
La evaluación
de aprendizajes
truir preguntas de manera precisa y breve para poder deducir, de las respuestas de los alumnos, conclusiones válidas y fiables sobre la adquisición de objetivos referidos a capacidades de diversos ámbitos, en especial los cognoscitivos. Es una tarea difícil, entre otras razones porque, con frecuencia, los ítems se reducen a una simple frase que ofrece pocas oportunidades para describir un contexto que aclare su significado; por otra parte, tampoco es fácil establecer la indispensable relación entre pregunta y objetivo que reduzca las fuentes de error y aumente la validez y fiabilidad de los resultados. Todo ello es un reto a la creatividad y experiencia del profesor. El análisis de los exámenes corrientemente utilizados muestra que, a veces, las preguntas adolecen de muchos defectos, entre los que podemos citar (Guilbert, 1989):
1. Futilidad: Se entiende por futilidad la poca importancia de las preguntas. La prueba pierde utilidad cuando el número de preguntas que emplea constituya una pequeña muestra de todas las posibles. Más grave es el conservadurismo que obliga al alumno a responder de acuerdo con los prejuicios o incluso las posibles ideas desfasadas del examinador.
2. Ambigiiedad: La ambiguedad del lenguaje empleado puede hacer que el alumno tenga que dedicar más tiempo a la comprensión de la pregunta que a respondeda, con el riesgo añadido de no contestar a lo que se le pide. Esta ambiguedad resulta mayor cuando existen errores en la redacción de las preguntas, o cuando constituyen una trampa que enmascara datos necesarios para dar la adecuada respuesta. Por otra parte, la formulación defectuosa delos ítems puede dar «pistas»y sugerir las respuestas a los alumnos.
3. Complejidad: Por un lado, la complejidad de la materia puede hacer que la búsqueda de la respuesta correcta suponga más dificultad de la prevista. Más grave, sin embargo, es la complejidad de las instrucciones: ciertas pruebas incluyen algunas tan complejas o variadas (cada pregunta lleva unas distintas), que lo que se evalúa es mucho más la aptitud del alumno para descifrar las instrucciones que el nivel real de sus conocimientos y su capacidad para utilizados. Esto es especialmente importante en las llamadas pruebas objetivas (PO). 4. Éxito en los exámenes: Sobre todo en las pruebas objetivas (PO), los alumnos desarrollan un «sexto sentido» que les lleva a predecir las preguntas que van a salir, su estilo, su forma, etc. Otros alumnos, con la ayuda de una buena expresión escrita pero carente de contenido, pueden disimular la ausencia de conocimientos y acabar por influir en el corrector, hasta el punto de que éste juzgue las palabras y no los conocimientos. Para evitar estos y otros posibles defectos, es esencial que quien construye una prueba, tanto si se trata de una prueba libre (PL) como de una prueba objetiva (PO), la someta a un análisis crítico y siga una serie de instrucciones.
La medida en educación.
1.
Recogida de información
Clasificación: Los instrumentos de evaluación de aprendizajes pueden clasificarse según diversos criterios. Si se tiene en cuenta la situación en que se encuentra el alumno en el momento de someterse al control, se pueden clasificar en instrumentos directos, en los que se interrumpe el proceso de aprendizaje (exámenes escritos, orales, etc.); yen instrumentos indirectos o circunstanciales, con los que se evalúa la adquisición de conocimientos sin interrumpir el proceso de enseñanza-aprendizaje (observación espontánea o estructurada, etc.). El criterio más frecuente de clasificación, sin embargo, es la forma de las preguntas del profesor, que condiciona la libertad que tiene el alumno para responder; según esto, se distinguen las siguientes clases de instrumentos de evaluación, que estudiaremos con detalle: 1. PRUEBAS OB]ETNAS (PO) 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8. 1.9.
VERDADERO/FALSO (VIF) ELECCIÓN MÚLTIPLE (EM) V/F MÚLTIPLE (V/F múltiple) RESPUESTAS COMBINADAS (Re) EMPAREJAMIENTO (EP) CLASIFICACIÓN (CL) RESPUESTA DOBLE (RD) RESPUESTA LIMITADA (RL) PROBLEMAS CIENTÍFICO-MATEMÁTICOS (CM)
2. PRUEBAS LIBRES (PL) 2.1. 2.2. 2.3. 2.4. 2.5. 2.6.
RESPUESTAABIERTA (RA) PRUEBAS MIXTAS (PM) EXAMEN ORAL (EO) PRUEBA PRÁCTICA REAL (PR) PROYECTO (PY) SIMULACIÓN (SM)
3. PRUEBAS DIAGNÓSTICO (PD) 3.1. OBSERVACIÓN (OB) 3.2. ENCUESTA (EN) Según esta última clasificación, podría hablarse de un continuo desde las pruebas objetivas (PO) hasta las pruebas diagnóstico (PD). El constructor de un test puede aumentar o disminuir la libertad del alumno para contestar. Cuanto más se limita la libertad, más fiabilidad podrá tener el test, y a la inversa. Los ítems podrían entonces ordenarse a lo largo de este continuo: en un extremo estarían las PO que imponen más limitaciones; a continuación los ítems de respuesta limitada (RL) (clasificadas como PO, pero en las que el alumno tiene ya que construir su respuesta) y las pruebas libres (PL); yen el otro extremo no habría prácticamente limitación, como es el caso de la observación (OB) y las
71
72
La evaluación
de aprendizajes
encuestas (EN) que hemos llamado, a falta de un título mejor, PD, pruebas en sentido analógico, ya que en algunos casos se admite cualquier respuesta.
LIMITACIONES
P. Objetivas
•••.
LIBERTAD
R. Limitada
P. Libres
P. Diagnóstico
En los capítulos siguientes se hace un estudio pormenorizado de cada uno de estos instrumentos de evaluación.
SltAI~5Ir80 Slt851nHd
Las pruebas objetivas (PO) tienen como denominador común que el alumno, previa elaboración mental acompañada a veces de una construcción material, elige la respuesta entre una serie de alternativas que se le proporcionan. Son muchas las críticas a las PO, aunque la mayoría se reducen a malentendidos en casos aislados que se transmiten de unos a otros y se perpetúan. Dichas críticas raramente vienen avaladas por datos experimentales sin prejuicios, a pesar de que estos datos serían relativamente fáciles de obtener. Profesores con experiencia han demostrado repetida y continuamente que un experto puede transformar en PO casi todos los exámenes que se ponen en nuestras aulas; y que las PO, lejos de disminuir la capacidad discriminativa de los ítems y la fiabilidad de las calificaciones, las aumentan. Por ello, en gran parte, carecen de sentido muchas de las críticas atribuidas vulgarmente a las PO. Una buena revisión puede consultarse en el libro de Phelps (2005).
1. Artificialidad: Todo examen al uso supone siempre cierta artificialidad. Por esta razón algunos proponen, como alternativa a las pruebas escritas, la realización de pruebas reales (PR). Sin embargo, dichas propuestas pocas veces consideran el costo en tiempo y personal que implica llevar a cabo el proceso, la fiabilidad de las calificaciones y otras limitaciones inherentes a la tareas de las PR, lo que las hace inviables en la mayoría de los casos. Dentro ya de las pruebas escritas, no es cierto que las PO favorezcan sólo, ni específicamente, la memorización de detalles triviales: las PO pueden presentar problemas nuevos que deben resolverse mediante la comprensión y aplicación. Además, no es defendible la posición maniquea de que el aprendizaje o es memorístico o es significativo; por otra parte, el aprendizaje memorístico no es divertido, promete premios poco duraderos, por lo que, a poco que se haga, la mayoría de alumnos y profesores tienden espontáneamente a evitado. Por todo ello, al menos hay que poner en entredicho la crítica de que las PO facilitan al alumno acotaciones, simplificaciones y otras ayudas que las reducen a medir exclusivamente conocimientos artificiales, alcanzados sólo mediante alguna forma de aprendizaje memorístico.
2. Selección versus construcción: La mayor parte de las buenas PO requiere que el alumno, mediante un pensamiento creativo y original, desarro-
76
La evaluación
de aprendizajes
lle los fundamentos para elegir entre las varias alternativas que se le presentan. Por ello, si las PO están bien construidas, no permiten responder correctamente a partir sólo del mero reconocimiento, de la memoria rutinaria o de la asociación verbal no significativa. No está claro que el proceso mental resultara diferente si no se sugirieran respuestas y si la tarea pedida fuera la producción material de una respuesta, no la elección de la que es correcta. Producir una respuesta no es necesariamente una tarea más compleja y más difícil, o más indicadora de los logros, que escoger la mejor de las alternativas disponibles (Quellmalz et al., 1980). Hogan (1981), a través de una revisión de la investigación relacionada con la comparación entre las respuestas abiertas (RA) y las PO, desde Patterson (1926) hasta nuestros días, llegó a la siguiente conclusión: "En la mayoría de los casos, se encontró que las medidas obtenidas a través de RAy PO eran equivalentes, o casi equivalentes, definidas por su intercorrelación, dentro de los límites de sus respectivas fiabilidades. Más aún, las medidas de PO no sólo son considerablemente más fáciles de calificar, sino que casi siempre son más fiables que las de las RA». Sin embargo, a pesar de las abrumadoras pruebas empíricas de las conclusiones recogidas por Hogan, muchos profesores continúan ignorándolas y persisten en la creencia de que en sus particulares situaciones las RAy las PO producen medidas de cualidades completamente distintas. Por todo lo anterior, se pueden cuestionar en gran medida las críticas de que en las PO, al sugerir posibles respuestas, es el profesor quien hace la parte más importante de la tarea; de que el alumno realiza una actividad menos válida, al limitarse a seleccionar una información sin construida; de que, finalmente, las PO sean más superficiales y menos realistas para evaluar el conocimiento que los exámenes clásicos, llamados técnicamente respuestas abiertas (RA).
3. Adivinanza: Es preciso subrayar que el azar de que «caiga» lo que el alumno sabe -azar siempre implícito en la elección de toda muestra de preguntas que el profesor selecciona para todo tipo de exámenes- afecta más a las pruebas libres (PL), pues los exámenes clásicos tienen menos preguntas; mientras que las PO se prestan mejor a hacer un «barrido» más amplio de la materia de examen. Respecto del azar más típico de las PO, el derivado de adivinar la respuesta, hay que distinguir entre adivinanza informada y adivinanza ciega. La primera proporciona indicaciones válidas de logros: cuanto más sepa el alumno, es más probable que sus conjeturas informadas sean correctas. En cuanto a la segunda, los alumnos muy motivados, en una prueba de dificultad adecuada y con tiempo suficiente, harán pocas adivinanzas ciegas en un examen de PO; pues saben que, por poco que piensen, esto es más seguro y rentable que adivinar ciegamente la respuesta correcta. Además, Ebel (1968) y Hills y Gladney (1968) demostraron que, para comprobar la consecución de logros, las calificaciones en el intervalo del azar no son significativamente diferentes de aquellas otras libres del azar.
77
Pruebas objetivas
Así pues, la opinión de que las PO están sometidas a grandes errores por la conjetura y la adivinanza hay, al menos, que considerada con muchas reservas. 4. Coste: Las PO son un instrumento «costoso» para grupos pequeños de alumnos. Se aconsejan sobre todo cuando hay que evaluar una población numerosa de alumnos, y se consideran casi imprescindibles en situaciones en que no coinciden el que enseña, el que construye la prueba y el que la corrige. * * * Aun los mayores entusiastas de las PO no defienden que sean perfectas. Admiten, como lo hacemos nosotros, que pueden tener ciertas deficiencias y que, en general, no son tan fiables ni tan significativamente discriminantes como debieran ser. Pero estamos persuadidos de que no se debe abandonar su uso hasta que se encuentre un recambio con menos defectos. La relación entre el proceso de construcción de un test y su validez es compleja. Aunque las normas para construir ítems no sean por sí mismas aval suficiente, sí son un marco que facilita la construcción de ítems de calidad que proporcionen interpretaciones válidas. El proceso de construcción de cualquier formato de ítem, que debe proponerse de tal manera que un profesor preparado pueda seguido y repetido, debe empezar por la explicitación de lo que se va a comprobar, es decir, la variable que se quiere medir. Como en un contexto académico se hará una valoración criterial, esta variable es un objetivo de aprendizaje explicitado a través de unos indicadores observables (la problemática de la programación, en general, y de la formulación de objetivos, en particular, se puede encontrar en Álvarez, Soler, GonzálezPienda, Núñez y González-Castro, 2004). Aunque es ésta una condición obvia, es una de las más difíciles de cumplir, por lo que es frecuente que los profesores la ignoren o afirmen que los objetivos los tienen implícitamente en su mente; pero es imprescindible también explicitados antes de establecer las preguntas. Posteriormente, supuesto el objetivo, a la hora de formular las preguntas, en la práctica suele ser más fácil usar los materiales de enseñanza (libros, apuntes, etc.) como fuente de ideas que deducidas directamente de los objetivos de aprendizaje. Conseguir el máximo de relación entre el ítem y el objetivo evaluado, relación que influye directamente en la validez y fiabilidad de los resultados obtenidos, no es fácil. Determinada requiere, además de dominar la materia y la expresión, un gran conocimiento de los aspectos psicológicos de la capacidad medida. He aquí algunos ejemplos que ponen de manifiesto esta falta de relación entre ítem y objetivo: al.
Un metro de un cierto tejido cuesta
*
a) 8 b) 10 c) 15 d) 35
3 €.
¿'Cuántos euros cuestan
5 m?
78
La evaluación de aprendizajes
a2. Un metro de un cierto tejido cuesta 3 euros. ¿Cuántos euros cuestan 500 cm?
*
a) 0,8 b) 1 e) 1,5 d) 3,5
Nota: Si se trata de evaluar el objetivo «comprender el concepto de proporcionalidad directa», valdría el al, pero no el a2, que requiere además el conocimiento de unidades. b1. Considerar el siguiente diagrama para responder la pregunta:
¿Qué clase de imagen aparece en el dibujo? *
a) Real b) Virtual e) Negativa d) Fragmentada
b2. Considerar el siguiente diagrama para responder la pregunta:
¿Qué clase de lente producirá los rayos representados? *
a) Convexa b) Cóncava e) Pigmentada d) Polarizada
Nota: En los ítems b1 y b2, adaptados de Osterlind (1998, pág 108 de la 3a reimpresión de 1994), si el objetivo evaluado es clasificar lentes, sólo el b2, que pregunta sobre las clases de lente, es válido; el b1 interroga sobre la imagen, por lo que está relacionado con otro objetivo. Otras veces la falta de relación entre ítem en la expresión. Por ejemplo:
y
objetivo se debe a imprecisiones
el. Lee el párrafo y contesta la pregunta siguiente:
Pruebas objetivas
«Todos alabaron su estudio sobre el hombre porque era realmente comprensivo, porque trataba ampliamente e integraba muy diversos aspectos de la personalidad humana, de las grandezas y debilidades del hombre». ¿Quésignifica el término «comprensivo»? a) b) c) d)
Que es tolerante Que incluye Que es sensible Que conoce
Nota: No está claro si lo que se pretende es comprobar si se conoce el significado de una palabra o la capacidad de determinar su significado en un contexto. La palabra «comprensivo» en su acepción más común hace referencia a la «tolerancia», pero en este contexto se refiere a la idea de «inclusión». Las PO presentan diversos formatos, de los que analizaremos con más detalle el verdadero/falso (y1F) y elección múltiple (EM); posteriormente, citaremos otros tipos de PO.
79
OS'V:l/OH5IOVOH5IA SV851nHd
Los ítems verdadero/falso (V/F) se conocen también como «respuestas de dos alternativas»; en ellas el alumno califica la formulación de una proposición como verdadera [V]o falsa [F]. Un ejemplo: al. Con respecto a nuestro planeta, la atmóifera es su: 1. 2. 3. 4. 5.
Envoltura aérea Envoltura gaseosa Soporte químico Eifera de vapor Esfera tropocoidea
[F]
'"
[V]
[F] [V]
[F]
A primera vista, las preguntas o ítems V/F pueden parecer más fáciles de lo que realmente son. La razón por la que algunos tienen a los ítems V/F en baja estima es porque creen que existen métodos mejores para medir aprendizajes. Juicio no compartido por muchos especialistas, que consideran los ítems V/F un instrumento simple y directo para medir objetivos esenciales de la educación formal; lo argumentan diciendo que la mayoría del conocimiento humano está expresado a través de proposiciones, de las que se puede decir que son verdaderas o falsas. Muchas veces el dominio que un alumno tiene de un área particular de conocimiento queda patente por su capacidad para juzgar la verdad o falsedad de las proposiciones relacionadas con el área en cuestión. A veces se altera el protocolo y se proponen, como sugiere Goring (1971), alternativas a V/F tales como: a2. Contestar con SÍ/NOa la pregunta siguiente:
¿Esmenor
(1-
~r ~r que
(1-
?
[SÍ/NO]
.
a3. Ante cada una de las afirmaciones siguientes, contestar con H si se trata de un hecho, y O si se trata de una opinión: Republicano es el sistema de gobierno imperante en Francia
[H/O]
84
La evaluación de aprendizajes
1.
CONSTRUCCiÓN A. Proceso: El proceso de construcción de ítems VIF,de manera análoga a la de otros formatos, se puede resumir en los cuatro pasos siguientes:
1. Objetivo: Es imprescindible tener a la vista la variable u objetivo de aprendizaje que se quiere evaluar. 2. Fuentes de las preguntas o ítems: Como se dijo al hablar en general de las PO, suele ser más fácil usar los materiales de enseñanza (libros, apuntes, etc.) como fuente de ideas para las preguntas, que deducidas directamente de los objetivos de aprendizaje. Por ejemplo, una fuente podría ser el siguiente párrafo de un libro (Fernández, 1982: 195):' «Desde el siglo XVI el Japón está gobernado por un schogún, cargo asignado a la familia de los Tokugawa, (..) mientras los emperadores viven arrinconados, en una especie de exilio dorado, en su palacio de Kyoto. El Japón vive una larga época feudal, con unos señores poderosos, los tokugawa y grandes vasallos, los daimios. El país se cierra a toda influencia occidental, a cualquier innovación económica o cambio social. Algunos elementos de transformación, como la conversión de los samurais o guerreros en una elite intelectual, el surgimiento de una economía monetaria ( ..) y la penetración de algunos elementos occidentales, (..) no son suficientes para alterar una sociedad inmóvil, ajena y hostil a la evolución del mundo».
3. Proposiciones: A partir de la información que ofrecen estos materiales instruccionales, debemos seleccionar una muestra de las ideas más representivas, es decir, hacer un resumen en unas pocas proposiciones. Por ejemplo, en el párrafo anterior, se pueden identificar las dos proposiciones siguientes: El schogunato supone en elJapón: -
Una etapa de régimen feudal, donde elpoder imperial no tiene eficacia. Una sociedad inmóvil, ajena y hostil al mundo exterior.
4. Formulación de los ítems: Hay que empezar formulando dos expresiones paralelas y opuestas de cada aspecto, es decir, transformar las proposiciones seleccionadas en pares de posibles ítems VIF, uno verdadero y otro falso, para luego seleccionar uno. Así, a partir de cada proposición seleccionada puede formularse una gran variedad de ítems VIF.Si no son la mera reproducción de las frases originales, los ítems pueden evaluar algo más que la memorización vacía de lo estudiado. He aquí algunos ítems formulados a partir de las proposiciones del párrafo anterior: al. El schogunato, por sí mismo, no limitó la eficacia del poder imperial japonés
[F}
a2. El schogunato limitó la eficacia del poder imperialjaponés
[V}
Pruebas verdadero/falso
85
bl. Generalmente el schogunato supuso en elJapón una sociedad unida por intereses nacionales
[F]
b2. El schogunato supuso para elJapón una sociedad dispersa en intereses particulares
[V]
B. Instrucciones: Estas instrucciones pueden referirse a la presentación de las preguntas y de las respuestas de los alumnos, a la duración del examen, al rigor en las expresiones científicas, etc. Las instrucciones claras son tanto más necesarias cuanto menor sea el nivel de desarrollo del alumno. En todo caso, no es necesario repetidas en cada examen; cada profesor, al principio del proceso de instrucción, marca las reglas del «juego». C. Normas: Discriminar entre los que saben y los que no saben es la norma básica para lograr que los ítems cumplan lo mejor posible su cometido. Los que saben deben ser capaces de responder a las preguntas correctamente. Los que no saben deben encontrar las respuestas erróneas atractivas. Construir ítems que discriminen de esta manera exige una cierta especialización. A ello pueden ayudar las siguientes sugerencias, agrupadas en tres apartados: cualidades que deben tener las ideas recogidas en los ítems V/F, homogeneidad de las expresiones y otros recursos útiles.
1. Cualidades de las ideas: Son sugerencias sobre los contenidos que se recogen en los ítems.
1.1. Ideas importantes: Las proposiciones deben ser el reflejo de aspectos importantes de algo que merezca la pena saber. He aquí ítems V/F que ilustran esta cualidad; los primeros son aceptables, los segundos pobres: al. El toro es un símbolo fundamental de la poesía amorosa de Miguel Hernández, hasta el punto de identificarse plenamente con él en algunos poemas """"""""".""".""""."".""""""""""
[V]
a2. Miguel Hernández trabajó en Madrid como ayudante de José María de Cossioen la enciclopedia taurina que preparaba para la editorial Espasa-Calpe """"""''''''''''''''''''''''''''
[V]
Nota: La referencia biográfica de trabajar con Cossío en la enciclopedia taurina es poco relevante para la poética de Miguel Hernández; sin embargo, el toro como símbolo poético es básico para comprender parte de la mejor obra hernandiana. bl. Se puede disolver más azúcar en un litro de agua caliente que en un litro de agua fría """'" "''''''''''''''''''''''
[V]
b2. Algunas sustancias se pueden disolver en otras
[V]
Nota: Afirmaciones como la b2 son demasiado generales como para decir algo útil; el ítem bl, por el contrario, se ofrece como una buena pregunta para controlar la comprensión de una importante relación.
1.2. Comprobación de capacidades cognoscitivas: Examinar el aprendizaje significativo es comprobar el dominio que una persona tiene de una materia. Por otro lado, dominar una materia no es almacenar una colección mis-
86
La evaluación de aprendizajes
celánea de elementos separados, sino integrados en una estructura que se pueda usar para tomar decisiones, sacar conclusiones lógicas o resolver problemas. Que el alumno recuerde simplemente palabras sin significado, frases vacías o aprendidas rutinariamente, no debe ser suficiente para permitir que pueda dar una respuesta correcta. Es un error bastante extendido el creer que los ítems V;F sólo pueden comprobar la memorización de datos como los siguientes: al. Un cuerpo sumergido en un fluido experimenta una fuerza hacia arriba igual al peso delfluido desplazado
[V]
a2. Un cuerpo sumergido en un fluido experimenta unafuerza hacia arriba igual a la mitad del peso delfluido desplazado
[F]
Nota: Estos ítems, que presentan al alumno expresiones usuales como afirmación verdadera o alguna alteración como afirmación falsa, se pueden aprender de memoria, por lo que son indicadores de una simple memorización vacía. Por el contrario, los ítems siguientes usan como indicadores de la comprensión de un principio que se reconozca en algunas paráfrasis no usuales: b1. Si un objeto con un determinado volumen se rodea de un líquido o gas, lafuerza que experimenta hacia arriba es igual al peso del volumen del líquido o gas
[V]
b2. Lafuerza hacia arriba sobre un objeto rodeado por un líquido o gas es igual al área de la superficie del objeto multIPlicada por la presión del fluido que lo rodea
[F]
Como alternativa para comprobar la comprensión, se puede pedir al alumno que lo identifique en una situación concreta: c1. Lafuerza de empuje sobre un cm3 de plástico es exactamente igual a la que hay sobre un cm3 de hierro, cuando ambos está sumergidos en~
M
c2. Si un objeto insoluble se sumerge en variosfluidos de diferente densidad, la fuerza de empuje sobre dicho objeto variará de manera inversamente proporcional a la densidad de losfluidos
[F]
Con este formato también se pueden presentar problemas difíciles que exijan una capacidad de aplicación compleja; por ejemplo: d1. El término siguiente en la serie 3,
4, 7, 11, 18
es 29
d2. Si los lados de un trapecio son números enteros consecutivos, y si el lado menor es uno de los dos ladosparalelos, entonces el área del trapecio es 18 unidades cuadradas
[V]
[V]
1.3. Respuesta defendible: Las afirmaciones verdaderas, así como las falsas, deben ser hechas de tal modo que los expertos no tengan problema alguno en distinguidas. Por ejemplo: Se conoce como «germanias» al: al. movimiento de tipo social de la región valenciana durante los primeros años del siglo XVI
[V]
Pruebas verdaderoljalso
a2. «hermanamiento» que se establecía generalmente entre los nobles valencianos durante la baja Edad Media
87
[F]
Nota: Evidentemente, no hay posible discusión sobre la veracidad o falsedad de estos ítems, ya que las «germanías», tanto en Valencia como en Mallorca, tuvieron un carácter eminentemente social, -no así las «comunidades» de Castilla, cuyo carácter era más bien político-, además de suponer un enfrentamiento entre éstas, formadas por artesanos, y los ricos burgueses y la pequeña nobleza. Sí es cierto, empero, que el término «germanía» significaba «hermandad», pero esto no es suficiente, por sí mismo, para hacer verdadera la opción a2. Hay que evitar, en todo caso, ítems que puedan plantear una discusión. Por ejemplo: a3. Las estrellas emiten luz que parpadea
[?]
Nota: Una persona bien informada puede juzgarlo como falso porque no es la luz enviada por las estrellas la que parpadea; sino que, a causa de las perturbaciones en la atmósfera, la luz de las estrellas parece que parpadea.
1.4. Respuesta no obvia: Para responder correctamente debe necesitarse un conocimiento especializado, no debe ser algo de sentido común. A un alumno sin conocimiento adecuado, una respuesta falsa de un ítem bien construido debe parecerle tan plausible como una verdadera. La respuesta correcta debe parecer obvia sólo a aquellos que dominan la materia del examen. He aquí un ítem de sentido común: al. Los alimentos congelados de alta calidad pueden estropearse al cocinarlos
[V]
Nota: ¿Quién puede dudar de la posibilidad de cocinar mal cualquier tipo de alimento? El ítem es tan obviamente verdadero, que no permite discriminar logros de aprendizaje altos o bajos; suena a frase introductoria de capítulo de libro que se va a desarrollar posteriormente. Esta norma aparece más claramente ilustrada en los ítems siguientes: a2. Añadiendo soluto, una disolución saturada sepuede convertir en sobresaturada
[F]
a3. Una disolución sobresaturada contiene más soluto por unidad de volumen que una disolución saturada
[V]
Nota: Parece razonable creer que, añadiendo más soluto a una disolución saturada, se puede conseguir una sobresaturada (a2). El que ha estudiado el tema sabe que el solmo que se añade a una disolución saturada no se disuelve; sólo evaporando el disolvente o enfriando, se puede conseguir que una disolución saturada pase a sobresaturada. El alumno que contesta únicamente por sentido común lo hará de manera errónea. Sin embargo, el mismo sentido común induce al alumno mal preparado a contestar correctamente el ítem a3, por lo que no cumple de forma adecuada la función de comprobar el aprendizaje.
88
La evaluación de aprendizajes
Desde el punto de vista opuesto, se puede usar una lógica superficial para enmascarar la respuesta correcta, o incluso sugerir la incorrecta. Por ejemplo: a4. Unapelota de goma de lOOg flota sobre la superficie de una piscina de agua de manera que exactamente la mitad está sumergida. Para sumergirla completamente se necesita unafuerza adicional hacia abajo de 50 g [F]
Nota: La pelota, de 100 g de masa, está sumergida hasta la mitad, lo que da a la mitad de 100 una verosimilitud superficial considerable. La verdad es que si su peso, provocado por los 100 g, la sumerge hasta la mitad, se necesitarán otros 100 g para sumergida toda.
2. Homogeneidad: Se recogen las sugerencias sobre la necesaria homogeneidad, tanto externa como interna, de las expresiones. 2.1. Concisión: La idea debe expresarse sin ambigiledades ni imprecisiones de lenguaje; debe reducirse a una sola proposición con oraciones cortas y tan simples, concisas y claras como lo permitan las recomendaciones anteriores. Debe, además, tener un significado completo, dependiendo totalmente del contenido interno, no del contexto externo, que en este formato no suele existir. Por todo lo cual, cada palabra del ítem es importante. Un ítem que se centra en un solo objetivo es generalmente más conciso, y por tanto más fácil de entender y más eficaz para evaluado, que el que se basa en varios. A esto se debe que el primero de los siguientes sea más fácilmente inteligible que los otros dos: al. La sal disuelta en agua sepuede recuperar evaporando el disolvente .
[V]
a2. La sal se disuelve en agua caliente y sepuede recuperar evaporando el disolvente
[V]
a3. La sal se disuelve en agua caliente; el azúcar en aguafría
[V]
2.2. Determinantes específicos: Los profesores sin experiencia suelen usar palabras extremas como «siempre» o «nunca» en las afirmaciones falsas, mientras que usan atenuantes tales como <
Pruebas verdaderoljalso
89
al. Las afirmaciones verdaderas, generalmente, discriminan más que las falsas
[F]
a2. El schogunato, con frecuencia, alentó elpoder imperialjaponés
[F]
a3. El término «germanía», en la región valenciana y durante el siglo XVI, siempre significó «hermandad •..................................................................
[V]
Nota: Evidentemente, lo que discrimina en un examen son las respuestas falsas, ya que las respuestas contestadas como verdaderas por todos los alumnos manifiestan el elemento común, no el discriminatorio, entre ellos. Por otro lado, el shogunato, como hemos visto anteriormente en el texto de Fernández (198Z), lejos de alentar el poder imperial japonés, lo arrinconó en una especie de exilio dorado. En cambio, los ítems anteriores, formulados con las expresiones «generalmente» (al) y «con frecuencia» (aZ), les dan cierto aire de veracidad que ayuda a atraer hacia ellas a los «expertos en ítems». En cambio, en el último (a3), el añadido «siempre», por su connotación absoluta, les hará dudar de su veracidad.
3. Recursos: Se recogen otros recursos para formular ítems V/F. 3.1. Frases familiares: En las afirmaciones falsas es conveniente usar frases familiares que suenen a verdad. En este sentido, las expresiones «por sí mismo», «muy poco» o «nada» dan un tono de sinceridad y corrección a la afirmación que oculta su falsedad al que no sabe. La falsedad de las siguientes proposiciones se basa precisamente en este recurso: al. Los versos de arte menor son los usados por poetas «menores» o de segundo orden
[F]
a2. Todosintagma, por sí mismo, es una unidad de comunicación con sentido completo
[F]
3.2. Preconceptos: Hacer que la respuesta falsa recoja algún preconcepto o creencia popular incorrecta sobre el tema de la pregunta. La ansiedad de los alumnos en los exámenes disminuye la eficacia de un test como instrumento para medir logros
[F]
Nota: Muchos alumnos sienten ansiedad en los exámenes, pero a la mayoría esto les ayuda, más que impide, a ejecutarlos con su capacidad máxima.
3.3. Evitarnegaciones: El ítem no debe incluir una negación artificial. Las afirmaciones esencialmente verdaderas no deben convertirse en falsas añadiendo simplemente una negación. Un «no» añadido artificialmente puede pasar inadvertido. Por otra parte, las frases negativas suelen crear más confusión que las afirmativas. Por ejemplo, la negación añadida al ítem aZ lo hace innecesariamente más confuso que el al: al. El soneto estáformado por dos cuartetos y dos tercetos
[V]
a2. El soneto no estáformado por dos cuartetos y dos tercetos
[F]
90
La evaluación
de aprendizajes
3.4. Más aftrmaciones falsas que verdaderas: Conviene saber que, en caso de duda, los alumnos tienden a aceptar más que a rechazar las afirmaciones; por lo que las afirmaciones falsas, más que las afirmaciones verdaderas, suelen discriminar a los alumnos que saben de los que no saben CBarkery Ebel, 1981). Por consiguiente, parece que debe incluirse una mayor proporción de afirmaciones falsas, quizá hasta un 60 o 70%. Aunque los alumnos conozcan esta regla, la técnica produce sus frutos. Como consideración final a estas sugerencias, debemos recordar que un profesor no hace exámenes para que los alumnos contesten mal; lo que se pretende es conseguir una correcta discriminación entre los que dominan y no dominan una determinada materia. La única razón por la que un profesor utiliza estos recursos, que hacen las respuestas incorrectas atractivas a los que no saben, es que las respuestas correctas indiquen verdaderamente el logro que intentan evaluar.
2.
APLICACiÓN Consideradas las ventajas e inconvenientes que ofrecen estas pruebas V/F, conviene recordar las circunstancias que potencian su aplicación. Aunque ítem por ítem los V/F tienden a no discriminar entre alumnos de alto y bajo rendimiento académico, en conjunto, una hora de examen con buenos ítems V/F suele ser tan efectiva como con otros formatos, como los EM CEbel, 1980). Por consiguiente, se deben aplicar cuando se dispone de poco tiempo para preparar un examen, ya que los V/F son relativamente fáciles de escribir, al reducirse a referencias sencillas que se suelen comunicar sobre la materia en una clase oralmente o por escrito. Sin embargo, estas pruebas V/F deben evitarse en las siguientes circunstancias: a) Cuando no se puedan controlar razonablemente las consecuencias de la adivinanza. No obstante, la influencia de la adivinanza ciega disminuye conforme el examen tiene más ítems; la probabilidad de conseguir una calificación moderadamente buena, digamos de 70, en un examen de 100 ítems V/F por adivinación sólo ciega es menor de 1/1.000. Los exámenes académicos de 100 ítems V/F han mostrado unos coeficientes de fiabilidad de 0,85 y 0,95. Esto avala la conclusión de que buenos tests V/F no tienen por qué verse viciados por el azar CEbely Frisbie, 1977). b) Cuando se limiten a comprobar la memorización de datos triviales; ya que en este caso los alumnos se concentran en recordar datos aislados con un aprendizaje memorístico rutinario, más que en un aprendizaje significativo para comprender y desarrollar un pensamiento crítico. En favor de esta censura, se citan ítems típicos del formato V/F como los siguientes:
Pruebas verdaderoljalso
91
al. El autor del Quijote es Cervantes
[V]
a2. Lafórmula química del agua es HP
[V]
a3. En el Sistema Solar hay seisplanetas
[F]
Nota: Si fueran estas las únicas preguntas que se pudieran hacer con ítems V/F, ciertamente serían de poco valor. Sin embargo, como quedó claro al hablar de las normas de construcción, es posible hacer preguntas que controlen la capacidad de los alumnos para memorizar datos significativamente, comprender conceptos y principios, e incluso aplicados. e) Cuando no se pueda evitar la ambigiiedad. La ambiguedad no es un defecto inherente a los ítems V/F. Más aún, debemos distinguir entre ambiguedad intrínseca y ambiguedad aparente. La ambiguedad aparente puede deberse a errores en el conocimiento de los alumnos. Este tipo de ambiguedad es no sólo inevitable, sino que puede ser útil, haciendo que la tarea de responder sea más difícil para el mal estudiante que para el bien preparado, lo que ayuda a discriminar entre los dos. La ambiguedad intrínseca, que causa dificultades tanto al experto como al aprendiz, es posible que no siempre pueda ser eliminada, puesto que a veces el lenguaje conlleva cierto grado de imprecisión; pero en las formulaciones utilizadas en los ítems V/F debe ser reducida al máximo. Por supuesto que es verdad la acusación de que hay ítems V/F ambiguos y carentes de significación. Una causa puede ser que los profesores a veces extractan frases de los libros de texto para usarlas como ítems; y; sin embargo, aun en un libro de texto bien escrito, pocas de sus frases tomadas literalmente se podrían convertir en buenos ítems, ya que muchas de ellas se limitan a recoger la estructura y la organización del discurso. Otra es caer en la imprecisión por querer llevar hasta el límite la norma de la concisión y ser excesivamente breves: la brevedad imprecisa lleva a peores consecuencias que la verbosidad clara. Escribir buenos ítems V/F es más una tarea de construcción creativa que de mera copia. Hay que prevenirse contra una gran fuente de ambiguedad: la incertidumbre, por parte tanto del alumno como del profesor, de los «estándares» de la verdad en este tipo de ítem. Un ítem con una idea no completa, con algún tipo de carencia, no tiene por qué considerarse falso. Si el profesor consigue comunicar este extremo, por ejemplo en las instrucciones generales de los procedimientos que va a usar en la evaluación, y el alumno lo comprende y acepta como una regla más del «juego», la tarea del examinador será más fácil y habrá más posibilidades de enriquecer las pruebas de evaluación en general, y los ítems V/F en particular, con afirmaciones verdaderas que no son completas. No obstante, hay que evitar afirmaciones que caigan en una zona indefinida entre la verdad y la falsedad. Por ejemplo: al. El sujeto concuerda en número y persona con el verbo
[V]
92
La evaluación de aprendizajes
Nota: Esta afirmación se considera por generalización como verdadera o aceptablemente verdadera, no siendo completamente cierta; pues, por ejemplo, en una oración copulativa con el verbo «ser», éste puede concordar con el atributo, no con el sujeto: Eso son habladurías. a2. El verbo referido a dos o más sujetos singulares unidos por la conjunción disyuntiva «o»concierta en plural con todos ellos
[?]
Nota: Esta afirmación sería inaceptable, pues queda indefinida entre verdadero y falso; dado que, sin ser falsa (Le atraían la belleza o la dote de la joven), el verbo también puede concordar en singular (Le atraía la belleza o la dote de la joven), expresando en uno y otro caso un matiz de estilo, según se sienta la disyunción. Incluso, a veces, la conjunción «o» no tiene un valor propiamente disyuntivo, sino aclarativo o explicativo, con lo que el verbo ha de concordar en singular (El protagonista o personaje principal de la película
hace una gran interpretación). Otra fuente de ambiguedad es el hecho de que en los ítems V/F las afirmaciones generalmente son absolutas sin un contexto que las matice, y los alumnos tienen que buscar puntos de referencia alternativos en su estructura mental. El ítem V/F que dice: «ElAneto es una montaña alta» lleva al alumno a buscar picos altos, de manera que la altura del monte Aneto se pueda juzgar en relación con las alturas de otras montañas. En este caso, yen muchos otros si se cree conveniente, es sencillo liberar los ítems de toda ambiguedad introduciendo explícitamente una comparación dentro de la pregunta. Así, por ejemplo: al. El monte Aneto es una montaña alta a2. El monte Aneto es una montaña más alta que el Naranjo de Bulnes
[?] [V)
O también: bl. Las tareas que se hacen en casa son de mayor calidad b2. Las tareas que se hacen en casa son de mayor calidad que las hechas
m~
[?]
M
d) Cuando se estime que perjudican el aprendizaje. Los críticos de los ítems V/F afirman que su uso tiene efectos nocivos para el aprendizaje, por varias razones. En primer lugar, dicen que la manera categórica con que se presentan y califican las respuestas puede proporcionar al alumno la falsa noción de la simplicidad del conocimiento, al establecer dicotomías artificiales para su valoración. En segundo lugar, acusan a las preguntas V/F de exponer al alumno al aprendizaje de conocimientos erróneos. La presentación de afirmaciones falsas como si fueran verdaderas puede tener el peligro de exponer al alumno a los errores, facilitando así que los recuerden. Sin embargo, Ross (1947: 349) concluyó que los efectos de sugestión negativa en los ítems V/F son mucho menores de lo que a veces se presume y que quedan ampliamente compensados con los efec-
Pruebasverdaderoifa~o
tos positivos, cuando afirma: «Que lasfalsas afirmaciones sean peligrosas o no depende en gran manera del contexto en que se presentan. Una afirmación falsa en un libro de texto, hacia el que la actitud típica de cualquier alumno es de aceptación pasiva y acrítica, puede ser muy seria. Pero la situación es diferente con los ítems V/E En éstos, la actitud de los alumnos es de reto activo y crítico". A ello se añade elfeedback de la corrección. Resumiendo, pues, podríamos decir que los ítems V/F, bien construidos, pueden contribuir, como las otras PO, a evaluar logros educativos.
93
i'dl.L,nW NOI))i'i .1 .1 iO SY8inHd
I j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j j J
Los ítems de elección múltiple (EM) son pruebas en las que el alumno debe sólo seleccionar una de entre un conjunto de posibilidades limitadas. En su forma más completa constan de unas instrucciones; un dibujo, gráfico o texto con la información necesaria; una base o enunciado, que presenta un problema, con una frase incompleta o preferentemente una pregunta; una serie de alternativas, es decir, distractores o respuestas plausibles incorrectas, y la respuesta correcta. Las alternativas pueden ser frases completas, fragmentos de oraciones o incluso palabras aisladas o números. Un ejemplo, adaptado de Osterlind (1998, pág. 35 de la Y reimpresión de 1994), de las distintas partes de unítem EM: INSTRUCCIONES:
Usar el dibujo explicado en el texto para contestar la pregunta.
DIBUJO:
r~JJI~lllJ,·,,·_· TEXTO:
Se hizo un experimento que consistió en hacer flotar un cuentagotas en un frasco lleno de agua. Al cabo de una hora, se anotó el nivel que había alcanzado el agua dentro del cuentagotas, A continuación se calentó el frasco durante 30 segundos,
BASE:
¿Qué van'able se modificó en el expen'mento?
DISTRACTORES:
a) Laforma del cuentagotas. b) El nivel de agua en elfrasco. c) El intervalo de tiempo entre la toma de temperatura.
RESPUESTA:
d) La temperatura del aire y del agua en elfrasco.
Con frecuencia no son necesarios tantos detalles, por lo que el ítem se presenta en forma abreviada, con la base o enunciado y las alternativas (a veces también se les llama distractores, aunque es mejor reservar este término para las respuestas incorrectas).
98
La evaluación
BASE:
De las actividades a la evaluación?
DISTRACFORES:
a) Seleccionar contenidos. b) Formular objetivos. c) Elegir metodología.
RESPUESTA:
d) Recoger datos del proceso educativo.
de aprendizajes
que realiza el profesor, ¿cuál pertenece
Existe una serie de variedades, entre las que citamos las siguientes: Escoger la única respuesta correcta: Es la variedad más popular y aconsejable. al. ¿Qué es la neviza?
*
a) Polvo de nieve caído en el mismo día. b) Una variante del hielo cristalizado. c) Nieve comprimida que se hace hielo. d) La abrasión del hielo cristalizado.
En muchas de las más importantes preguntas que se pueden hacer, es preferible formular no una única respuesta correcta (dado que a veces es difícil, dentro de los límites razonables de un ítem EM, formular esa única respuesta absolutamente válida), sino la mejor respuesta, la más correcta o la más completa en la gradación de respuestas válidas que se presenta. Así pues, las alternativas pueden contener alguna corrección o relevancia, aunque una debe ser más completa o más relevante. Las menos correctas o menos completas, que aisladamente se podrían considerar como verdad -por ejemplo, en un formato V¡F-, en relación con las otras alternativas en un formato EMse tratan como incorrectas. Aunque en un ítem EMde única respuesta correcta se sobren tiende que es la «mejor» entre las propuestas, este extremo es mejor explicitarlo; por ejemplo: a2. ¿Qué afinnación
*
caracteriza
a) Es una poesía escrita en liras. b) Su poesía utiliza sabiamente las aliteraciones y otros recursos sonoros. c) Es una poesía amorosa, profunda y mística. d) Su poesía es un diálogo incontaminado con este mundo.
a3 ¿Cuál es la meior definición
*
meior la poesía de san Juan de la Cruz?
a) b) c) d)
Campo Campo Campo Campo
del término «ejido»?
de proPiedad comunal en el monte de pasto. cercano a un pueblo, para uso común de sus habitantes. de proPiedad comunal para explotación ganadera. comunal situado a la vera del río.
Eliminar la opción incorrecta: Más adelante se harán precisiones sobre esta variedad. a4. Se dice que un cuerpo NO está cargado cuando tiene:
*
a) Exceso de electrones. b) Defecto de electrones. c) Un determinado potencial. d) Igual número de protones que de electrones.
99
Pruebas de elección múltiple
Base común: Se aprovecha una misma información
para hacer varias pre-
guntas sobre ella. a5. Una niña de 8 meses de edad ingresa en el hosPitalpor el escaso aumento de peso, a pesar de su apetito voraz. La presencia de esteatorrea y neumonía del lóbulo superior derecho sugierefibrosis quística. 1. Si este diagnóstico es correcto, sería de esperar que los resultados de la prueba del sudor manifestaran concentraciones:
*
a) b) c) d)
Baja de Na+y elevada de Gr. Normales de Na+y Gr. Elevada de Na+y normal de el-. Elevadas de Na+y Gr.
2. Lospadres de la niña desean saber si otros hijos que pudieran tener nacerían con fibrosis quística. Debe indicárseles que la probabilidad en tanto por ciento de que sus siguientes hijospadezcan la enfermedad es aproximadamente de:
*
a) 100 b) 50 c) 33 d) 25
CONSTRUCCiÓN A. Proceso: El proceso de construcción
de ítems EM, análogo al citado en los V/F, se puede resumir en los siguientes pasos:
1. Objetivo: Como en cualquier situación de evaluación, es indispensable fijar claramente
y tener a la vista el objetivo que se va a valorar.
2. Proposiciones: Como se dijo al hablar en general de las PO y en particular de los ítems V/F, los EM se construyen mejor y más adecuadamente a partir de ideas recogidas en los materiales de instrucción. Por ejemplo: al. El universo en que nos movemos se trata de un espacio hostil a la vida, tal como hoy la entendemos. a2. El embrión del parlamentarismo actual hay que buscarlo en el mayor poder que, cada vez, los barones y terratenientes fueron acumulando, y que forzó a los monarcas a formar asambleas.
3. Formulación de ítems: Para desarrollar ítems EM a partir de proposiciones como las anteriores,
es necesario:
a) Formular una pregunta o una afirmación incompleta que encierre claramente un problema sobre la proposición; es la base o enunciado del ítem. b) Proporcionar una respuesta y bien eSCDgidas palabras.
aceptable a la pregunta,
expresada con pocas
1.
100
La evaluación de aprendizajes
c) Proporcionar varias respuestas plausibles pero incorrectas a la pregunta; son los distractores. Siguiendo esta secuencia, se pueden desarrollar ítems como los que siguen: al. El universo, en que nos movemos, es un espacio: *
a) azul, que facilita la vida del planeta Tierra. b) hostil a la vida, tal como hoy la entendemos. c) generalmente cargado de materia continua, que transmite la vida. d) que, generalmente, proporciona vida por transmisión asintótica.
a2. ¿Cuál es el embrión del parlamentarismo actual?
*
a) Las Cruzadas, que permitieron a los europeos conectar con las culturas orientales, de donde incorporarían el hecho de parlamentar. b) La influencia de la Iglesia, elemento puramente europeo en la conformación cultural del siglo XliI. c) El cada vez mayor poder que los barones y terratenientes fueron acumulando y que forzó a los monarcas aformar asambleas. d) El creciente poder de la burguesía, que exigió resolver sus diferencias y conseguir sus acuerdos en parlamentos asamblearios.
B. Instrucciones: Hay que distinguir las instrucciones generales de las de cada ítem. Es especialmente importante que las instrucciones generales, que se refieren de manera uniforme a toda la prueba, sean claras; por ejemplo: tiempo disponible, dónde y cómo responder, criterios de calificación, etc. Los alumnos se adaptan y acostumbran con rapidez. Vale aquí también lo dicho acerca de las pruebas V/F.
e.
Presentación: En un conjunto de ítems, la opción correcta debe estar
repartida entre las distintas ubicaciones posibles, evitando toda tendencia que pueda ser descubierta por el «experto» en exámenes, que tendría así una pista indebida (Moreno, Martínez y Muñiz, 2004, 2006). Cada profesor tiene una tendencia a colocada en un lugar determinado. A veces y sobre todo si la correcta es la primera en ser construida, puede tenderse a dejada como la primera opción; otras veces se extrema la precaución haciendo que no aparezcan nunca o casi nunca en esta ubicación. Evítese cualquiera de esas tendencias u otras que distorsionen un reparto equitativo, haciendo que cada posición de la respuesta correcta tenga una misma proporción, de tal modo que, en el conjunto de la prueba, una no aparezca más a menudo que otra; con cuatro distractores, por ejemplo, a la a) debe correspondede una cuarta parte de los ítems. Se pueden hacer varias versiones de las mismas pruebas con sólo colocar los distractores en distinto orden.
D. Normas: Nos centramos, sencillamente, en aquellas sugerencias específicas para formular y presentar buenos ítems EM, que en ciertos aspectos son comunes a todas las PO. La mayoría de ellas reflejan conclusiones prácticas a las que han llegado expertos en construidos, y en algunas se añaden justificaciones racionales. Sin embargo, sólo unas pocas han sido contrastadas en investigaciones rigurosas, siempre difíciles de hacer en esta materia. No suelen ser grandes
101
Pruebas de elección múltiple
los efectos de obviar alguna de estas sugerencias; sin embargo, los profesores llegan a formular mejores preguntas si conocen y siguen estas sugerencias que si las desconocen o las desprecian. A continuación, aportamos algunas de ellas para elaborar la base del ítem; posteriormente, trataremos de las respuestas.
Construcción de la base: La función de la base o enunciado del ítem es familiarizar al alumno con el problema que se le propone, por lo que el propósito de su sintaxis es comunicar significados explícitos tan eficazmente como sea posible. Pocos textos escritos se leen tan atentamente para comprender su significado, explícito o implícito, como las PO; se miran con «lupa». Es difícil exponer los criterios para construir buenos ítems EM. En cualquier caso, no se pueden reducir a comprobar una lista de normas, una por una. La competencia para construidos, además del dominio de la materia, el rigor en el uso del vocabulario y de la expresión escrita, las estrategias instruccionales y las técnicas complejas de producción de PO, suponen una comprensión profunda de la capacidad de los alumnos para interpretar y responder los distintos ítems y una gran originalidad para crear situaciones de evaluación adecuadas. Popham (1984) afirma que llega a ser un arte. Estos criterios se pueden reducir a que las preguntas sean claras ypertinentes. Sin embargo, nos aventuramos a detallar algunas sugerencias que ayuden a construir ítems precisamente con dichas cualidades, agrupadas en tres apartados: las características que deben tener las ideas que se recogen en los ítems EM,las características de la información con que se explicitan y otras características complementarias.
1. Ideas: Se resumen las características que deben tener los datos y conceptos que se vierten en los ítems EM. 1.1. Novedades: Es deseable evitar en los exámenes el uso de las mismas preguntas y problemas que se usaron durante la explicación. Por el contrario, introducir preguntas y situaciones problemáticas nuevas, incluso imposibles, refuerza al alumno que intenta comprender lo que se le enseñó y penaliza al alumno superficial. Consideremos este ejemplo:
f
Al usar la ecuación e = 1/2 g para calcular el tiempo que tarda un cuerpo en caer desde una altura «h» a la tierra, ¿qué factor introducirá mayor error?
*
a) b) c) d)
Variación de «g». Variación de la resistencia del aire. «g»para grandes alturas y la resistencia del aire para alturas menores. La resistencia del aire para grandes alturas y «g»para alturas menores.
Nota: La variación de la resistencia del aire puede hacer que el movimiento sea uniforme y llegar a invalidar totalmente la ecuación que se refiere al movimiento uniformemente acelerado. Pedir que los alumnos predigan lo que pasaría en circunstancias poco usuales, o incluso imposibles, es una buena manera
102
La evaluación de aprendizajes
de medir su comprensión de los principios pertinentes. Este tipo de tarea consigue identificar al alumno que puede responder a partir de una total comprensión de los principios sin tener que recurrir a cálculos tediosos. 1.2. Pregunta directa: Con frecuencia es preferible una pregunta directa, expresada en forma interrogativa, ya que no sólo ayuda a presentar al alumno un problema más específico, sino que también puede centrar la intención del examinador para evitar distractores irrelevantes que no vengan a cuento. Hay, pues, que expresar la base del ítem tan directa, exacta y simplemente como sea posible, evitando lo innecesariamente complejo. Por ejemplo: aJ. Desde el punto de vista económico, ¿cuál de estas propuestas para mantener la paz mundial supone el menor respaldo hacia la capacidad militar de la energía atómica?
*
a) Debe construirse una fuerza policial internacional. b) Deben adaptarse programas permanentes de entrenamiento militar universal. c) Deben aumentarse los efectivos de lasfuerzas militares vigentes. d) Las naciones democráticas deben constituir una alianza militar.
Nota: El significado de la base de este ítem, aun después de leerla cuidadosamente, no está claro. La confusión se produce porque tiene un enfoque negativo y parece combinar dos premisas diferentes para emitir un juicio: la economía y la energía atómica. Se recomienda también utilizar la forma impersonal y evitar dirigirse al alumno en segunda persona. Es mejor la formulación impersonal del ejemplo b2 que la del b1: bJ. De acuerdo con las normas sanitarias, ¿cuáles son losprimeros auxilios que debesprestar a un epiléptico? b2. ¿Cuálesson losprimeros auxilios que se deben prestar a un epiléptico?
*
a) b) c) d)
Mantenerlo tendido de espaldas. Colocarlo de lado. Darle de beber. Introducir algo entre sus dientes.
1.3. Respuesta definida: En su forma ideal, la respuesta a un ítem EMdebe ser lo suficientemente correcta, de manera que no admita diferencias de opinión, ni se fundamente en afIrmaciones cuya validez puedan contradecir expertos competentes en la materia. Sin embargo, no hay que evitar preguntas importantes por el hecho de que no haya una respuesta completamente correcta; se trata de la variedad de escoger la mejor respuesta antes mencionada. Aunque los examinadores puedan deducir sus ítems de proposiciones que no son absolutamente verdad, sino sólo muy probables, las preguntas de la base deben tener respuestas definidas. Las preguntas indefinidas pueden proporcionar temas de discusión, pero no son buenos ítems para evaluar logros; por ejemplo:
Pruebas de elección múltiple
al. ¿'Quésuceso ha sido de mayor importancia en la historia de España? a) El descubrimiento de América. b) La unificación, con Granada y Navarra, de los reinos peninsulares. c) La expulsión de losjudíos. d) La romanización hasta el Norte peninsular.
Nota: No es fácil que los expertos se pongan de acuerdo en cuál de estos sucesos es el de mayor importancia en la historia de España. La importancia de un suceso depende del punto de vista de la persona que hace el juicio y del contexto en el que lo juzga. La base de un ítem puede pedir opiniones de los expertos; sin embargo, no es aconsejable pedir opiniones de los alumnos. Éstos, obviamente, dan siempre su opinión sobre lo que consideran correcto e importante, pero sus respuestas están también siempre expuestas a crítica y corrección si difieren de lo que piensan los expertos. Cuando es relevante examinar los puntos de vista, del profesor o de algún autor singular, distintos de los libros de texto que usan los alumnos, hay que definido especificando en la base del ítem la fuente de autoridad. Expresiones tales como ,
Nota: No se pregunta una teoría generalizada, sino la opinión de una autora. Tales situaciones, sin embargo, no deben ser frecuentes, ya que las buenas preguntas EM deben tratar de ideas generalmente admitidas como importantes y significativas.
2. Información completa: El segundo grupo de sugerencias se refiere a la necesidad de dar al alumno claramente toda la información que necesita para responder la pregunta. 2.1. Base autosuficiente: Es lo más determinante y característico de los buenos ítems EM. El enunciado de la base debe incluir una idea completa, es decir, lo principal del contenido, ya que al desplazado a las diferentes opciones obligaría a leer una excesiva cantidad de texto a veces redundante, lo que puede dificultar una adecuada comprensión del ítem. Si se eliminan los distractores de un ítem EM, automáticamente debe transformarse en una respuesta abierta (RA).A continuación transcribimos tres ejemplos: al. África del Sur: a) Está cubierta en su mayor parte de bosques tropicales.
103
104
La evaluación de aprendizajes
b) Una de sus industrias es la extracción de diamantes. c) Está rodeada de países políticamente hostiles. d) Lafalta de transportes entorpece el desarrollo de su economía.
Nota: La base, «Áfricadel Sur», sin los distractores no tiene sentido. Hasta que el alumno lea todas las respuestas, no sabrá a qué se refiere la pregunta. La formulación de la base es ambigua, lo que produce frustración en los alumnos proporcionando medidas no fiables. a2. Señalar la afirmación correcta:
*
a) La anáfora consiste en repetir una palabra al comienzo de un mismo verso. b) Versosde arte menor son los escritos según la regla del «ars minore». c) La estructura métrica de la lira es 7a ] ]B 7b 7a ] ]B. d) La sinéresis consiste en formar un falso diPtongo en una palabra dentro de un verso.
Nota: Es éste un protocolo que se usa con frecuencia. En realidad es un ítem presentado como EM, por lo que, en la medida de lo posible, se debe evitar porque contradice la norma que estamos comentando: la base no proporciona toda la información, por lo que, eliminando los distractores, el ítem no tiene sentido.
V(F
Moreno et al. (2004) lo ilustran proponiendo dos versiones del mismo ítem; a saber, una primera (a3) des aconsejable y una segunda versión (a4) corregida conforme a esta directriz. a3. En Física, sublimación: a) b) c) d)
Supone un cambio de materia sólida a maten'a gaseosa. Se refiere a un cambio de materia líquida a materia sólida. Consiste en un cambio de materia gaseosa a materia líquida. Es un cambio de materia líquida a materia gaseosa.
a4. En Física, se denomina sublimación a un cambio de materia: * a) Sólida a gaseosa. b) Líquida a sólida. c) Gaseosa a líquida. d) Líquida a gaseosa.
2.2. Condiciones: Es necesario introducir todas las condiciones para hacer que la respuesta sea correcta, por ejemplo: ¿Qué cambio ocurre en la composición del aire en una habitación cerrada e iluminada, en la que los únicos seres vivos son plantas verdes creciendo? *
a) Aumenta el C02y disminuye el 02" b) Disminuye el C02y aumenta el 02" c) Aumentan ambos, el C02y el 02" d) Disminuyen ambos, el C02y el 02"
Nota: Este ítem en su formulación original decía: ¿Qué cambio ocurre en la composición del aire en la que crecen plantas verdes? Sólo es posible contes-
Pruebas de elección múltiple
tar la pregunta si se añade que la habitación está iluminada de manera que tenga lugar la fotosíntesis, que está cerrada de forma que la composición del aire no va a ser neutralizada por la ventilación, y que no hay otros seres vivos que puedan consumir el oxígeno más de prisa de lo que se produce. Pero, a veces, para asegurarse de que el ítem tenga una respuesta correcta, los examinadores reducen sus dimensiones hasta tal punto que el problema se diluye. Por ejemplo, es difícil dar una respuesta coherente a: ¿Qué razones llevaron a la República Democrática Alemana a levantar en 1961 el muro de Berlín? Sin embargo, si se limita la pregunta con la siguiente condición: ¿Qué explicación de la acción de levantar el muro de Berlín por la DDR dio el periódico Frankfurter Allgemeine el 25 de agosto de 1961?, es relativamente fácil contestada, pero deja de tener valor.
2.3. Introducciones: Abunda en la norma anterior. A veces son necesarias frases de introducción para describir la escena o el contexto. Tales frases difieren de los preámbulos instruccionales y escaparates retóricos que se mencionan al hablar de «suprimir lo irrelevante». Si son necesarias muchas ideas descriptivas y cualificadoras, combinar las descripciones con las preguntas en una misma oración probablemente hace la base del ítem más compleja. Se puede conseguir una expresión más clara presentando estas descripciones e informaciones previas en frases de introducción separadas; en otra se hace la pregunta. Por ejemplo: al. Hace unos 200 millones de años la superficie seca de la Tierra no se presentaba separada en los actuales continentes, sino que se presentaba unida en un solo continente denominado:
*
a) Mundo Antiguo. b) Eurasia. c) Pangea. d) Atlántida.
Nota: La base se podría hacer de forma más sencilla, diciendo: Hace unos 200 millones de años la superficie seca de la Tierra no se presentaba separada en los actuales Continentes, sino unida en un solo continente. ¿Cómo se llama esta superficie seca de la Tierra? a2. «Cuando miramos al mundo como un todo, está claro que el problema del progreso económico realmente es el más importante». Esta afirmación se clasifica como: *
a) juicio de valor. b) Conclusión científica. c) Hecho establecido. d) Analogía.
Es especialmente importante el modo de presentación de ítems que incluyen textos o gráficos. El ejemplo bl incluye un texto yel b2 un gráfico: bl. Leer el texto siguiente para contestar la pregunta:
105
106
La evaluación
de aprendizajes
1. Estaba sentado al borde de la carretera. 2. El campo ardía bajo el sol y una neblina velaba las montañas. 3. La sombra de las moreras flanqueaba la calzada y las viñas conformaban un paisaje requemado y sediento. 4. Me rendía la fatiga y pensaba en los compañeros de trabajo y en los problemas que habíamos discutido no hacía mucho. 5. Hoy le dije a todos que pensaba de que deberíamos de hablar con Juan. 6. Solo él tiene la solución: Conoce nuestros problemas y siempre estuvo a nuestro favor. 7. Es lo mejor que podemos hacer.
¿Qué expresión es la adecuada para corregir la 5?
*
a) b) c) d)
Hoy Hoy Hoy Hoy
les dije a todos que pensaba de que deberíamos hablar con Juan. les he dicho a todos que pensaba que deberíamos hablar con Juan. le dije a todos que pensaba que deberíamos de hablar con Juan. le he dicho a todos que pensaba que deberíamos hablar con Juan.
b2. Usar el diagrama
siguiente para responder la pregunta: E
e En el diagrama se ve un círculo con centro Ay cuatro puntos B, C, D, E en su circunferencia, tales que los arcos BE = DE = 2BD. ¿Cuál es el valor del ángulo agudo BAD en grados?
*
a) 64 b) 70 c) 72
d) 75 2.4. Suprimir lo irrelevante: Aunque se puede aprender mucho durante un examen, la inclusión deliberada de materiales de enseñanza en las situaciones de evaluación puede reducir su eficacia,sin que aumente su valor instructivo. Con mayor razón, deben evitarse los detalles y preámbulos retóricas que sólo sirven de escaparate o escenario y no ayudan al alumno a comprender la pregunta que se le hace. Por ejemplo: Mientras planchaba su traje, Anselmo se quemó en la mano accidentalmente con la plancha caliente. Esto se debió a un proceso de transferencia de calor por:
*
a) Conducción.
Pruebas de elección múltiple
b) Radiación. c) Convección. d) Absorción.
Nota: La introducción sugiere que el ítem trata de un problema práctico; pero, realmente, la pregunta se refiere sólo a una terminología científica.
3. Otras características: Se añaden por último otras sugerencias para lograr que el ítem sea claro y pertinente. 3.1. Pistas inintencionadas: Este aspecto se recoge de nuevo al hablar de la homogeneidad de los distractores. Hay que evitar indicios que puedan contribuir a sugerir la respuesta correcta. Es fácil eliminar estas pistas si el profesor está sobre aviso. Sin el conocimiento adecuado, se puede adivinar la respuesta asociando elementos de la base con una de las respuestas, o identificando algún elemento común en las alternativas para elegir la que no lo tenga. En algunos casos, palabras clave de la base, o sus sinónimos, se repiten o están relacionadas con términos de la respuesta correcta. Por ejemplo: al. ¿Qué obra pertenece a la literatura místico-religiosa del siglo XVI español?
*
a) Noche Oscura del Alma. b) La Ilustre Fregona. e) El Caballero de Olmedo. d) Fuenteovejuna.
Nota: El término «alma»de la respuesta correcta está relacionado con la «literatura místico-religiosa» de la pregunta. Las preguntas deben ser también independientes, de manera que el enunciado de una pregunta no tiene que dar pistas para responder otra: bl. ¿Cuálde estos insectos es un himenóptero? a) Saltamontes. b) Abeja. e) Escarabajo. d) Mosquito. b2. La abeja es un himenóptero porque: a) recogepolen de lasflores. b) tiene dospares de patas. e) tiene metamorfosis completa. d) carece de patas en el abdomen.
Nota: La segunda pregunta da pistas para contestar la primera.
3.2. Negaciones: Las negaciones resultan especialmente atractivas a los examinadores porque son fáciles de formular añadiendo un «no» a los materiales de instrucción. Sin embargo, las preguntas formuladas negativamente son confusas, ya que requieren que el alumno elija una respuesta que no es verdad o no es característica, complicando, así, la comprensión de un ítem, como apa-
107
108
La evaluación de aprendizajes
rece en el siguiente enunciado: «En situaciones difíciles, ¿qué no debe dejarse de no hacer?» (Moreno et al., 2004). Por tanto, salvo que se pretenda evaluar el dominio de las negaciones, debería ser sustituido por otro más entendible como el siguiente: «En situaciones difíciles, ¿qué debería evitarse?». Por todo ello, se aconseja evitar las negaciones en la medida de lo posible. Si es preciso incluidas, se debe subrayar la expresión negativa para atraer la atención del alumno (NO, FALSA). El origen de una Era Glacial debe buscarse en la concomitancia de varias causas, entre las que NO está:
*
a) La variación de la órbita terrestre. b) El efecto albedo. c) La variación de inclinación del eje terrestre. d) Lafusión atmoiférica del C02y los rayos ultra violeta.
3.3. Dificultad dosificada: Cualquier pregunta que sea excesivamente fácil o excesivamente difícil para un grupo de alumnos no discrimina sus niveles relativos de logro. Los distractores simplistas perjudican a los mejores alumnos, ya que sus conocimientos adicionales interfieren con la respuesta que se puede dar a partir de la mera información que proporciona el ítem. El alumno sólo puede adivinar aproximadamente el grado de conocimiento adicional que se le presupone. Se llama «inhibición pro activa» a la situación en que el alumno, para solucionar un ítem, aporta conocimientos más allá de la intención del profesor (Lefrancois, 1988). Este factor supone una discriminación negativa en contra de los mejores alumnos, que se debe tener en cuenta a la hora de construir ítems. Por ejemplo: al. ¿Encuál de los siguientes ejemplos se produce un cambio químico? a) Relámpago. b) Árbol quemándose. c) Nieve derritiéndose. d) Arcoiris.
Nota: El alumno que conozca superficialmente las propiedades del cambio físico y químico señalará la b). Sin embargo, un alumno con mayores conocimientos reconocerá que los casos a) y d) son ejemplos de cambios eléctricos y químicos; únicamente en el caso e) no hay cambio químico, sino sólo de estado físico. En general, la base se puede hacer más fácil haciéndola más general, o más difícil haciéndola más específica. El par de ítems siguientes ilustra cómo la generalización o la concreción de una pregunta puede usarse para controlar su dificultad: bl. Un arancel es un impuesto sobre: *
a) bienes raíces. b) bienes importados. c) herencias. d) donaciones.
109
Pruebas de elección múltiple
Nota: Basta una noción difusa sobre aranceles para responder correctamente a esta pregunta general; sin embargo, es necesario un mayor conocimiento sobre los aranceles para responder correctamente el siguiente ítem más concreto: b2. Un arancel altamente proteccionista cia más directamente a:
*
a) b) c) d)
sobre coches japoneses
en la UE benefi-
los fabricantes japoneses de coches. los ciudadanos europeos que compran cochesjaponeses. la administración de los países de la UE. los fabricantes de coches de la UE.
Construcción de respuestas: Una vez terminada la base del ítem, hay que escribir la respuesta correcta así como un conjunto de distractores o respuestas incorrectas. El propósito de los distractores es discriminar entre los alumnos que dominan y no dominan una materia. Para ello, el distractor debe ser una alternativa lógica y plausible que parezca tener relación con la pregunta. El alumno inteligente descartará por ridículos los distractores demasiado alejados de la pregunta; con ello se reduce el número de distractores reales. Se pueden emplear varias técnicas para preparar distractores plausibles, sin proporcionar pistas que ayuden al alumno no preparado a contestar correctamente; entre otras, se pueden citar las siguientes: 1. Usar afirmaciones verdaderas que no contestan directamente a la pregunta. 2. Emplear expresiones familiares estereotipadas que tengan alguna asociación con los términos usados en la pregunta y que parezcan atractivas a los alumnos simplemente por un recuerdo vago de haber oído aquellas palabras alguna vez. 3. Definir la clase de cosas a la que deben pertenecer todas las respuestas alternativas. Por ejemplo, si se pregunta lo que enfría un refrigerador eléctrico, la clase de posibles respuestas se define como «cosas que pueden causar el enfriamiento» y los distractores serían: hielo, aire en movimiento, expansión de un gas, etc. 4. Utilizar los errores cometidos por los alumnos en exámenes clásicos (RA) y de respuesta limitada (RL);aunque a veces no compensa por el trabajo que esto supone (Loree, 1948). He aquí algunas sugerencias para generar buenos distractores en ítems EM, agrupadas por su homogeneidad interna y externa, y completadas con otros recursos que suelen utilizar los expertos.
1. Homogeneidad interna: Puesto que las opciones intentan ser respuestas a la misma pregunta, deben estar relacionadas con ella. Por tanto, hay que vigilar que los distractores y la respuesta correcta sean homogéneos internamente. 1.1. Contenido: Una falta de paralelismo en las alternativas puede llevar a los malos alumnos a la respuesta correcta; por tanto, los distractores deben ser
110
La evaluación de aprendizajes
relativamente semejantes por su contenido. Desafortunadamente, siempre el caso; por ejemplo:
este no es
al. La llamada «Reconquista de España» comenzó en:
*
a) Covadonga. b) la rebelión de los godos sometidos. c) la coronación de pelayo como rey de Asturias. d) la doctrina cristiana de liberación.
Nota: La primera respuesta se refiere a un lugar, la segunda y tercera respuesta se refieren a un hecho y, por fin, la cuarta a una ideología. En las cuestiones de este tipo, no es difícil encontrar ejemplos en los que varias respuestas sean correctas. a2.
*
La principal diferencia entre la poesía de Carcilaso y la de san Juan. de la Cruz es que uno escribió: a) más obras que otro. b) égoglasy epístolasy otro no. c) estancias y sonetos y otro no. d) sobre el amor humano y otro sobre el amor divino.
Nota: Sólo la respuesta correcta realmente presenta una diferencia relevante; dado que el valor poético no es cuestión de cantidad ni de en qué género poético o estrofa se escriba. Sin embargo, en este caso, el diferente tema amoroso es muy significativo. Las alternativas deben ser además exclusivas e independientemente tas. No se puede aceptar:
correc-
a3. La carne puede conservarse en salmuera debido a que: a) la sal es un veneno para las bacterias. b) las bacterias no pueden resistir la acción osmótica de la salmuera. c) la sal altera la composición química de los alimentos. d) la salmuera protege a la carne del contacto con el aire.
Nota: La b) es una explicación de la a), por lo que se pueden señalar ambas como correctas.
1.2. Matizarlos datos: Cuanto más homogéneas sean las respuestas, más difícil y; consecuentemente, más discriminante será el ítem. Por el contrario, una manera de transformar un ítem difícil para hacerla más fácil es proporcionar varios datos en las alternativas; por ejemplo, utilizar el nombre de dos personas que respondan a las condiciones de la pregunta (basta saber uno de ellos para responder correctamente). ¿Quéautores son conocidos por sus descripciones de Castilla? * a) Azorín y A Machado. b) Carda Larca y Cernuda. c) Miguel Hernández y Salinas.
d) Fernández Flórez y Cabriel Miró.
Pruebas de elección múltiple
1.3. Distractores plausibles: Es obligado evitar alternativas jocosas, frecuentes entre los exámenes que los profesores proponen a sus propios alumnos, ya que suelen ser alternativas desperdiciadas por absurdas. Por ejemplo: «En economía} ahorro es meter dinero en un calcetín». El uso de distractores que son claramente más fáciles que la respuesta correcta se critica a veces porque permite al alumno responder con éxito por eliminación de los incorrectos. Sin embargo, los alumnos que pueden responder bien de esta manera generalmente saben más que los que no pueden hacerla; por tanto, la capacidad de discriminación de un ítem no queda invalidada por esta circunstancia. Por supuesto, un distractor que es absurdo o muy poco plausible contribuirá escasamente o nada a la eficacia del ítem. Hay dos razones por las que el proceso de eliminación no está generalmente desechado por los especialistas en evaluación. En primer lugar, la función de los tests es principalmente contribuir a medir los logros globales en un área de estudio. Identificar exactamente qué cosas sabe o ignora un alumno es de importancia secundaria en una evaluación sumativa, aunque sea necesario cuando se desea una evaluación formativa. En segundo lugar, el conocimiento y la capacidad que se necesitan para eliminar alternativas incorrectas pueden estar íntimamente relacionados al conocimiento o capacidad que se necesitarían para seleccionar la alternativa correcta. En la práctica, pocos ítems EM se pueden responder correctamente por mera eliminación de las alternativas incorrectas. No es probable que un alumno que ignora totalmente la respuesta correcta tenga el conocimiento suficiente para eliminar con certeza las alternativas incorrectas. El que un alumno responda de una manera reflexiva, escogiendo la respuesta mejor a través de un proceso racional, debería elogiarse más que criticarse. Por estas razones, parece razonable concluir que responder por eliminación no se debe considerar como un problema serio.
1.4. Concisión: La brevedad de las respuestas simplifica la tarea del alumno eliminando una fuente irrelevante de dificultades. Las respuestas breves tienden también a centrar la atención en las diferencias esenciales entre las alternativas. En igualdad de condiciones, el ítem EM con respuestas más breves son preferibles a las demasiado complicadas; aunque no hay que sacrificar la importancia y significado de las preguntas para ganar brevedad en las respuestas. Cuando las respuestas son largas y complejas, los alumnos tienen dificultad en comprender y mantener en la memoria las diferencias esenciales entre las alternativas. Un ejemplo de lo dicho sería: al. La geografia sistemática difiere de la regional principalmente en que: a) La geografia sistemática trata, principalmente, de la geografia física, mientras que la geografía regional se refiere esencialmente al campo de la geografía humana. b) La geografía sistemática estudia una región sistemáticamente, mientras que la regional se refiere a la descripción de una región.
111
112
La evaluación de aprendizajes
*
c) La geografía sistemática estudia un solo fenómeno en su distribución
sobre la tierra para llegar a generalizaciones de la geografía regional, que estudia la distribución defenómenos en un área dada. d) La geografía sistemática es la manera moderna científica de estudiar la diferenciación de la superficie de la tierra, mientras que la geografía regional es la manera tradicional y descriptiva de estudiar la distribución defenómenos en el espacio.
Nota: Esta pregunta se puede expresar mejor: ¿"Quécaracterística de la geografía sistemática la distingue esencialmente de la geografía regional? Otro ejemplo; si el propósito de un ítem es controlar la comprensión de la palabra «monogamia», el ítem b2, más conciso, será mejor que el bl: b1. ¿Qué es monogamia?
*
a) Negarse a contraer matrimonio. b) El matrimonio entre una mujer y varios hombres. c) El matrimonio entre un hombre y varias mujeres. d) El matrimonio entre un hombre y una mujer.
b2. ¿Cómose llama la forma de matrimonio en el que una mujer se casa con un hombre?
*
a) Maridanza. b) Endogamia. c) Exogamia. d) Monogamia.
2. Homogeneidad externa: Los distractores deben ser también homogéneos externamente.
2.1. Elaboración gramatical: Es necesario cuidar la corrección gramatical (género y número); el simple descuido ortográfico o gramatical puede disminuir la eficacia de la pregunta. La forma interrogativa en la base, preferible a las frases incompletas, ayuda a no introducir incoherencias gramaticales. al. Las diferencias pequeñas entre organismos de la misma clase se conocen como: *
a) Herencia. b) Variaciones. c) Adaptación. d) Selección natural.
Nota: El plural «diferencias» de la base sugiere que la respuesta correcta estará también en plural, lo que se cumple en la respuesta b). Conviene que todas las alternativas tengan la misma complejidad y que su extensión sea aproximadamente la misma. Hay una tendencia a escribir las respuestas correctas de forma más cuidadosa e inclusiva que los distractores. Así: a2. ¿Enqué difieren las prendas de ropa de la moda de las mujeres de 1990 de la de 1900? a) Muestran más belleza. b) Muestran más variedad.
Pruebas de elección múltiple
*
113
c) Son másfáciles de limpiar. d) Son más cómodas, se trabaja mejor con ellas, se puede uno mover más fácilmente y, en general, son menos restrictivas.
Nota: La profusión de detalles de la respuesta correcta la hacen indeseablemente obvia. Dar todas las pistas relevantes, es decir, las útiles para los alumnos preparados, y evitar las irrelevantes es una importante destreza necesaria para construir ítems EM. Sin embargo, no es censurable incluir deliberadamente pistas en los distractores para equivocar a los alumnos «expertos» en contestar PO, pero mal preparados en la materia. Por ejemplo: a3. De las teorías sobre la desaparición de los dinosaurios, señalar la que hoy se tiene como verdadera. Los dinosaurios se extinguieron:
*
a) porque llegaron a alcanzar un tamaño demasiado grande con respecto a su cerebro. b) porque comieron como alimento plantas no deseablespara su dieta. c) porque los mamíferos comieron sus huevos. d) por la colisión de un asteroide con la Tierra.
Nota: En las respuestas a), b) y c) se usa el pretérito perfecto simple o pretérito indefmido, que fácilmente se liga al mismo tiempo de la pregunta. Sin embargo, la respuesta correcta es la d), en la que no se usa tiempo verbal alguno.
2.2. Elementos comunes: Hay que evitar reiteraciones de palabras innecesarias e introducir los elementos comunes en la base, sin repetir palabras en los distractores. Esto coincide con la norma de formular una idea completa en la base. Cuando todas las respuestas empiecen por las mismas palabras, hay que considerar la posibilidad de incluidas en la base; por ejemplo: al. ¿'Cuáles la definición de vena? *
a) Un vaso sanguíneo b) Un vaso sanguíneo c) Un vaso sanguinea d) Un vaso sanguíneo
que lleva la sangre al corazón. que lleva sangre roja. que lleva sangre oxigenada. que lleva sangre desde el corazón.
Nota: Este ítem se puede mejorar, incluyendo la frase incompleta: Una vena es un vaso sanguíneo que lleva sangre ... en la base. A veces la repetición de palabras ayuda a clarificar el ítem, pero en éste, como en otros casos, la repetición parece excesiva e innecesaria. Conviene también eliminar los artículos en las alternativas que no sean frases completas, ya que pueden dar pistas no deseables. El ejemplo bl es mejor simplificado como el b2: bl. ¿Qué órgano del cuerpo se puede extirpar sin peligro de la vida?
*
a) El hígado. b) El corazón. c) Elpáncreas. d) Un riñón.
114
La evaluación
b2.
*
de aprendizajes
a) Hígado. b) Corazón. c) Páncreas. d) Riñón.
Cuando sean homogéneas, hay que incluir las unidades de las respuestas en la base. Por ejemplo, es preferible la formulación de c2 a la de cl: cl. Calcular la superficie de un cuadrado
*
de
2m
b) 4m2 c) 6m2 d) 8m2
c2. ¿Cuál es la superficie en m2 de un cuadrado
*
de lado:
a) 2m2
de
2m
de lado?
a) 2. b) 4. c) 6
d) 8.
2.3. Estructuración: El conjunto de opciones de cada ítem debe estar organizado y ordenado de modo coherente. En este sentido, la desorganización del contenido de las opciones en el siguiente ítem, adaptado de Moreno el al. (2004), obliga al sujeto a hacer un trabajo previo que le distrae del cometido al que debería dedicarse, que no es otro que identificar la respuesta correcta si la conoce. al. Son propiedades a) b) c) d)
deseables de los tests:
Control, validez y fiabilidad. Fiabilidad, eficiencia y validez. Eficiencia, objetividad y control. Eficiencia, control y objetividad.
Sería más adecuado evitar esa tarea previa organizando el ítem como en el siguiente ejemplo: a2. Son propiedades
*
a) b) c) d)
deseables de los tests:
Validez, fiabilidad y control. Validez, fiabilidad y eficiencia. Objetividad, fiabilidad y eficiencia. Objetividad, control y eficiencia.
Por la misma razón, si la pregunta exige una respuesta cuantitativa, es necesario organizar adecuadamente las opciones escribiendo respuestas que representen intervalos a lo largo de una misma escala. Hay cuestiones en que es más importante la relación, o el conocimiento del orden de la magnitud a nivel general, que el valor preciso cuantitativo. bl. ¿En cuánto se estimó (X) la cantidad de petróleo descubierto en nuevos campos al final de los años setenta, en comparación con ro la cantidad extraída de los pozos en los mismos años?
Pruebas de elección múltiple
*
a) b) c) d)
Xfue Xfue Xfue X fue
prácticamente O. la mitad de y prácticamente igual a Y mayor que Y
Por último, aunque de ordinario las alternativas deben presentarse al azar, las cifras (números, fechas, etc.) es conveniente disponedas en orden de mayor a menor o viceversa. Esto ayuda a eliminar confusión y errores en los alumnos. b2. ¿Cuántas sflabas tiene un verso alejandrino?
*
a) 8. b) 11. c) 14.
d) 16.
2.4. Distractores no específicos: Cuando al profesor no se le ocurren distractores en número suficiente, un recurso común para completados es añadir como alternativa final «todas las anteriores» o «ninguna de las anteriores». El uso de «todas las anteriores» como respuesta correcta es adecuada sólo si todas las alternativas precedentes son respuestas enteramente correctas; ya que conociendo que una sola de las anteriores es incorrecta, queda descartada. Yal contrario, se puede intuir como respuesta correcta si el alumno conoce la mayoría de los distractores. La respuesta «ninguna de las anteriores» es particularmente útil en ítems aritméticos o de ortografía en donde lo correcto y erróneo son inequívocos; por ejemplo: Sumar 54 + 14:
a) 40. b) 48. *
c) 60. d) Ninguno de los anteriores.
También se pueden usar cuando haya muchas alternativas de las que se explicitan tres, por ejemplo, y el resto se engloba en «ninguna de las anteriores». En esto se basa el formato de las respuestas combinadas (Re). En resumen, conviene restringir el uso de estas formas a los ítems en los que se dé una razón positiva que lo justifique. Y en todo caso, debe evitarse que siempre o nunca sean correctas; de lo contrario, su uso se convierte en una pista al mal alumno «experto» en exámenes, que sabe que «todos y ninguno de los anteriores» casi nunca es la respuesta correcta.
3. Recursos: Finalmente se señalan otros recursos y estrategias para lograr buenos distractores. 3.1. E..xplicacionesañadidas: Enriquecer las preguntas de manera que se deban contestar, además de con «sí»o «no», con una explicación añadida.
115
116
La evaluación
de aprendizajes
¿Es la proporción entre los ingresos discrecionales y disponibles, generalmente, mayor en la casa de un jubilado que en la de un recién casado? ¿Por qué? a) Sí, porque los jubilados tienen unos intereses de ahorro mayores para gastar. b) Sí, porque los jubilados no prevén gastos futuros considerables (vivienda, colegios, etc.) para los que tener que ahorrar. c) No, porque las pensiones no llegan para cubrir los gastos fijos de losjubilados.
*
d) No, porque los ingresos disponibles son siempre mayores, por definición.
3.2. Combinar elementos: Usar combinaciones de elementos para obtener varias alternativas. Como acabamos de decir, es el fundamento del formato Re. Dos respuestas pueden ocasionalmente convertirse en cuatro de la siguiente forma: a) b) c) d)
SóloX. Sólo y Ambos, X e Y NiXni y
Así: En la reproducción
*
de las plantas gimnospermas
intervienen:
a) Yemas. b) Esporas. c) Ambos medios: yemas y esporas. d) Ninguno, ni esporas ni yemas.
También, si cada uno de los dos elementos tiene diferentes valores, por ejemplo, subir/bajar y rápido;1ento, se pueden combinar para obtener cuatro alternativas: a) b) c) d)
Sube rápidamente. Sube lentamente. Baja rápidamente. Baja lentamente.
3.3. Distractores en líneas diferentes: Las diferentes partes del ítem, instrucciones, base y alternativas, deben presentarse en la misma página. De todas maneras, es más conveniente escribir las opciones en líneas diferentes, y no uno a continuación de otro. Las respuestas en tándem ahorran espacio, pero son mucho más difíciles de comparar que las presentadas en columna. Por ejemplo: ¿Qué es un abadejo?: * a) pez; b) abad mal encarado; c) mala calificación; d) plano inclinado. La distribución horizontal de las opciones puede ser adecuado, sin embargo, en los casos en los que, más que diferenciar las opciones, interese que sean percibidas como una graduación de posibilidades, como ocurre en el siguiente ítem adaptado de Moreno et al. (2004):
Pruebas de elección múltiple
Indique su grado de acuerdo con utilizar dinero público para proyectos de exploración espacial: a) Nada b) Poco c) Bastante d) Mucho
3.4. Número de distractores: Cuantos más distractores, más discriminará el ítem; pero los buenos distractores no se nos ocurren fácil e inmediatamente. Ebel y Frisbie (1977) recomiendan más ítems con menos distractores, que menos con más distractores. Aunque no hay un número mágico de alternativas, algunos autores (Moreno el al.) 2004) admiten como suficientes tres opciones, otros en cambio aconsejan, siempre que sea posible y cumpliendo las directrices aquí analizadas, escribir cuatro opciones o, lo que es lo mismo, una respuesta y tres distractores para cada ítem. En resumen, a la hora de escribir la Base de un ítem EM se deben tener en cuenta las siguientes directrices: 1. Cualidades de las preguntas: 1.1. Introducir ideas nuevas. 1.2. Hacer preguntas directas. 1.3. Hacer preguntas con respuestas definidas. 2. Información completa: 2.1. Redactar bases autosuficientes. 2.2. Enriquecer la base con condiciones. 2.3. Añadir frases de introducción. 2.4. Suprimir lo irrelevante. 3. Otras características: 3.1. Evitar pistas. 3.2. Evitar negaciones. 3.3. Dosificar la dificultad. Para construir las alternativas: 1. Homogeneidad interna: 1.1. 1.2. 1.3. 1.4.
Desarrollar contenido semejante. Matizar datos. Formular distractores plausibles. Redactar expresiones concisas.
2. Homogeneidad externa: 2.1. 2.2. 2.3. 2.4.
Cuidar la elaboración gramatical. Reunir los elementos comunes en la base. Ordenar las opciones. Restringir los distractores no específicos.
3. Otros recursos: 3.1. Añadir explicaciones.
117
118
La evaluación
de aprendizajes
3.2. Combinar elementos. 3.3. Escribir los distractores en líneas diferentes. 3.4. Seleccionar número de distractores.
2. APLICACiÓN Estas pruebas EM ofrecen ventajas e inconvenientes que deben ser tenidos en cuenta. El formato de ítems EM ha resistido la prueba del tiempo: ha superado críticas y vencido alegaciones de ser superficiales, ambiguos y susceptibles de ser contestados por azar; por lo que sigue siendo el mejor considerado, el más popular y más utilizado de las PO. Su aplicación resulta útil por varias razones: a) Permiten medir con precisión y sin ambiguedades procesos intelectuales superiores: orden, selección, análisis, síntesis, etc.; es decir, todos los objetivos del ámbito cognoscitivo, a excepción de la capacidad de expresión, tan importante en muchas materias, pero no tan evaluada realmente en nuestras aulas como se pretende. Aunque para ello hay que recurrir a indicadores indirectos, limitación que es común a la mayoría de los instrumentos de evaluación. b) Los alumnos creen que los EM son menos ambiguos que los V;F o Rl. Los profesores, por su parte, encuentran más fácil poder defender sus respuestas correctas. Todo ello contribuye a una interpretación precisa que asegura su objetividad y aumenta su fiabilidad y validez. Pueden facilitar el azar; pero parecen, tanto a alumnos como a profesores, menos susceptibles de errores provocados por la adivinanza que otros formatos. De todas maneras, este inconveniente se puede reducir siguiendo las sugerencias dadas sobre su construcción. Además, como ya se apuntó en el capítulo 3, la estadística permite corregir el azar al calcular la calificación por medio de fórmulas tales como: M
N=B--d -1
En donde:
N = calificación. B = número de ítems bien contestados. M = número de ítems mal contestados. d = número de distractores.
e) Su preparación colegial, en equipo, permite una crítica constructiva de las preguntas. No intervienen necesariamente los constructores de la prueba en su corrección, por lo que su calificación es fácil y rápida. Se prestan también a análisis estadísticos útiles. d) La muestra de objetivos que se pueden evaluar con ítems EM es más amplia que con otros formatas. Y se pueden detectar por separado niveles de
119
Pruebas de elección múltiple
competencia en cada objetivo para ofrecer unfeedback, tanto al alumno corno al docente, propio de una evaluación formativa. Pero, al mismo tiempo, deben tenerse en cuenta algunos inconvenientes para evitarlos. Por otro lado, debemos decir que casi todas las críticas que se hacen a las PO son extensivas a las EM.
e) La construcción de buenos ítems EM requiere una preparación laboriosa, una competencia y práctica no comunes; en definitiva, una especialización a veces inasequible a la mayoría de los profesores. f) Se critica que no facilitan la valoración de datos y conceptos, reduciendo el conocimiento a lo que se puede encerrar en afirmaciones simples, con el peligro de vulgarizarlo al sugerir que a cada problema le corresponde una y sólo una respuesta. Sin embargo, basta con examinar la evidencia de las interpretaciones válidas de los resultados obtenidos por cientos de ítems bien construidos para llegar a la conclusión de lo infundado de estas críticas (Osterlind, 1998).
COMPARACiÓN
íTEMS V/F
y EM
Hay semejanzas sustanciales entre los dos tipos de ítems. En los ítems EM hay implícitamente una afirmación verdadera y varias falsas, por lo que controlan los objetivos de manera semejante; y cuando los ítems EM se transforman en V/F, y viceversa, las calificaciones obtenidas por grupos semejantes de alumnos se correlacionan tanto corno lo permiten sus índices de fiabilidad (Frisbie, 1973). Una diferencia obvia es el número de alternativas que se le ofrecen al alumno; pero precisamente esta diferente concreción y definición de la tarea presentada suele hacer más difícil juzgar si una afirmación aislada es verdadera o falsa en los ítems V/F, que juzgar por comparación cuál de varias alternativas es la mejor respuesta en los EM. Sin embargo, hay circunstancias en que ambos formato s no son equivalentes, sino que, por el contrario, se aconseja uno de ellos, corno ilustran los ejemplos de la tabla siguiente: A. Para los ítems que se basan en proposiciones,
es indiferente
el formato.
B. Cuando hay sólo dos alternativas plausibles, por razones obvias es preferible el formato V/F. La preferencia por el formato EM ha llevado muchas veces a presentar corno EM lo que es una colección de ítems V/F.
e. Cuando los ítems no se basan en proposiciones, EM.
es preferible
el formato
3.
120
La evaluación
de aprendizajes
animales ................................... correctora es cantidad característica de un buen VERSIÓNEM 2a. principal función de una lente c) b) Se leyes. de células vivas en Un células virus puede plantas vivir ola solamente a) Obedece Cambiar unacompone elipse. lalasimagen que se forma M que El tener se forma un es trabajo en cambiar la es retina más la imagen ........... una M (F)muy 3b. 2b.4b. de Un La3a. luz principal virus que llega compone función acambiar la de retina de una células ......... lente (F)(F) 4a. Es mejor ciudadano el que parábola ... (F) 1b. La gráfica de la cónica x2/9 +se y2/4=1 es una elipse ........ M obedece paga sus las impuestos leyes que ................. el que vivas muy grandes ................... VERSIÓNVlF 1a. La gráfica de la cónica c) Se puedenlas reproducir solos. obedecer leyes ................... ciudadano que el hecho de buen ciudadano? e dad o de en de la células retina. luz que ¿Cuál es la función deacomodan una C. EM B.caracítems que se mejor al formato VlF cónica x2/9+ se representa 3. de las2.siguientes NOprincipal es atos de¿Cuál igual y2/4=1 utilidad 4. afirmaciones
SVAI.L:lraO SVa5lnHd :la SOdl.L SOH.LO
V/F MÚLTIPLES 1. En los ítems V/F múltiples, los alumnos responden decidiendo la corrección o incorrección de cada afirmación por separado. Se pueden considerar como varios ítems V/F con una base común, o también como un ítem EM con varias alternativas correctas; lo que cambia es la forma de presentación. Puede ser verdad cualquier número de alternativas asociadas, pero no existe un motivo por el que tenga que mantenerse constante a lo largo de una prueba. Por ejemplo: al. La «monadología» refleja una concepción de la sustancia que, según Leibnitz, podría ser calificada como: a) Una teoría mecanicista b) Una teoría panteísta c) Una teoría dinamicista d) Una teoría pluralista
[F} [F} [V} [V}
a2. La «monadología» refleja una concepción de la sustancia que, según Leibnitz, podría ser calificada como una teoría:
* *
a) Mecanicista. b) Panteísta. c) Dinamicista. d) Pluralista.
Nota: El al es un ítem con formato V/F múltiple. El a2 es el mismo ítem con formato EM en el que existen dos alternativas correctas la c) y d), por lo que el proceso mental que debe hacer el alumno es el mismo en ambos casos. Aplicación: Al aplicados, el profesor debe evitar protocolos que repitan el mismo número de respuestas verdaderas. Los alumnos perciben generalmente los V/F múltiples más fáciles que los EM.Además, presentan la ventaja de poder controlar un tema con más extensión, porque los alumnos pueden responder a tres ítems V/F múltiples en el tiempo que necesitan para responder uno EM de respuesta única.
124
La evaluación de aprendizajes
2.
RESPUESTASCOMBINADAS Las respuestas combinadas (RC) son una variante que sintetiza los formato V/F y EM. Se proponen varias alternativas como en los ítems V/F múltiples, pero luego se agrupan para pedir, en formato EM, la combinación correcta. Por ejemplo: Entre los hechos de intervención de Felipe 11en la política interior de Francia, se pueden citar: A La candidatura de Eugenia de Montijo al trono francés.
B. El tratado de Vervins. e El tratado de la Isla de los Faisanes, en Bayona. D. El tratado de Chateau-Chambrésis. E. Lapresencia de Margarita de Parma en los Estados Generales de Francia. Elegir la combinación correcta:
*
a)AyB b)ByC c) ByD d)DyE
Aplicación: La investigación que compara los ítems EM, V/F múltiple y RC llega a la conclusión de que estos últimos requieren más tiempo de preparación y respuesta, son menos eficaces y dan calificaciones menos fiables. En general, los alumnos los perciben más difíciles, prefieren los ítems EM y V/F múltiples, por lo que no conviene, en este tipo de ítems, introducir una complejidad innecesaria. Las RC pueden justificarse cuando el profesor, queriendo uniformar todos los ítems de un examen a formato EM, no encuentra distractores adecuados.
3.
EMPAREJAMIENTO Las preguntas de emparejamiento (EP), o pruebas por pares, se componen de dos listas, una de premisas y otra de respuestas, e instrucciones claras para emparejar ambas listas. Se puede usar una gran variedad de combinaciones premisas-respuestas: fechas y sucesos, conceptos y definiciones, escritores y obras, magnitudes y unidades, cantidades y fórmulas, términos y zonas numeradas de un dibujo, etc. al. Escribir la unidad alIado de la magnitud que corresponda: l. Resistencia eléctrica ..... 2. Intensidad de corriente ..... 3. Carga eléctrica ..... 4. Diferencia de potencial ..... 5. Potencial .....
(A)Amperio (C) Culombio (V) Voltio (W] Watio (º) Ohmio
Otros tipos de pruebas objetivas
125
6. Potencia eléctrica . 7. Trabajo eléctrico .
En las instrucciones se puede pedir que se escriba la respuesta alIado de la premisa, como en el ítem al, o en lugar aparte (In, ZA,3C, 4V,etc.) para facilitar la corrección. También se puede reducir a formato EMcomo en el ítem siguiente: a2. Relacionar algunos Hechos histón'cos o periodos representativos (números) con las Edades o grandes divisiones de la Historia (letras mayúsculas): Hechos: l. 2. 3. 4. 5. 6
Pinturas rupestres y Edad de los Metales. Procesos socialmente conflictivos como la Revolución Francesa y la Revolución Americana. Nacimiento de organizaciones internacionales, guerras, crisis mundiales, colonialismos y nacionalismo. Micénico Antiguo, la sociedad esclavista, el Alto Imperio y el Cristianismo primitivo. La Hégira, Carlomagno y las Cruzadas junto con el precapitalismo comercial. El Barroco, la Ilustración, la Reforma protestante y el precapitalismo comercial.
Edades: A Prehistoria
B. Edad Antigua C. Edad Media D. Edad Moderna E Edad Contemporánea Elegir el apartado en que estén correctamente relacionadas las Edades con los Hechos: a)
lA, 2E, 3G, 4E, 5B, 6D b) lB, 2D, 3E, 4G, 5A, 6E
c) lA, 2E, 3D, 4G, 5B, 6E
*
d) lA, 2E, 3E, 4B, 5G, 6D
Construcción: He aquí algunas sugerencias para construidas: a) Homogeneidad: Conviene elegir premisas y respuestas de forma que su contenido sea homogéneo, es decir, que traten de una sola categoría; cuando no se observa esta norma, aparecerán fácilmente pistas de solución. Por ejemplo: Situar los siguientes elementos en sus correspondientes partes del cuerpo humano:
Partesdel cuerDohumano: l. Brazo 2. Cabeza 3. Cuello 4. Dedo 5. Pierna 6 Tronco Solución: Al, B4, C6, D5.
Elementos: A Bíceps
B. Falange C. Hígado D. Tibia
126
La evaluación de aprendizajes
Nota: Laheterogeneidad de los elementos que se presentan, huesos, músculos y vísceras, facilita el establecer, casi por sentido común, la relación que se pide.
b) Brevedad: Aunque en muchos casos ambas listas se pueden intercambiar sin dificultad, el uso de las frases más largas como premisas y las más cortas como respuestas facilita al alumno la tarea de encontrar la pareja correcta. Se recomienda, además, que no sea excesivo el número de premisas y respuestas. Aumentar el número de respuestas más allá de 4 o 5 reduce el azar muy poco, ya que la diferencia en las probabilidades de dar una respuesta correcta por azar entre ítems de 5 y de 6 respuestas es sólo de un 0,03 (Ebel Y Frisbie, 1977). La práctica recomienda proponer 6 o 7 premisas para emparejar con 4 o 5 respuestas, o viceversa.
c) Longitud de las listas: Se recomienda no usar el mismo número de respuestas y premisas, para eliminar el peligro del emparejamiento perfecto en el que el último se puede deducir de los anteriores. Por ejemplo: Relacionar, emparejando autores y períodos literarios: 1. 2. 3. 4.
Fray Luis de León Góngora Espronceda Galdós
A Barroco
B. Realismo e Romanticismo D. Renacimiento
Solución: ID, 2A, 3G, 4B.
Nota: Sabiendo 3, la última se puede acertar por exclusión.
d) Orden alfabético o numérico: Ordenar tanto las premisas como las respuestas en orden alfabético o numérico evita dar pistas no pretendidas. Aplicación: Aunque a veces pueden medir comprensión de conocimientos, generalmente miden memorización de información factual específica: nombres, fechas, etiquetas, etc. Tienen la ventaja de reducir el número de preguntas en un examen, concentrando la atención en aspectos concretos de temas particulares, y proporcionar muchas respuestas calificables independientes por página o por unidad de tiempo de examen, pero pocas veces debe todo un examen consistir en ítems EM.
4.
CLASIFICACiÓN El formato de clasificación (CL) consiste, de manera semejante a los ítems EP,en una lista de respuestas que hay que clasificar entre las premisas que se proporcionan; pero difieren de ellos en que, mientras en los típicos ítems EP cada respuesta se empareja con una sola premisa, en los ítems CL la misma premisa se empareja con más de una respuesta. Por ejemplo:
127
Otros tipos de pruebas objetivas
al. Instrucciones: Localizar cada suceso (respuestas ordenadas con números) con el período en que sucedieron (premisas ordenadas con letras): A B. C
Antes de Cristo (a. C) Después de Cristopero antes de la invasión islámica (711 d. C.) Después de la invasión islámica, pero antes de que Colón llegase a América
D. E.
Después de que Colón llegase a América, pero antes de la Revolución Francesa (1789) Después de la declaración de la Revolución Francesa (1789)
1. 2. 3. 4. 5. 6
La batalla de Las Navas de Tolosa El asentamiento agrícola en el Levante español La Escuela de Traductores de Toledo """'"'''''''''''''''''''''''''''''''''''''''''''''''''''' La expulsión de los moriscos "" El nacimiento de Francisco de Quevedo La instauración de la I República española
(1492)
k k A ,
12 12
!i
a2. Instrucciones: Calificar cada una de las afirmaciones siguientes con: A
B. C.
D. E.
La afirmación es verdadera, si se da la condición. La afirmación es verdadera, independientemente de la condición. La afirmación es falsa, si se da la condición. La afirmación es falsa, independientemente de la condición. No es posible determinarlo sin más datos.
1.
A(i'rmación: La fuerza de atracción o repulsión entre cargas es inversamente proporcional al cuadrado de sus distancias, Condición: si las cargas son cuantitativa mente iguales.
2.
Afirmación: La dirección del flujo de electrones a través de un conductor es irreversible, Condición: aunque se permuten las cargas en los terminales.
3.
Afirmación: Dospartículas cargadas se repelen, Condición: si se aproximan suficientemente.
4.
Afirmación: Una partícula cargada negativamente repele a otra partícula cargada positivamente, Condición: si la carga negativa de la partícula es mayor.
5.
Afirmación: Dos objetos cargados se repelen mutuamente, Condición: si ambos atraen de manera semejante objetos cargados.
Solución: Correctas lB, 2G,3E, 4D, 5A
Nota: Es claro que no es suficiente memorizar conceptos, sino una gran comprensión del tema, para responder este ítem de eL.
RESPUESTADOBLE Las preguntas de doble respuesta CRD)son una combinación de V;F,donde se comprueba la memorización, y emparejamiento posterior CEP),con lo que se comprueba la comprensión. Por ejemplo:
5.
128
La evaluación de aprendizajes
En las afirmaciones siguientes, señalar si son verdaderas [V} ofalsas [F}: El origen de una era glacial debe buscarse en: Laglaciartosis producida por lospolos B. Las variaciones de la órbita terrestre C. Las variaciones de inclinación del eje terrestre D. Lafusión de los rayos ultra violeta y el CO2 ..................................................••• E. El efecto albedo E El efecto invernadero A
[F] [V]
[V] [F] [V]
[F]
Ahora escoger,de entre las siguientes, las causas que expliquen cada una de las afirmaciones señaladas como verdaderas. 1. La eclíptica terrestre. 2. El movimiento de campos magnéticos polares, que suponen diversas radiaciones incidentes en la meteorología fría. 3. La diferencia de potencial calorífico de polos y ecuador. 4. La reflexión de los rayos solares durante el verano por la nieve acumulada durante el invierno. 5. Lafiltración espacial de variantes térmicas estelares. 6 La desviación del movimiento rotacional, que supone la incidencia solar en zonas más o menos amplias de lospolos. 7. El enfriamiento progresivo producido por la capa de CO;!que impide la normal refrigeración ambiental del planeta.
Solución: B1,
6.
C6,
E4.
RESPUESTALIMITADA En las preguntas de respuesta limitada (RL)se pide una respuesta abierta y cor-
ta. Aunque son preguntas abiertas, por ser éstas muy limitadas, ya que se exige un dato predeterminado y preciso; suelen considerarse como PO. Si preguntan una frase, debe ser corta y específica. Los ítems que exigen respuestas más largas se clasifican más bien como respuesta abierta (RA). He aquí algunos ejemplos: Elpseudónimo de José Martínez Ruiz es:(lzorín. ¿Cuálesson los moifemas del verbo?Tiempo. modo. Dersona número v asDecto. Escribir el nombre común de los siguientes compuestos químicos: A CaCO]
B. NaCI C.
C1fl22011
D. NH]
Caliza Sal Azúcar Amoníaco
Construcción: Deben tenerse en cuenta los siguientes consejos prácticos: a) Respuesta única: Hay que expresar la pregunta de manera que obligue a una única respuesta, cualquiera que sea la forma en que aparezca. Por ejem»; plo, consideremos la cuestión: "Colón descubrió América en
129
Otros tipos de pruebas objetivas
se hace para que el alumno responda «en el año 1492»,pero se pueden obtener respuestas como «en Carabela». O la pregunta: «¿Quées carbón?», de la que se espera «carbono con impurezas», puede sugerir respuestas tales como «materia vegetal petrificada» o «una fuente de energía». Si parece que pueden darse respuestas conceptualmente distintas para una misma pregunta, debe revisarse su redacción y reformularse, con objeto de prevenir la indefinición de lo que se examina y la consecuente dificultad en calificar, y de reducir a una las posibles respuestas hasta que desaparezca la ambiguedad. En consecuencia, las preguntas anteriores se pueden reformular: al. ¿En qué año descubrió Colón América? a2. ¿Cuál es el elemento químico fundamental
del carbón?
b) La respuesta antes que la pregunta: El centro de una RL es la respuesta, por lo que se debe pensar primero en ella y, a continuación, escribir la pregunta apropiada para dicha respuesta. Eliminar algunas palabras de frases de libros de texto para convertidas en ítems de RLtiene el peligro de producir ambigliedades, al prescindir del contexto en que están escritas. Por ejemplo, la frase mutilada: Las tormentas se forman cuando columnas de aire suben a alturas más frías es una pregunta ambigua porque tiene como posibles respuestas correctas «más caliente», «más bajo» y «húmedo».
c) Preguntas directas: Las formulaciones interrogativas facilitan contestar de una manera más concisa y clara que las frases incompletas. Por ejemplo: Los dos elementos constitutivos
de la oración son
~
se puede transformar fácilmente en forma interrogativa más clara: ¿Cuáles son los dos elementos constitutivos
de la oración?
d) Evitarpistas: La expresión «másfrías» en la pregunta anterior sobre las «tormentas» sugiere la pista de que el aire, antes de elevarse, debe haber sido más caliente. Los espacios en blanco son otra pista común no deseada, pues ayudan al alumno a determinar la extensión de las respuestas, por lo que deben trazarse con la misma longitud. Un ejemplo de ello puede ser el siguiente: Los títulos de las dos novelas de Clarín son
y
~
Nota: El primer espacio pequeño, reservado a La Regenta, y el grande, para Su único hijo, facilitan el ítem sobre todo a los alumnos que no están seguros de los títulos.
e) Concisión: Conviene expresar el ítem tan concisamente como sea posible, sin perder la claridad de la pregunta. El exceso de palabras malgasta el tiempo del alumno y puede crear confusión.
130
La evaluación de aprendizajes
f) Evitar expresiones convencionales o usuales: Esto favorece el estudiar memorísticamente, más que comprender las ideas. Por ejemplo: al. Dos rectas perpendiculares a la misma recta contenidas en el mismo plano son entre sí _
Una versión mejor de esta pregunta sería: a2. Si se trazan dos rectas perpendiculares a la misma recta en una hoja de papel, las dos rectas son _
Aplicación: Los ítems RL tienen un lugar en la evaluación educativa: son fáciles de construir; se ven mucho menos afectados por el azar facilitado por la elección aleatoria de las respuestas, aunque más por el azar que supone la selección limitada de la muestra; y, si el grupo de alumnos es razonablemente pequeño, el trabajo de corrección no es excesivamente pesado. Es el formato que debe elegirse cuando los alumnos tienen problemas de lectura o escritura. Los ítems RLson eficaces para comprobar el recuerdo de datos, entre otros, números, personas, lugares, procesos, palabras en idiomas extranjeros o símbolos matemáticos, químicos, músicos o lógicos, que constituyen un substrato importante de todo conocimiento. Por ello se usan frecuentemente en materias y niveles de enseñanza donde hay que aprender vocabularios básicos en temas tales como ortografía, geografía y aritmética, y en aquellas partes de la ciencia donde hay que aprender nombres de estructuras y símbolos. Pero el conocimiento abarca más, mucho más que los datos que se pueden reducir a una sola palabra, frases cortas y números. Por lo tanto, los ítems RL controlan mucho menos que otros formatos y, como consecuencia, mientras que cualquier ítem RLpuede transformarse en V/F o EM, sólo unos pocos ítems V/F o EM se pueden convertir en RL.
7.
PROBLEMAS CIENTíFICO-MATEMÁTICOS Los problemas científico-matemáticos (CM), a veces mal llamados problemas numéricos, son un formato de prueba frecuente en materias en las que se estudian relaciones cuantitativas. Es una prueba peculiar que no se suele clasificar entre las PO, ya que, aunque excepcionalmente se puede presentar en formato EM para que el alumno elija entre varias alternativas de procesos o resultados, por lo común debe no sólo hacer una elaboración mental, sino registrar materialmente tanto el proceso para solucionado como el resultado. No obstante, es frecuente considerada como variante del formato de respuesta limitada (RL), ya que la respuesta que el alumno debe construir suele estar previamente acotada. Es esta la razón por la que tampoco se le clasifica como respuesta abierta (RA),a no ser en aquellos casos en que el alumno tiene que crear un proceso inédito para resolvedos.
Otros tipos de pruebas objetivas
Los problemas CM proporcionan la base de una gran variedad de ítems y son una buena manera de comprobar la comprensión y la aplicación, en contraste con la mera memorización de conocimientos. Esto, junto al hecho de que las respuestas sean concisas y fácilmente calificables, supone que los problemas CM sean un formato muy popular de examen. Con la ventaja añadida de que se pueden construir diferentes versiones de los mismos problemas sólo con modificar los datos y su forma de presentación. Construcción: En general, a la hora de construirlos se debe tener en cuenta que el problema represente todo y sólo lo que se quiere comprobar, y que no se introduzcan simplificaciones ni complejidades inintencionadas. La dificultad está en precisar los dos aspectos que se suelen considerar en los problemas CM, es decir, el proceso seguido y el resultado obtenido. No se pueden dar normas definitivas para formularIos; sin embargo, las siguientes pautas pueden ayudar. a) Enunciado claro: Hace unos años se hizo un estudio para comprobar si la inclusión de datos irrelevantes en los problemas de Física mejoraba la evaluación; esta hipótesis se basaba en la premisa de que los problemas de la vida real incluyen datos relevantes y no relevantes: si sólo se proporciona la información que se necesita, facilita su posible solución a los alumnos menos capaces. Las conclusiones de esta investigación demostraban que la inclusión de los datos irrelevantes no mejoraba los ítems, que generalmente eran ya lo suficientemente complicados sin ellos (Ebel y Frisbie, 1977). Por consiguiente, hay que expresar el enunciado del problema de la manera más clara (afirmaciones simples y directas) y concisa (eliminación de palabras innecesarias, comentarios y datos irrelevantes) que permita lo que se quiere evaluar; no obstante, hay que tener en cuehta que en algunos casos la interpretación de la complejidad de un enunciado es parte de lo que se quiere evaluar. Así, para controlar el cálculo, conviene introducir números tan complejos como sea necesario. Por el contrario, si el fin del ítem es controlar sólo la comprensión, no la capacidad de cálculo, hay que simplificar el enunciado usando números lo más simples posible; por ejemplo: al. ¿Cuál es el área de un rectángulo cuya base es 3 cm y su altura 4 cm? a2. ¿Cuál es el área de un rectángulo cuya base es l,23.lrr cm y su altura 2,82. ~h05cm?
Nota: Si ambos ítems pretenden comprobar el mismo objetivo, «comprender la fórmula del área del rectángulo», el peso de cálculo en el segundo hace que suponga otras capacidades, pero no sea más relevante como medida de dicho objetivo. Cuando sea necesario, se debe especificar también el grado de precisión de las respuestas, por ejemplo, sólo el orden de la magnitud o la cantidad exacta; ya que, si los alumnos no están seguros de lo que se les pide, la medida de lo que son capaces de hacer será menos válida.
131
132
La evaluación
de aprendizajes
b) Dividir problemas: Se puede reestructurar el enunciado para dividir un problema complejo en varios, cada uno con un apartado, cuando sea técnicamente posible hacerla sin dirigir sensiblemente el proceso de solución. Tendremos así indicadores de logros parciales, lo que mejorará la fiabilidad de las calificaciones. Consideremos los siguientes dos ítems: al. El año pasado Fernando vendió 60 coches a un precio medio de 9.000 €. Pretende vender este año el 50% más de coches. Si Fernando gana una comisión del 10% en cada venta, ¿cuánto más ganará este año si alcanza sus objetivos? a2. El año pasado Fernando vendió 60 coches a un precio medio de 9. 000 €. Pretende vender este año el 50% más de coches. Fernando gana una comisión del 10% en cada venta. a) ¿Cuántos coches espera vender este año? b) ¿Cuánto ganó con las ventas del año pasado? c) ¿Cuánto espera ganar con las ventas de este año?
Nota: Aunque aparentemente iguales, son problemas distintos; habrá que proponer uno u otro según el objetivo que se pretenda comprobar.
SElHBI1 SYBElnHd
Lo específico de las pruebas libres (PL) o abiertas es la libertad de expresión del alumno, que ha de organizar sus propios conocimientos, seleccionar lo más importante y manifestar su creatividad y originalidad, integrando en un todo armónico los elementos de su respuesta. No hay que elegir, en consecuencia, una respuesta «determinada» previamente, como en las PO. Sin embargo, al igual que éstas, suponen también objetividad y elaboración, requisitos imprescindibles de toda prueba. En este extremo están de acuerdo la mayoría de los autores. No es tan unánime, sin embargo, el consenso en lo que se refiere a la pretensión de que existen objetivos exclusivamente evaluables a través de las PL: algunos los extienden a todos los que tienen que ver con el análisis, síntesis y valoración crítica; otros, en cambio, los reducen a los relacionados con la capacidad de expresión, porque defienden que el pensar y razonar no es exclusivo de este tipo de prueba. Al enfrentarse a las PL, los alumnos deben dominar un amplio bagaje de conocimientos que les permita exponer datos, métodos y conceptos, organizarlos de manera lógica y coherente, relacionados y expresar todo ello de forma adecuada. Por ello, quienes prefieren las PLa las PO señalan a menudo que tales aspectos proporcionan información sobre la naturaleza y calidad de los procesos mentales de los alumnos, así como una mejor indicación de los logros de aprendizaje. Esta apreciación se resume, en definitiva, en que construir es más que seleccionar (cap. 4), en la falsa creencia de que sólo se construye en las PL, y no en las PO; cuando en estas últimas, obviamente, el alumno también sigue un proceso mental de construcción -siempre necesario para la selección de la respuesta entre una serie de alternativas-, que a veces no se materializa. Son muchos los formatos que responden al esquema de las PL. Trataremos en primer lugar de las pruebas o preguntas de respuesta abierta, como formato más representativo de las características de este tipo de pruebas. En el capítulo 9 presentaremos otros tipos de PL.
136
La evaluación
1.
de aprendizajes
RESPUESTAABIERTA Las preguntas de respuesta abierta (RA),conocidas también con los nombres de pruebas de respuesta libre, de ensayo, tradicionales o examen clásico, son el formato de PLmás popular y aún el más utilizado, sin que esto quiera decir que estas pruebas constituyan siempre el mejor instrumento de evaluación. Sus orígenes pueden rastrearse ya hacia el año 1115 a. C. en la China Imperial (Coffman, 1971), y constituyen la única prueba de formato escrito que se usó casi sin interrupción hasta principios de nuestro siglo. Sin duda, tienen que encerrar grandes ventajas para obtener la sanción de la tradición. Hay muchas razones que justifican su popularidad; entre otras, se adaptan a todo objetivo de aprendizaje, imposibilitan responder por azar, es más difícil «copiaf». En todo caso, las ventajas de las RApresuponen la aplicación de una técnica muy minuciosa en su elaboración y corrección, que nos proponemos detallar en las páginas siguientes. Sin embargo, es preciso, desde el primer momento, destacar algunos aspectos negativos de su aplicación que hacen que, con excesiva frecuencia, se improvisen malas preguntas, con el consiguiente desprestigio. Entre otros, los siguientes: la ignorancia de las normas de construcción y corrección, la idea general de que son más «económicas», el abuso de la comodidad que representa su aparente facilidad de redacción y su menor tiempo de preparación, la necesidad de hacer menos preguntas más generales. Por todo ello, y en buena lógica, las críticas al examen clásico deben atribuirse más bien a estas preguntas mal elaboradas. Otra circunstancia negativa es la aparente seguridad en la que se puede escudar el profesor cuando no tiene que mostrar su propia versión de las respuestas: en estos casos, las posibles deficiencias de una RA,al contrario de las de una PO, siempre patentes, quedan ocultas y no están disponibles para ser observadas y criticadas. Contribuye también a su mal uso el hecho de que la dificultad intrínseca de las preguntas se pueda reconsiderar con posterioridad; es decir, las bases de calificación, siempre decisión personal del docente, algunos no las expresan al proponer las RA y, aun cuando se expliciten y hagan públicas previamente, en la mayoría de los casos las calificaciones otorgadas se pueden justificar y defender ante los alumnos. Esto permite controlar el nivel general de las notas y su distribución, al ajustar con posterioridad los resultados para que aprueben y suspendan un número determinado de alumnos, independientemente de la dificultad de las preguntas. Se puede así matizar, más fácilmente que con PO, la valoración criterial con la normativa. Construcción: A la hora de construir preguntas de RA,se deben tener en cuenta los siguientes aspectos:
Pruebas libres
1. Objetivo: Es necesario tener a la vista, como en las PO, las variables que se quieren medir. Subrayamos aquí esta condición, ya que sin objetivos explícitos es casi imposible construir PO; sin embargo, a veces, resulta más fácil formular preguntas de RAsin hacer una detenida y previa consideración de lo que se pretende evaluar. Muchos de los rasgos que se dicen medir con las RA,tales como la originalidad, no se suelen definir claramente por la especial dificultad de explicitar sus indicadores; por ejemplo, se llega a valorar la creatividad o el pensamiento crítico, aunque sea difícil concretar los rasgos que pueden permitir su «medición» (Fernández Garrido, 1980; Forteza. 1974; Olea, 1993). 2. Instrucciones: Las instrucciones claras son tanto más necesarias cuanto menor sea el nivel de desarrollo del alumno. En todo caso, como ya dijimos al hablar de las PO, no se deben repetir en cada examen; cada profesor marca al principio las reglas del «juego». Estas instrucciones, que pueden referirse a la presentación de las preguntas y de las respuestas de los alumnos, al rigor en las expresiones científicas, a la duración del examen, etc., a menudo condicionan la misma dificultad de la prueba. 3. Normas: Buscamos la fuente de inspiración de las normas de construcción precisamente en las deficiencias que se deben evitar. Las limitaciones más serias de las RAcomo medidas de logros se refieren a la fiabilidad de las calificaciones obtenidas con ellas. Recordemos que baja fiabilidad significa que hay inconsistencia entre las calificaciones obtenidas de pruebas propuestas sucesivamente, o calificaciones independientes del mismo examen. Las conclusiones de una serie de investigaciones (Stalnaker, 1966) ponen de manifiesto que distintos correctores competentes e independientes asignan a menudo puntuaciones diversas a la misma RA;cada corrector tiene su estilo propio de calificación: lo que para unos es importante, puede seda menos para otros. Incluso el mismo corrector asigna puntuaciones distintas a la misma prueba cuando ha mediado un determinado período de tiempo. Son tres las principales causas de esta baja fiabilidad que pueden ayudar a identificar mejor las normas de construcción. a) La muestra limitada de contenido cubierto por el examen. En comparación con las PO, se han hecho pocos estudios experimentales de la fiabilidad de las muestras de RA;en parte por la dificultad de obtener en ellas calificaciones suficientemente objetivas. Ruch (citado por Ebel y Frisbie, 1977) puso de manifiesto que hay una relación directa entre la extensión de la muestra de tareas en un examen y la precisión con que pueden diferenciarse los niveles de logros. Es obvio que la suerte del alumno en ser preguntado sobre lo que sabe supone, cuantos menos ítems tenga el examen, un fáctor que influye más en la calificación que recibe. b) La indefinición de las tareas propuestas en las preguntas. En muchas RA, la tarea indicadora del logro y la base para juzgado no están especificadas de manera fácil de entender. Cuanto más detalladas y explícitas sean, tan-
137
138
La evaluación
de aprendizajes
to para el alumno como para el profesor, más objetivas y fiables serán las • calificaciones que se obtienen de las RA. c) La subjetividad. Aunque las RAse pueden calificar fiablemente cuando se corrigen con cuidado, se admite casi sin discusión que la subjetividad influye en mayor medida en las calificaciones de este tipo de pruebas. La limitación de la muestra y la indefinición de tareas, como causas de la falta de fiabilidad de las RA,sugieren precisamente una serie de normas para evitadas, mejorando su construcción; mientras que la subjetividad orienta más bien la corrección. De las normas de construcción hablaremos a renglón seguido y más adelante de los aspectos de la corrección. Algunas normas de construcción son tan obvias que no merece la pena ni citadas. Por ejemplo, el hecho de que las preguntas se refieran a un conocimiento esencial; es decir, hay que hacer preguntas o proponer tareas que requieran que el alumno demuestre no sólo la reproducción de cualquier contenido presentado en los libros de texto o durante la explicación, aunque muchos dirían que esto no es poco. Con otras palabras, para hacer las preguntas, sería conveniente no sólo mirar hacia atrás e inspirarse en lo que se dijo en clase, sino mirar hacia delante y preguntar aplicaciones importantes de lo aprendido. Otras sugerencias, no tan obvias, son las siguientes: a) Respuestas breves: En general, los logros de aprendizaje en un campo o materia específicos se pueden apreciar mejor cuanto mayor sea el número de preguntas o tareas propuestas en el examen. Es cierto, sin embargo, que a veces la respuesta a una sola pregunta compleja entraña ya una integración coherente de elementos variados de aprendizaje. El problema surge cuando la intención es incidir en esos elementos aislados, que suponen relación de múltiples logros, y tanto alumno como profesor tratan la respuesta como un todo más o menos integrado; desvirtuando, en consecuencia, la perspectiva analítica inicial de la prueba. Surge, entonces, el dilema: ¿Pocas preguntas de amplio recorrido, o muchas y más delimitadas? En el primer caso, se resiente la fiabilidad, se restringe la amplia base de la materia a pocas parcelas determinadas, y se corre el peligro de no construir una muestra lo suficientemente representativa. En el segundo, las RAse acercarían más a las PO, con la consiguiente pérdida de las ventajas de selección y síntesis que las RAconllevan. No es fácil, pues, categorizar. Se recomienda, no obstante, dar preferencia a más preguntas y más específicas, con objeto de conseguir una mayor fiabilidad mediante una muestra más representativa y una menor ambiguedad. En el caso de estimar necesario hacer preguntas de amplio recorrido, el profesor ha de sopesar la justificación de su valor intrínseco y la probable pérdida de fiabilidad de las calificaciones. b) Tareas deftnidas: Algunos profesores ocasionalmente proponen preguntas de contestación indeterminada, ya que, dicen, las conclusiones que
Pruebas libres
sacan los alumnos no es lo importante; lo importante es, más bien, la evidencia en la que basan sus conclusiones y la lógica de sus argumentos. Sin embargo, no es aconsejable hacer preguntas en cuya respuesta los expertos puedan no estar de acuerdo. Las preguntas de contestación indeterminada y controvertida son más propias de actividades y ejercicios durante la instrucción, que de situaciones para evaluar aprendizajes, ya que las diferentes opiniones y prejuicios personales pueden influir considerablemente en la evaluación de las respuestas de los alumnos. Incluso más, la ausencia de una buena respuesta puede hacer que la pregunta quede invalidada para juzgar logros. Por el contrario, debe definirse lo que se le pide al alumno tan completa y específicamente como sea posible, para ayudade a organizar sus conocimientos y capacidades, inmediatamente en el examen y mediatamente en su estudio personal; pero sin interferir con la medida de los objetivos, y menos facilitada, o darle más libertad que la necesaria para medir los logros pretendidos. Para ello, debe expresarse la pregunta sin ambiguedades, de manera que los alumnos comprendan totalmente lo que se espera que hagan. No hay que limitarse a preguntar sólo un contenido, «Las Leyes de Newton», ni tampoco una capacidad, «Decir todo lo que sepas», sino simultáneamente ambos aspectos del objetivo seleccionado. Por ejemplo, si se trata de objetivos de comprensión: «enumerar algo, definir/o, dar las razones, explicar, resumir, comparar y definir, qué, cómo, cuánto»; y «resolver, analizar, diseñar un plan, valorar, criticar una realidad», en caso de que el objetivo se refiera a capacidades más complejas, Goring (1971) y Gronlund (1974) distinguen y califican, a nuestro juicio erróneamente, las preguntas de memorización y comprensión como «Restringidas».y las de síntesis y valoración como «Libres».Puede ayudar el añadir una explicación inspirada en los criterios con que se va a evaluar la respuesta; por ejemplo, en vez de preguntar escuetamente «Definir metáfora», es preferible «Definir los distintos tipos de metáfora ilustrándolos con ejemplos». A este propósito, se cuenta que un alumno aseguraba que se le había suspendido en Física injustamente. Se le da una nueva oportunidad; el profesor le formula la aparentemente clara, escueta y directa pregunta: «Cómo se puede calcular la altura de un edificio por medio de un barómetro». Había transcurrido casi una hora sin que el alumno hubiera escrito una sola línea, por lo que el profesor le invita a fIrmar y entregar el examen para no perder más tiempo. El alumno le sorprende diciendo que se lo está pensando, porque tiene tantas respuestas que le es difícil decidirse por una. El profesor, entre incrédulo y molesto, se ofrece a ayudarle en su decisión, para lo que le pide sus hipotéticas respuestas. Empieza entonces el alumno a enumeradas: «En primer lugar, se me ocurre que puedo colgar el barómetro de una cuerda e ir soltándolo lentamente desde arriba; y luego medir la longitud de la cuerda usada. Puedo también ir subiendo por las escaleras del edificio y con el baró' metro ir haciendo señales en la pared; tendríamos así la altura del edificio en "unidades de barómetro". Si hoy no estuviera nublado, podríamos medir la sombra del edificio y la del barómetro en la acera; los triángulos semejantes nos llevarían a poder calcular también la altura del edificio. Si además disponemos de un cronómetro, tirando el barómetro desde lo más alto y midiendo el tiempo que tarda en llegar al suelo, deduciríamos el espacio recorrido, o sea, la altura del edificio; el pro-
139
140
La evaluación
de aprendizajes
blema es que sólo vale para una vez. La siguiente es de nivel superior, pero quizás se me admita: colgando el barómetro de una pequeña cuerdecita para formar un péndulo y midiendo el período en la cima y en la base, llegaríamos, a través del valor de "g", a la altura del edificio. Pero reservo para el final la que más me gusta: supongo que el edificio será importante y tendrá portero; me dirigiría a él y le diría: Sr. Portero, tengo un barómetro fenomenal; si me dice la altura del edificio, se lo regalo». El alumno dio seis respuestas, pero no la que pretendía el profesor, relacionada con la presión atmosférica. La pregunta no era tan clara.
Si la respuesta permite variación en extensión y detalle, pero la decisión sobre ellas por parte del alumno no es una variable relevante, el profesor debe adelantarse y especificadas. Por otro lado, si el formato de las respuestas es significativo, debe explicitarse en las instrucciones; así, se va imponiendo el exigir que el alumno exprese su respuesta en forma de hypertexto. En Álvarez y Soler (1999) se estudia con detalle esta forma de estructurar la información; otros autores, como Novak y Gowin (1988), ya citados en el capítulo 2 al hablar del enfoque cognitivo de la evaluación, y Belmonte (1996), sugieren el formato más ambiguo de mapa conceptual. e) Preguntas opcionales: Se recomienda no formular preguntas opcionales; ya que, si cada alumno elige preguntas diferentes, la base para comparar resultados se debilita, el abanico de las calificaciones tiende a cerrarse y; como consecuencia, será menor su discriminación y fiabilidad. Algunos insisten en justificar las preguntas opcionales diciendo que hacen el examen más justo. Pero si todas las cuestiones son importantes, no es injusto pedir que los alumnos respondan a todas ellas. Más aún, la oportunidad de elegidas puede ayudar a los alumnos menos preparados y perjudicar a los mejor preparados distrayéndolos, es decir, perdiendo tiempo en elegir las opciones en vez de abordar directamente las respuestas. Estas conclusiones quedan justificadas por la investigación, desde que Meyer (1939) encontró que, cuando a alumnos universitarios se les dio la oportunidad de omitir 1 de 5 RA,sorprendentemente sólo el 58% de ellos omitieron la pregunta que responderían peor. Las preguntas opcionales pueden justificarse cuando los alumnos han tenido diversas oportunidades de instrucción en distintos temas. Pero incluso en tales situaciones, varios exámenes calificados por separado pueden seguir siendo preferibles a un examen común con preguntas optativas para dar una sola calificación. d) Pilotar la respuesta: Se trata de no limitarse a confeccionar una guía de corrección, indispensable si tiene que corregir un profesor distinto del que construyó la prueba, sino de ir más allá, hasta elaborar por anticipado un esbozo de las posibles respuestas esperadas; es decir, redactar la respuesta ideal o recopilar las respuestas que suelen y pueden dar los buenos alumnos. La ventaja es tener un punto de referencia complementario para lograr uniformidad en la calificación. El hecho de pilotar la prueba es también una ocasión para que el profesor reflexione sobre la calidad de lo que pregunta y la forma de preguntado, lo que
Pruebas libres
puede sugerir matices adicionales para mejorarla, haciéndola más o menos fácil y más discriminante.
e) Criterios de calificación: Al formular la pregunta, se debe ya clarificar su valor y asignarle al menos una calificación global. Corrección: Hemos dicho que una de las causas de la falta de fiabilidad, y por tanto una de las críticas más frecuentes a las RA,es la que se refiere a la subjetividad de su corrección. El corregir con objetividad es uno de los problemas de las RA,porque su eficacia como medida de aprendizajes depende primariamente del proceso de corrección. La competencia del profesor es crucial para la calidad de este proceso, pero incluso profesores competentes pueden hacer cosas sin darse cuenta de que numerosos factores influyen en que los resultados sean menos fiables. Para citar algunos: fatiga, prisa, humor, primeras impresiones, «efecto halo», desgaste de la sensibilidad (un error juzgado como grande en el primer examen puede parecemos insignificante después de haberlo leído muchas veces en los exámenes siguientes), etc. Junto a la subjetividad, se añade el inconveniente del mucho tiempo y el grado de atención que requieren del corrector. Para paliar estas deficiencias, además de las sugerencias de construcción ya mencionadas, vamos a estudiar unos métodos y normas de corrección que, en definitiva, refuerzan dichas sugerencias. En general, se proponen dos procedimientos para corregir RA:el holístico y el analítico; lo que se completa con una serie de normas para «minimizar» la subjetividad de la corrección. En la actualidad, se están desarrollando técnicas informáticas para la corrección automatizadas; véase, por ejemplo, Shermis y Burstein (2003).
a) Método holístico: En el método holístico, a veces llamado «impresión global», se asigna una puntuación teniendo en cuenta la calidad global de la respuesta. Para entenderlo, puede valer la analogía del tasador de coches de segunda mano, que hace la valoración globalmente a partir de un indicador fundamental, el año de matriculación; y la matiza con datos tales como kilómetros de rodaje, ciudad de matriculación y la demanda del mercado. De la misma manera, se puede calificar, por ejemplo, un comentario de texto por la impresión de conjunto, basada principalmente en la consistencia del contenido, y matizada por aspectos como enfoque del tema, estructura y graduación de las partes, conclusiones aceptables, etc. Se presta más para hacer una valoración normativa relativa que criterial absoluta, que es la más frecuente en la evaluación académica. El método holístico se puede perfeccionar haciendo una corrección por grupos: El profesor, con una primera lectura superficial de cada respuesta, hace una clasificación provisional, mediante la comparación con las otras que va corrigiendo, y coloca los exámenes, por ejemplo, en tres grupos [Alto-Medio-
141
142
La evaluación de aprendizajes
Bajo] o [Buenos-Dudosos-Malos]. Después de terminar esta primera lectura rápida, se vuelven a leer más detenidamente los exámenes de cada montón para colocados en grupos subdivididos como [Muy buenos-Buenos-Satisfactorios-Malos-Muy malos] o [A-B-C-D-E],correspondientes a las notas definitivas literales o numéricas, como aparece en la siguiente figura:
b) Método analítico: Se llama analítico porque descompone cada pregunta en partes, encerrando cada parte una serie de elementos cruciales o categorías, que deben ser identificados y calificados separadamente. La presencia o ausencia de estos elementos en cada parte de las respuestas dadas por el alumno determina la puntuación; es decir, el profesor, al corregir, añade o suma puntos por cada elemento que aparece, o resta puntos por cada elemento inexacto, irrelevante o que falta. Esto supone realizar previamente lo que se conoce como análisis de contenido». Berelson (1952) y; más recientemente, Kripendorff (1980) han aportado sucesivas definiciones de esta técnica, que consiste en la descripción analítica, cualitativa y cuantitativa del contenido que se manifiesta en una comunicación. Este tipo de análisis se aplica a una comunicación verbal o escrita en la que puedan distinguirse: aspectos formales como claridad de pensamiento, ordenación o sistematización de las ideas; aspectos gramaticales como vocabulario, estructura de las frases, ortografía, corrección del lenguaje; aspectos originales: novedad en los enfoques, en la estructuración, etc. Por consiguiente, es necesario: distinguir las categorías que se van a observar; describir claramente esas categorías para captar su presencia o ausencia en la comunicación; asignar una puntuación a cada elemento o categoría. Los puntos que se van restando de la calificación máxima se pueden atribuir, por ejemplo, a alguna combinación de las siguientes deficiencias: a) Hay afirmaciones incorrectas. b) Se omiten ideas importantes necesarias. c) Se incluyen afirmaciones correctas, pero con poca o ninguna relación con la pregunta. d) Se llega a conclusiones no válidas, ya sea por errores en el razonamiento o por una errónea aplicación de principios.
Pruebas libres
e) Una mala expresión escrita oscurece el desarrollo y la exposición de las ideas. E)
Hay errores flagrantes en la ortografía y en las reglas de la expresión escrita.
La clave o guía usada en la corrección analítica defme criterios absolutos y, así, proporciona calificaciones preparadas preferentemente para una valoración criterial. Por supuesto, estas calificaciones absolutas se pueden matizar con valoraciones normativas relativas, estableciendo comparaciones interindividuales. Con todo ello se pueden analizar las respuestas para dar a los alumnos indicaciones detalladas de sus fallos, dentro de un enfoque de la evaluación más formativo que sumativo. La corrección analítica permite, además, prestar atención a la organización, integración y relaciones entre los elementos cruciales que aparecen en la respuesta. Pero cuando estas relaciones son complejas o sutiles, la corrección analítica puede volverse demasiado incómoda y tediosa para ser eficaz. La cualidad de las calificaciones obtenidas con métodos analíticos depende de la capacidad del docente para formular la clave de calificación y de la capacidad y cuidado para aplicarla del que corrige. En todo caso, para realizar este tipo de corrección, hay que tener una personalidad detallista y minuciosa, bastante experiencia y, sobre todo, tiempo para hacerla. Por estas razones, a primera vista el método analítico parece mejor; sin embargo, no siempre es así, ya que en algunos casos es tan laborioso y las ventajas son tan poco significativas que no merece la pena ponerlo en práctica, pues se obtienen los mismos resultados y las calificaciones son tan fiables con el método holístico, más simple y más rápido.
c) Corrección horizontal: Supone corregir por preguntas en vez de por alumnos. Esto significa que el profesor corrige primero las respuestas de todos los alumnos a la pregunta 1, antes de pasar a la pregunta siguiente. Talprocedi~ miento es indispensable, obviamente, en el método hoHstico. También tiene ventajas en la corrección analítica, puesto que concentrarse en una cuestión cada vez ayuda a no tener que hacer transposiciones mentales, activar capacidades y promover juicios especiales distintos al ir cambiando de pregunta (Hales y Tokar, 1975). Hay también más probabilidad de que los efectos de fatiga, humor, etc., afecten a todos los alumnos por igual, y es más fácil interrumpir la corrección sin consecuencias, una vez que se haya terminado de corregir una pregunta en todos los alumnos.
d) Identidad del alumno: Si es posible, hay que ocultar a quien corrige la identidad del alumno. Idealmente, se deben dar instrucciones para que las respuestas a diferentes preguntas se escriban en hojas aparte, identificadas sólo por un código. Estas hojas se clasifican en grupos por preguntas para la corrección y se reúnen por alumnos para la calificación final. Este procedimiento pue-
143
144
La evaluación
de aprendizajes
de reducir la posibilidad de que prejuicios, el nombre, la fama o el «efecto halo», asociado con las calificaciones del mismo alumno en otras preguntas del examen, influyan en la asignación de calificaciones.
e) Calificaciones independientes: Para conseguir calificaciones independientes, al menos dos profesores tienen que corregir cada pregunta o una muestra, sin saber lo que ha asignado el otro. La corrección independiente que lleve a una correlación entre pares de calificaciones en cada pregunta es la única comprobación de la objetividad, y por tanto de fiabilidad, de la calificación en este tipo de pruebas. Puesto que es difícil de hacer y lleva bastante tiempo, no se suele llevar a cabo.
f) Objetivo y expresión: Es importante distinguir entre una RA y una composición escrita. Mientras que ambas usan la escritura como medio de expresión, la primera se centra en el contenido expresado en y con la escritura. En la composición escrita, en cambio, sin merma de la consideración de los aspectos del contenido (ideas, invención, fabulación, etc.) y su estructura organizativa (coherencia, cohesión), se valoran también otros aspectos más formales, tanto normativos como estilísticos. Por tanto, mientras en las RAla expresión escrita es fundamentalmente un medio de comunicar «contenidos científicos»; en las pruebas o trabajos de composición, entendida ésta como forma y contenido, la expresión escrita constituye un fin en sí mismo. Es importante, pues, tener en cuenta la distinción entre los fines de las RAy la valoración de la expresión escrita, de manera que las pruebas de ensayo den calificaciones que representen logros de aprendizaje en dominios de contenido importantes, no habilidades en composición. Sin embargo, hay siempre interferencias entre las valoraciones de las RAy la expresión escrita. Esto conlleva, a la vez, aspectos positivos y negativos. La expresión escrita es una capacidad importante que las RAfavorecen; no obstante, éstas pueden proporcionar también una práctica de mala expresión, apresurada, mal concebida, etc. Más aún, la mejor o peor expresión escrita puede influir en el corrector cuando enjuicia el contenido de la respuesta. Una escritura uniforme, legible y fluida, mediante frases bien construidas, puede compensar algunas deficiencias en el objetivo (Chase, 1979; Hughes, Keeling y Tuck, 1983); por otro lado, incorrecciones ortográficas, gramaticales o sintácticas pueden influir negativamente. En ocasiones, incluso la extensión de las respuestas, especialmente desde la perspectiva de los alumnos, se ve en relación con las calificaciones: cuanto más largas sean aquellas, más altas serán éstas; según la imagen popular de «corregir a peso». Por otra parte, los alumnos ocasionalmente pueden usar sus habilidades de expresión para compensar su falta de conocimiento. A veces, transforman sutilmente la pregunta para que les sea más fácil contestada; si lo hacen bien, el profesor no se dará cuenta de la sustitución. Otras, el alumno se puede concentrar
Pruebas libres
más en la forma que en el fondo, en la presentación elegante de unas pocas ideas simples, con la esperanza de que esto aparte la atención del profesor de su falta sustancial de conocimiento. No todos los profesores se dejan engañar con facilidad, aunque todos debemos ser conscientes de estas posibles interferencias. Y lo más frecuente es que los alumnos que necesitan más la ayuda de estos engaños son los menos capaces para usar estas técnicas. Aplicación: La construcción de buenas RA,que respondan a lo expresado en páginas anteriores, es una tarea tan difícil como construir buenas PO. A partir de esta convicción, se pueden formular las siguientes sugerencias: a) Utilizar RApara evaluar los objetivos de aprendizaje que otros formatos no pueden valorar eficazmente. b) Acudir a RAcuando no compense el esfuerzo de construir otros formatos de PO; por ejemplo, cuando es el mismo profesor el que enseña, construye las pruebas y las corrige, y tiene pocos alumnos, y se pasa todo el día con ellos. c) Preferir RAcuando no se pueda garantizar el copiar, el azar, etc., al aplicar PO.
d) No utilizarlas si se dispone de poco tiempo. La calidad de la prueba baja excesivamente si hay que responder mucho en poco tiempo: la prisa impide al alumno pensar y organizar. Las recomendaciones irían en sentido contrario, es decir, no dejarse llevar de la rutina para proponer RAen circunstancias tales como cuando son muchos los alumnos que hay que evaluar; se dispone de un banco de pruebas objetivas; son distintos los profesores que enseñan, los que construyen las pruebas y los que las corrigen.
145
S:lH811 SV8:1nHd :la SOdl~ SOH~O
d)
PRUEBAS MIXTAS Las pruebas mixtas (PM) pueden combinar las ventajas del examen clásico (RA) con las de las pruebas objetivas (PO). No son dos exámenes sin relacionar, sino uno solo presentado mediante dos formas secuenciadas y complementarias: examen tradicional y prueba objetiva con formato EM o RL. El alumno ha de resumir y transcribir en PO lo que ya escribió en su RA,con lo que se consigue tener constancia escrita de su razonamiento a disposición del corrector. Ejemplos: al. Objetivo: Comprender el concepto de función continua en un punto. Prueba libre (RA): Explicar el concepto de función continua en un punto. Prueba objetiva (EM) (ejemplificación parcial de la PO):
*
x->a = =y[(al 1. e) Una lirn.función [(x)= lim [(a) =[(xl f(x) [(xl es continua lim [(al liIll [(xl x->a
b)
x~a x->a
en el punto a si:
x~a
al
A··· .. ···m1 2.
¿'Cuál seria la gráfica de una función
y
2
m
continua
en x
= 2?
y
,í-i
¡
•••••••
2
f(2l = 3
a)
O
~
f(2l = 2
*b)
f(2) = 2 C)
~
í
t
••f" no está definida en x=2
d)
a2. Objetivo: Aplicar conceptos de mecánica. Prueba libre (RA): Resolver, en hoja aparte, los problemas que se proponen. Prueba objetiva (RL): Después de resolver cada problema, transcribir lo que se pide:
1.
La evaluación de aprendizajes
150
1. Se lanza verticalmente hacia arriba un proyectil con una velocidad de 150 mis; calcular el tiempo que tarda en subir al punto más alto. Datos: v = cuaclOn utz'1'zzad a: t = E--·f Resultado: t = s 2. Un volante que está en reposo empieza a girar con una aceleración de 5 radls2 durante 20 min; en este instante se le aplica un freno que le comunica una aceleración negativa de 12 radls2. Calcular: a) la velocidad máxima alcanzada; b) el número de revoluciones totales dadas; y c) el tiempo que tarda en pararse desde que se le aplica elfreno. a) Ecuación utilizada: w = Resultado: w max = radls b) Resultados Darciales: Radianes antes defrenar= Radianes después defrenar= Vueltastotales= c) Ecuación utilizada: t = Resultado: t = s
Aplicación: Se pueden entregar ambas pruebas, RAy PO, simultáneamente; o proponer en primer lugar que el alumno desarrolle la RAcon un amplio margen de tiempo y, transcurrido el mismo, entregarle la PO para que la responda en un tiempo limitado (alrededor del 25% del tiempo de la RA). Se corrige la PO, y se acude a la RAcuando se tengan dudas, no se entienda algo de la PO o se quieran evaluar razonamientos.
2.
EXAMEN ORAL Los exámenes orales (EO) han sido los primeros instrumentos de evaluación utilizados para comprobar rendimientos de aprendizajes; fue el formato predominante aun antes de la aparición de las instituciones educativas. La práctica docente es pródiga en el uso de preguntas orales que sirven para ayudar al aprendizaje, así como de instrumento de evaluación. Por supuesto, estos propósitos están con frecuencia relacionados, y a veces son inseparables, particularmente cuando la naturaleza de la evaluación es formativa más que sumativa. Las preguntas orales como estrategias de enseñanza sin la formalidad del examen oral pueden cumplir, entre otras, las siguientes funciones: a) De repaso para, antes de una prueba, revisar y reformular lo mal aprendido. b) De introducción en sesiones de discusión y debate. Las preguntas ayudan a provocar la participación de los alumnos, activan sus conocimientos previos y modelan estrategias metacognitivas.
Otros tipos de pruebas libres
c) De animación del pensamiento creativo; es decir, para facilitar oportunidades de que los alumnos piensen crítica y creativamente. Por ejemplo, preguntar ,,¿yentonces qué?» o "si estuvieras afónico y no pudieras hablar en tres meses por prescripción facultativa, ¿cómo se debería modificar el programa de Arte Dramático en el que participas?», para ir más allá de la mera formulación de un dato, método o principio y estimular el uso de nuevos conocimientos mediante un nivel más alto de pensamiento. Aquí, sin embargo, nos interesan más las preguntas como instrumento de evaluación. En su forma clásica, son un formato de prueba libre que consiste en un diálogo con un examinador que plantea preguntas generalmente no relacionadas entre sí (en el cap. 10, se menciona la relación que existe entre el examen oral y la entrevista); por ello se adaptan mejor a objetivos de reconocimiento y comprensión de un conjunto misceláneo de conocimientos aislados, no estructurados, que el alumno debe repentizar. La función evaluativa que el interrogatorio oral parece lograr mejor que otros formatos es valorar la situación inicial de los alumnos para poner en práctica unos determinados procedimientos instruccionales. A partir de pistas no verbales que leen en las caras de los alumnos, los profesores formulan frecuentemente preguntas orales sucesivas, completadas con contrapreguntas adaptadas a las respuestas de los alumnos, para hacer diagnósticos sobre la raíz de los problemas de aprendizaje; es decir, saber si a los alumnos les falta información, tienen un error conceptual o han entendido mal un proceso, y así poder reajustar las estrategias de enseñanza. La improvisación inherente al diálogo ofrece, por añadidura, una gran flexibilidad para tener en cuenta circunstancias atenuantes de los fallos o pasar de los puntos fuertes a los puntos débiles del alumno. En suma, las preguntas orales pueden muy bien ser la primera técnica que activa inclusores con objeto de empezar una unidad de instrucción y la última de síntesis para cerrarla. Una dificultad obvia es su estandarización, por lo que resulta difícil dejar constancia de las preguntas de los profesores y de las respuestas de los alumnos; ello puede dar pie a grandes desconfianzas (Contreras, 1990), sobre todo si el examen no es público. Por otra parte, la fuerte incidencia del azar, al no preguntar lo mismo a todos los alumnos, y la valoración subjetiva del profesor suelen ofrecer pocas garantías de fiabilidad y objetividad en las calificaciones. Para mejorarlas, son especialmente importantes los métodos para formular las preguntas y registrar las respuestas, que estudiaremos a continuación.
2.1. Clasificación de las preguntas: El aspecto que ha recibido más atención de los investigadores hace referencia a la clasificación de las preguntas. Entre las muchas que se han utilizado, podemos citar las siguientes: 1. Libertad: Clasificación de las preguntas según el grado de libertad que dan al alumno para responder.
151
152
La evaluación
de aprendizajes
a) Cerradas o convergentes: Se dirigen hacia respuestas preestablecidas, o se dan en la misma pregunta pautas de la respuesta. Ejemplo: ,,¿Cuál es la fórmula de la longitud de la circunferencia?». b) Abiertas o divergentes: Dejan al alumno la exploración libre de la respuesta. Ejemplo: "Éste es el problema ...; proponga cuantas soluciones posibles se le ocurran para resolverlo». Esto no quiere decir que el profesor no se imagine la respuesta; pero es importante que no la condicione, ya que hay alumnos que, acostumbrados a complacer al profesor, buscan, aun en las respuestas que se dicen libres, lo que más pueda agradarle. 2. Función: Clasificación según la función de la pregunta. a) Evaluación: Para obtener feedback de si los objetivos han sido alcanzados. b) Metodológicas: Como estrategia para alcanzar nuevos objetivos. c) Procedimiento: No se espera una respuesta referente al aprendizaje. Ejemplo: ,,¿Todoel mundo oye bien?»,,,¿Osfalta algún libro de consulta?». 3. Capacidades: Clasificación de las preguntas según la capacidad con la que se relacionan (Sanders, 1966, es una referencia obligada y clásica de esta taxonomía, inspirada en la de Bloom; también se puede mencionar Walter Monroe citado en Nérici, 1970). Memoria: Preguntas cerradas y convergentes en las que se busca que el alumno reproduzca una información exactamente como la recibió. No se piden reflexiones propias, sino sólo reconocer una comparación leída, repetir datos, procedimientos, definiciones, etc., introduciéndolas con términos tales como ¿qué, cómo, cuándo? Ejemplo: ,,¿Quién inventó la bombilla?». Comprensión: Preguntas convergentes con cierta dosis de divergencia en las que se pide realizar operaciones mentales como: Traducción: Cambiar el lenguaje o forma de la información. Ejemplo: "Exprésalo con tus propias palabras». Interpretación: Descubrir relaciones entre datos explícitos. Ejemplo: ,,¿Cuáles la diferencia entre verbos regulares e irregulares?». Extrapolación: Se pide usar una información para sacar conclusiones. Ejemplo: "Cuáles son los dos términos siguientes de la sucesión 1, 4,9, 16 ..?». Aplicación: Estas preguntas requieren resolver problemas mediante la identificación de datos y selección de generalizaciones previamente aprendidas. Análisis: Se preguntan relaciones implícitas a través de razonamientos inductivos o deductivos; por ejemplo, relaciones causa-efecto, punto de vista del autor, etc. Ejemplo: ,,¿Cuáles la idea principal de lo que se ha leído?». Síntesis: Requieren creatividad y originalidad para llegar a conclusiones «nuevas»; para lo que se necesita tener una base sólida de conocimientos, una mente inquisitiva, sensibilidad ante los problemas, etc. Existe, sin embargo, la dificultad de evaluar la respuesta.
Otros tipos de pruebas libres
Valoración: Esperan un juicio (bueno/malo, correcto/incorrecto, etc.) sobre hechos de acuerdo con unos criterios. Por tanto, suponen tener criterios, conocer datos y comparados. Se puede pedir valorar conocimientos: ,,¿Porqué crees que ésta es una buena solución para poner en marcha este motor?»; o actitudes: ,,¿Cómote sientes con la negativa de tus compañeros a tu invitación?». 2.2. Construcción: A pesar de las afirmaciones altamente retóricas sobre su utilización para provocar y valorar capacidades mentales de orden elevado, las conclusiones de las investigaciones ponen de manifiesto que la naturaleza de la comunicación en las clases permanece en un nivel de preguntas que requieren mera memorización y, en algunos casos, comprensión literal CEbel y Frisbie, 1977). Razones de estas deficiencias pueden ser la carencia de buenos modelos, la creencia de que son fáciles de realizar, la falsa consideración de su intrascendencia para planteadas como tema de estudio, la escasa preparación del profesorado respecto de su formulación, etc. He aquí algunas sugerencias para hacer preguntas que propongan retos de cierta profundidad a los alumnos, y así ofrezcan una información significativamente válida para tomar decisiones instruccionales: a) Formulación de la pregunta: Elegir los términos adecuados para que la pregunta represente el nivel taxonómico deseado. Las preguntas básicas empiezan por «quién, qué y cuándo»: ¿Quién escribió El Quijote?, ¿Cuándo se escribió La Celestina? En cambio, las preguntas que exigen alguna relación suelen emplear los términos «cuál, por qué y cómo»:
¿Cuál es el argumento más convincente?, ¿Por qué es este editorial más persuasivo que aquel?, ¿Cómo se expresaron los Derechos Humanos en la Carta de la Naciones Unidas? b) TIempo de espera: Los profesores tienden a esperar muy poco antes de volver a formular o hacer nuevas preguntas; el tiempo medio transcurrido entre el fm de la pregunta y la nueva intervención del profesor es de un segundo. Generalmente, además, la nueva pregunta es más simple y de nivel inferior a la original. Rowe (1969, 1974) ha mostrado que se pueden obtener grandes beneficios con sólo aumentar el tiempo de espera a cuatro o cinco segundos. Así, los alumnos aumentarán la confianza en sí mismos, realizarán más digresiones e interrogantes en voz alta, que exteriorizarán al hacer más preguntas, darán respuestas más largas, espontáneas y apropiadas, añadiendo más razones para avalar sus deducciones. Por su parte, las habilidades de los profesores para hacer preguntas mejorarán; entre otras cosas, centrarán las estrategias de enseñanza en el alumno y aprenderán a mantener el nivel taxonómico a lo largo de una secuencia de preguntas. c) Constancia: Se debe seguir preguntando al mismo alumno aunque responda mal. Si es necesario facilitar la tarea en un primer momento, conviene formularle una nueva pregunta más básica, para continuar con
153
154
La evaluación
de aprendizajes
otras, hasta volver a la pregunta original, de acuerdo con la tradición «mayéutica». Los alumnos a quienes se olvida después de responder mal, aprenden dos cosas: las preguntas que se les hacen a ellos no deben ser demasiado importantes y que, la próxima vez, cuanto antes respondan mal, más pronto les dejarán en paz. d) No-voluntarios: El preguntar sólo a los voluntarios hace que los tímidos sigan siéndolo, que los que no atienden sigan sin atender y que la audiencia de aprendices se reduzca a los listos, constantes o muy motivados. Pedir, en cambio, que unos alumnos parafraseen o reformulen las respuestas dadas por otros fuerza una atención constante por parte de todos, fortalece y promueve una comprensión más profunda, y proporciona oportunidades adicionales para una evaluación formativa. e) Planificación: La mayoría de las buenas preguntas orales son tan difíciles de formular como el hecho de escribir buenos ítems. La mayoría de los profesores no somos capaces de improvisar buenas preguntas, por lo que las espontáneas tienden a promover un nivel de conocimiento memorístico más que de comprensión y aplicación. Por ello, algunos profesores preparan preguntas y las escriben en sus guías de clase.
2.3. Registro de datos: Si las respuestas a las preguntas orales se van a usar en una evaluación sumativa, se necesita llevar un registro permanente, que es preferible hacer de inmediato, no confiado a la memoria. Por supuesto, si las respuestas se van a usar enseguida para una evaluación formativa, el registro será menos necesario. Los fines de las preguntas y la naturaleza de las respuestas dictan las características de las formas de registro que se deben usar (las formas de registro son similares a las que se proponen en el cap. 10, al hablar de la observación). A manera de ejemplo, se ofrecen dos tablas que se diseñaron para fines distintos. En la primera se registra el tipo de pregunta que se hace a cada alumno y las respuestas correctas (las preguntas se señalan con una marca /; y las respuestas correctas con 0). Esto permite al profesor determinar el tipo de preguntas más usado, la participación de cada alumno, el éxito en general y en cada tipo de respuesta; el profesor puede también detectar si se olvida o atiende excesivamente a algún alumno:
NATURALEZA DE LAS PREGUNTAS Predicciones / /0Valoración /00 0/0/ Explicaciones Aplicación/ Comprensión/ Memorización de datos,
155
Otros tipos de pruebas libres
La tabla siguiente trata de mostrar, más que la naturaleza de las preguntas, la cantidad y calidad de la participación y de las respuestas de los alumnos:
NATURALEZA DE LAS relación con reformulada /// // Relacionada Sin / PREGUNTAS parcialmente Pregunta Centrada en// el tema
2.4. Aplicación: Se aconseja este tipo al menos conveniente, la presencia directa apreciación simultánea independiente de requiera juzgar la capacidad de intervención rior ejercicio profesional.
de examen cuando sea necesaria, o del alumno; cuando haga falta una varios examinadores; y cuando se en público, necesaria para el poste-
Se desaconseja el examen oral, sin embargo, para realizar una evaluación sistemática de un repertorio de objetivos o si el número de estudiantes es grande, por el excesivo coste de tiempo en relación con el valor limitado de las informaciones aportadas.
PRUEBA PRÁCTICA REAL 3. (Un proceso para evaluar trabajos de alumnos universitarios se puede encontrar en Contreras, 1990.) Aunque siempre debemos pretender que los alumnos no se queden en un «saber qué», sino que lleguen a un «saber cómo», esto es importante sobre todo en algunas materias, como las tecnológicas, para las que no es suficiente un dominio de objetivos del ámbito cognoscitivo, fundamentalmente teórico, sino que incluyen objetivos del ámbito psicomotriz con aspectos eminentemente prácticos. Pará evaluar estos objetivos en prueba práctica real (PR), el estudiante tiene que realizar presencialmente tareas que requieren la aplicación de destrezas en circunstancias semejantes a las requeridas en la vida profesional. El profesor realiza una observación directa de la actividad del alumno, que con frecuencia supone un coste elevado de tiempo de observación (es de aplicación aquí lo que se dice en el cap. 10, al hablar de la observación). Algunos ejemplos de PR son realizar operaciones:
156
La evaluación
-
de aprendizajes
Clínicas, como controlar la presión arterial. Informáticas, como manejar un pe. De laboratorio, como hacer pesadas, valoraciones y disecciones. De campo, biblioteca, etc.
Aplicación: Se aconseja evaluar a través de PRcuando sea necesario: a) Verificar la actitud, capacidad y reacciones de los alumnos ante situaciones complejas que necesitan de varios sentidos. b) Apreciar cómo el alumno se enfrenta con problemas reales en el laboratorio, taller o a la cabecera del enfermo, en contraste con la aplicación rutinaria de procesos o recetas prefabricadas. Se desaconseja, sin embargo, en el caso de experiencias que: c) Requieran individuos singulares no uniformes, tales como personas (por ejemplo, en el caso de enfermos que pueden demostrar más o menos buena voluntad), animales, plantas, piezas únicas. d) Supongan un riesgo para alguno de los que intervienen, es decir, para los mismos alumnos, pacientes o profesores. e) Sean grupos numerosos de alumnos y sea difícil para los examinadores observar a los candidatos durante las pruebas, justo en el momento en que hacen la demostración de las aptitudes requeridas.
4.
PROYECTO En un período de tiempo variable, el estudiante debe realizar una actividad o tarea profesional que tendrá como resultado un producto para evaluar. Vale como estrategia de enseñanza-aprendizaje o evaluación. Aunque aparentemente se den las circunstancias adecuadas para utilizar este formato de evaluación, dado su elevado coste, sólo se podrá llevar a la práctica cuando haya un equilibrio del coste con la información recibida tanto por profesores como por alumnos. En todo caso, es imprescindible establecer una relación de confianza con los alumnos para evitar posibles fraudes. Mediante el proyecto (PY) se pueden evaluar objetivos de habilidades complejas, tales como análisis, síntesis y valoración, concretados, entre otros, en los siguientes aspectos: -
La responsabilidad del compromiso personal.
-
Hábitos de trabajo individual y en grupo.
-
Dominio de los matices interdisciplinares de una tema donde se pongan de manifiesto conexiones entre varios aspectos de una asignatura, entre varias asignaturas o entre lo académico y la vida real.
157
Otros tipos de pruebas libres
-
Capacidades de comunicación (síntesis, estructuración, presentación de la información).
Interesa más el producto que el modo de actuar del estudiante; sin embargo, el profesor, al examinar el producto, puede hacer también una evaluación indirecta, deduciendo el proceso seguido. Ejemplos: -
Investigaciones de campo o bibliográficas, informes, etc.
-
Diseños de la organización de un taller, empresa, etc.
-
Realizaciones de disecciones, cortes, preparaciones mecanismos, piezas, etc.
de laboratorio,
No existe un solo tipo de Proyectos, ni una sola manera de realizados (Carrasco, 1991). En todo caso, el profesor debe proponer objetivos claros y asequibles de su asignatura, así como un esquema de trabajo; o también pueden seleccionarse entre los que propongan los alumnos. Si no se formulan previamente unos objetivos y un esquema de trabajo, el formato se convierte en prueba diagnóstico (PD) (cap. 10) de las tareas, apuntes personales, trabajos cotidianos, que cada alumno realiza dentro de su proceso normal y habitual de aprendizaje.
SIMULACiÓN 5. El 2 de noviembre de 1963, el profesor J. P.Hubbard, Director Ejecutivo del National Board of Medical Examiners (NBME),propuso las características de este instrumento de evaluación en la conferencia: «prograrnmed Testing in the Exarninations of the NBMEE»,pronunciada en un Congreso organizado por Educational Testing Service de la Universidad de Princeton, NewJersey (McGuire, 1976). El fm de la simulación es medir, por simulación tan fiel como sea posible, la solución de una situación-problema cambiante, que evoluciona cronológicamente durante horas o días, y que representa vicariamente un caso real propio de la competencia profesional. Se trata sobre todo de objetivos que incluyen capacidades de tipo cognoscitivo superior y psicomotriz. Sustituye a la observación directa del comportamiento del alumno ante una situación real, especialmente en aquellos casos en que su duración es larga o encierra peligros para el alumno (es el caso de prácticas de laboratorio) o para la situación simulada (como en algunos casos clínicos). El método tiene características comunes con las PO, tales como su alto nivel de objetividad y la posibilidad de corrección mecanizada o informatizada. Recuerda también ciertos aspectos de la enseñanza programada, en la que el candidato avanza a través de una serie de problemas consecutivos.
158
La evaluación
de aprendizajes
La situación real se presenta por escrito en casos sencillos; se incluyen ejemplos en el Anexo 1. En casos más complejos, la presentación hay que hacerla a través de robot, ordenador, vídeo, diapositivas o películas. Como ejemplos, sirven el manejo de artilugios relacionados con la marina y la aeronáutica, o casos clínicos con objeto de evaluar la capacidad del estudiante de medicina para detectar o interpretar convenientemente síntomas anormales, de llegar a un diagnóstico razonable y demostrar un juicio válido en la elección de una terapéutica, como el que se incluye en el Anexo 2. El alumno debe seguir el proceso a lo largo del tiempo, dando respuestas y tomando decisiones ante cada paso, en forma de PLo PO. En las formas de simulación menos elaboradas, elfeedback a las respuestas de los alumnos se da al final. El peligro en las formas más elaboradas es que la desviación puede ser grande si cada respuesta depende de la anterior. En estos casos, el alumno debe conocer inmediatamente las consecuencias de sus respuestas, para pasar a la elección siguiente; por lo que hay que ir proporcionando las soluciones por escrito, y mejor a través de programas informático s interactivos. A la hora de corregir, se pueden penalizar las respuestas incorrectas; por ejemplo: las respuestas correctas se valoran con + 1, las incorrectas con-1 y las indiferentes con O.
159
Otros tipos de pruebas libres
ANEXO I
SIMULACiÓN DE QUíMICA ANALíTICA
Objetivo de aprendizaje: Identificar cationes en una disolución problema siguiendo la marcha del HJ. Enunciado: Un problema líquido tiene reacción alcalina, fuerte olor a amoníaco e intenso color azul. Se verifican los ensayos siguientes: a) Una parte se acidula con HCI, obteniéndose un abundante precIpitado que se disuelve en ligero exceso de HCI, permaneciendo insoluble una parte pequeña del mismo, de color blanco. b) En la disolución clorhídrica, ajustada la acidez, se pasa HJ y se obtiene precipitado amarillo. No hay ni siquiera indicios de precipitado negro. c) El precipitado
(b) se trata por Sx(NH)i aunque se añada exceso de polisulfuro.
Se disuelve sólo parte de él,
d) La solución (c) se acidula con HCI: PreCiPitado amarillo insoluble en HCI concentrado. e) En la solución procedente de separar el precipitado (b), se añade amo-
níaco y se pasa HJ. PreCIpitado negro . .f)
En el filtrado procedente de (e) se añade fosfato sódico. PreCiPitado blanco.
¿Qué iones puede contener el problema y cuáles existen con seguridad? SOLUCIÓN:A partir de losfenómenos que nos ofrecen los datos experimentales del enunciado, vamos sacando conclusiones sobre los cationes que no existen o es posible que existan, hasta llegar a la solución final.
Líquido pH>7 Olor NH3 Color azul
J- blanco
con HCI
Se disuelve parte
POSIBLE
NO EXISTE
ENSAYO
CrOt amarillo Sn2+,Sb,Pb J- blanco
wot, VOi,
Hg2+ J- negro A¡3+, Bi3+, Cr3+, Fe3+
Ag+ Ca2+, Sr2+, Ba2+
C02+, Ni
Zn2+, Cd2+, Mn2+
J- coloreados
Mg2+
VP4
J-
azul
K+, AsOl,
K+, AsOl,
MoOt
MoOt
wot Ag+ Ca2+, Sr2+, Ba2+ Zn2+, Cd2+, Mn2+ Mg2+
Cu2+
g+
160
La evaluación
° wot,j,
ENSAYO
Zn2+ ,j, blanco NO EXISTE EXISTE POSIBLE Mn2+,j, verde Mg2+ Ca2+ Ag+ MoOt,j, pardo negro K+,AsO/ AsO/oCd2+ K+,AsO/,j, amarillo
de aprendizajes
K+ Ca2+, Sr2+, Ba2+ Ag+ Zn2+, Cd2+, Mn2+ Ca2+,Sr2+,Ba2+ K+,AsO/,j, amarillo
Sr2+, Ba2+ Ca2+, Sr2+, Ba2+ Zn2+, Cd2+, Mn2+ Mg2+ ,j, Mg2+, Cd2+ amarillo
° Cd2+, Ca2+ ° Mg2+
SEGUROS:
Cu2+, AsO/
POSIBLES:
K+, Ag+, Sr2+, Ba2+
ESQUEMA PH > 7, NH3, color azul
+
HCI
____
a ppdo.
~A~
t
~
t
se disuelve
dlón.
a
+
blanco
HzS
parte
~ b ppdo.
~A~
_
t
t dlón.
amarillo
b
+ Sx(NH,J2 c ppdo. ~ permanece amarillo
d ppdo. ~ amarillo
dlón.
ppdo.
+
~ negro
dlón.
+
Hel
Na3P04
dlón.
ppdo.
~ blanco
dlón.
161
Otros tipos de pruebas libres
ANEXO
11
CASO CLíNICO (preparado por el profesor J. P. Grangaud, Taller de Docimología de Timimoun, Argelia, 6-16 de febrero de 1977, Guilbert, 1989)
Objetivo de aprendizaje: Atender por orden de prioridad a varios enfermos que se presentan simultáneamente. Enunciado del caso: Cuando llega a la sala de espera de la consulta externa de pediatría, encuentra Vd. a 15 niños acompañados por sus madres. Estos niños presentan las características siguientes: 1. Un niño de 3 años que presenta una afección del cuero cabelludo. 2. Un lactante de 6 meses que presenta una diarrea sin signos evidentes de deshidratación. 3. Un recién nacido de 10 días, ictérico. 4. Un niño de 8 años, febril. 5. Una niña de 3 años hipertérmica y con disfagia. 6 Una madre con un recién nacido bajo su manto. 7. Una niña de 15 meses, que presenta tos y fiebre. 8. Un lactante de 2 meses, con diarrea desde hace una semana, y que presenta signos evidentes de deshidratación. 9. Un lactante de 6 meses, cianótico, disneico y febril. 10. Un niño de 5 años que presenta una bradipnea respiratoria con quejido. 11. Un muchacho de 14 años con un flemón en la mano. 12. Una niña de 6 años con dolores abdominales desde hace 15 días. 13. Un lactante de 7 meses para una revisión sistemática. 14. Un niño de 8 años, no disneico, que consulta por palidez. 15. Un niño de 7 años que presenta una artritis de rodilla derecha. ¿QUEHARÍA VD. EN ESTE MOMENTO? (No tiene derecho más que a una elección) ETAPA A: DECISiÓN 1. Comenzar su consulta examinando a los enfermos por orden de llegada.
2. Hacer tomar la temperatura, pesar y tallar a todos los niños.
CONSECUENCIAS 5 minutos después del comienzo de la consulta, la enfermera le llama a la sala de espera. El estado de uno de los niños se ha agravado. (ESCOJA OTRA ACCiÓN)
-1
Durante este tiempo uno de los niños hace una parada respiratoria. (ESCOJA OTRA ACCiÓN)
-1
162
La evaluación
de aprendizajes
NOTA 3. Examinar con prioridad a algunos de estos niños.
Señale los tres niños que debe examinar en I +1 primer lugar. (PASE A LA ETAPA B, DONDE ELEGIRÁ ESTOS NIÑOS ENTRE LOS 15 QUE FIGURAN EN LA LISTA)
4. Enviar a radiología a los niños 7,9 Y 10.
Mientras hace el traslado, uno de ellos presenta un síncope. (ELEGIR OTRA ACCiÓN)
I -1
.
SELECCIONE LOS NIÑOS NECESITAN ATENCiÓN INMEDIATA ENTRE LOS LA pulmonares ETAPA D) (PASE E) congestionado. Temperatura: 35°C; subictericia conjuntival .......................... Pliegue cutáneo e) EL abdominal. Globos Extremidades frías .. (+1) campos 90 Amin; Temperatura: ......................................................................................... 40,8QUE °C. Focos de estertores crepitantes en ambos (+1) DESCRITOS EN ENUNCIADO DELoculares CASO Yhundidos. NUMERADOS DEL1 AL 15. 9. Peso: 7,60; Altura: 64 cm; Perímetro craneal: 44 cm; Frecuencia respiratoria: 10. Mientras lemanto le llaman con urgencia ...................................................... CONSECUENCIAS ............................................................................................. NOTA 7. 2. 6. Se 1.Se Bajo le Mientras llama el aausculta está la sala de Vd. la de examinando madre espera a este un niño, recién otro nacido de en10 la días sala cianótico de35,8 espera y(O) ..(-1) (-1) 3. La enfermera le llama aurgentemente la le sala llama de urgentemente espera donde un niño presenta convulsiones ............ 8. 4. 5. Peso: Un niño 4,100; hace Altura: una parada 56 cm; respiratoria aencuentra Perímetro la......................................................................... sala de.................................................................. en craneal: espera la sala .................................................. 39 demuere cm; espera Temperatura: ............................. °C.(-1) (O)
ión; Fór-
163
Otros tipos de pruebas libres
11. Durante el examen, otra madre irrumpe en la consulta con su hijo. El niño (-1) presenta convulsiones ...................................................................................... Un niño hace una parada respiratoria en de la................................................... sala de espera ............................. 12. 15. Es llamado con urgencia a la asala de (-1) (-1) 14. Se Hayle un llama niño con con urgencia convulsiones la sala en espera la desala espera espera ................................................... ......................................... 13.
-1
1. Proceder al interrogatorio de la madre.
Mientras Vd. interroga a la madre, la disnea se agrava y el niño se congestiona más.
I
2. Explorar al niño por completo.
Durante el examen del niño la cianosis aumenta.
I O
3. Pedir unos análisis sistemáticos.
En el momento de la punción venosa el niño hace una parálisis respiratoria.
I
4. Hacer inmediatamente tratamiento sintomático.
(PASE A LA ETAPA F)
I +1
-1
NOTA ETAPAD:
tico. O -1 +1 : niño El unniño, colapso. Durante el examen, el niño se una vuelve cianóCONSECUENCIAS respiratoria. (PASE Apresenta LA ETAPA G) Mientras pincha al hace parálisis 180.ESTE NIÑO(8) EN ESTE MOMENTO? Frecuencia cardíaca: urgencia. urea y glucemia. ¿QUE HARíA VD. CON 4. Hacer Hacer una inmediatamente 2. exploración
,
164
er un er inmediatamente una exploración
su flujo.
La evaluación
de aprendizajes
ETAPA E: +1aH) ción. en Mientras convulsiones. -1 NOTA O El niño pone cianótico durante (PASE AseLA ETAPA La Temperatura interroga asciende la madre a 41,5 el niño °ela punentra , CONSECUENCIAS ¿QUE HARíA VO. CON ESTE NIÑO (9) EN ESTE MOMENTO? 3. Practicar una punción
la naturaleza O-1 naturaleza -1 +1 cantidad calentarle? ETAPAF yde Hecho. TRATAMIENTO ETAPAH Not Not. Not congestioPOR PRESCRIPCiÓN líquido, Inscriba en ETAPAG +1 Hecho. O -1 carie? +1 la sión Etapa laRESIDENTE. yperfusu K lade Niño no Hecho +1 ¡Tiene ya Inscriba enANULADA sube aIde 36,5°e Temperatura EL Etapa la can¿Para Niño no con¿Para naturaleza Inútil. Hecho. cantidad Inscriba en laLa ANULADO Temperatura POR líquido, Jlalala lade Etapa inoportuna. Prescripción larefresperfusión y gestionado. CiÓN ANUPRESCRIPLADA. 41,5°e. flujo. 4. Dar oxígeno.
del enema. nado. La cianosis desaparece. líquido 36,2°e del
Otros tipos de pruebas
TRATAMIENTO Noto ETAPAF Sin Antibiótico indicación. no -utilizable 1 en el ETAPAG rios suficientes No PRESCRIPCiÓN tiene criteANULADO. ANULADA. Inscriba la -1 + 1-1 -1 -1 O O Not. tiene criteANULADO. -1 +1 O-1 -1 ANULADO. ANULADO. indicación. en cación. PRESCRIPCiÓN la EtapaJ. Etapa Ken la Ningún criterio. ¡Sobre qué criposología Ninguna indiLADA. nistración. MOMENTÁNEAMENTEANUrapia.
ina. uccinamicina.
ETAPA 1:
ETAPAJ:
I
ETAPA K:
165
libres
ANULADO. nistración. cación. vía de admiposología la etapa K yla
posología y
O)I.LSON~Vla SV851nHd '"
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
j
Los profesores dedican casi una tercera parte de su tiempo a tareas relacionadas con la valoración (Stiggins, 1988); así, administran exámenes formales, aplican otros métodos orientados a recoger datos, hacen juicios y toman decisiones durante la instrucción. Profesores de todos los niveles consideran importante y crucial para aumentar el conocimiento de sus alumnos (Dorr-Bremme y Herman, 1986) la información obtenida por métodos diferentes a los exámenes tradicionales. La aplicación de estos otros instrumentos de evaluación, que agrupamos como pruebas diagnóstico (PD), supone el dominio de una serie de técnicas particularmente útiles en aquellas áreas donde no es fácil hacer valoraciones por métodos convencionales. Recogemos aquí de manera resumida los aspectos de aplicación más frecuente en contextos académicos de dos de estas técnicas: la observación (OB) y la encuesta (EN), ya que los interesados pueden ampliar fácilmente su estudio en las referencias bibliográficas citadas y, en general, en la extensa bibliografía disponible.
OBSERVACiÓN
1.
La observación se muestra como uno de los métodos más eficaces de recogida de información sobre la conducta; puede ser espontánea o estructurada (la problemática de las técnicas de observación está ampliamente tratada por Anguera, 1981, 1983, 1985, 1987, 1991a y 1991b).
Observación espontánea La mayoría de las observaciones que hacen los profesores en el aula son incidentales. Tales observaciones son muy útiles para una evaluación formativa y suelen constituir el primer paso para, más tarde, hacer una observación planificada.
1.1.
170
La evaluación
de aprendizajes
Sin embargo, uno de los principales defectos de esta observación espontánea·es el proporcionar una «visión túnel»: vemos a los alumnos que llaman más nuestra atención, y pasan desapercibidas reacciones y actuaciones menos llamativas, que quizá sean importantes, de otros. He aquí algunos factores que pueden ayudar a evitado y a realizar una observación espontánea más eficaz: a) Prever una ajustada descripción de la situación observada y tener en cuenta sus circunstancias. b) Verificar de modo reiterado y conveniente las informaciones obtenidas; de lo contrario, no pueden considerarse representativas. Es claro que estos factores ya plantean la necesidad de una estructuración más decantada, transformando así la observación de espontánea en planificada.
1.2.
Observaciónestrudurada Las observaciones estructuradas o planificadas pretenden obtener informaciones más precisas, por lo que dan resultados más objetivos y son de mayor valor educativo que los obtenidos en una observación espontánea. Para ello es preciso seguir unas pautas y utilizar unos instrumentos apropiados.
o
Pautas de observación
1. Subjetividad: «Mirar con orejeras» y «mirar sin ver» son expresiones comunes que traducen la manera selectiva de mirar que, sin darse cuenta, practican algunos observadores. Para superar esta posible subjetividad, una de las pautas más utilizadas es conseguir un «acuerdo entre jueces», valorando las diferencias halladas en el total de conductas registradas por ellos en el período total de observación. A partir de las frecuencias extremas detectadas, se proponen fórmulas para su corrección (Anguera, 1983; Fernández Ballesteros, 1983; Cabrera y Espín, 1986). 2. Imparcialidad: Las expectativas formadas a partir de nuestra experiencia previa son mejor observadas que aquellos sucesos que se ven como si fuesen ajenos. Por consiguiente, otra pauta de observación será no dejarse llevar por la tendencia natural a fijarse en detalles familiares al observador, o a concentrarse en aquellos aspectos de un suceso que mejor encajan en nuestros preconceptos. 3. Reactividad: Se refiere a la modificación de la conducta que pueden sufrir los sujetos observados por el solo hecho de saberse observados. Por consiguiente, entre las interferencias causales de la reactividad, que conviene aminorar, se pueden mencionar: la modificación del marco natural producida por el sistema de observación, la introducción de otros estímulos nuevos en el
Pruebas
171
diagnóstico
ambiente, algunas características de la personalidad de sujetos especialmente impresionables y de las conductas o aprendizajes que se van a observar. 4. Concreción: Se obtendrá una información más válida en la medida en que los comportamientos que se quieran observar se definan por rasgos más concretos, claros y medibles. También es conveniente que los observadores compartan el mismo sistema teórico de referencia. 5. Error de indulgencia: Se define como la tendencia general a hacer los primeros juicios con más generosidad. Por consiguiente, una sola y primera observación no es indicador cierto de la cualidad típica de una tarea; son necesarias observaciones repetidas sobre tareas similares para obtener pruebas de su consistencia. 6. Codificación: Los sistemas de codificación de la observación más eficaces son los más fáciles de aplicar porque contienen pocas variables de observación y emplean códigos simplificados.
o
Instrumentos
de observación
1. Plantilla de observación: Los instrumentos más frecuentemente usados en la observación estructurada son las plantillas, casi siempre personales, de diverso tipo, en las que se van haciendo las anotaciones de manera sistemática y organizada. Un ejemplo de plantilla para observar «El libre uso de los últimos 10 minutos de clase» es la siguiente, que recoge un número de categorías suficientemente pequeña, una formulación clara de los comportamientos y una forma sencilla de registro:
FECHA: 11 octubre materias ...............................
11
CLASE: 11 11111 11 PERIODO: Historia 3° 10 Y 5 del final 11 1111111111 1111111 1I 111111 11111 Últimos 5 minutos Entre el minuto
2. Registro anecdótico: Consiste en la descripción de comportamientos que se consideran importantes. Las características que debe poseer un buen registro anecdótico son: establecer un comportamiento típico basado en varias anécdotas, limitar cada anécdota o incidente a un hecho concreto, indicar las
172
La evaluación
de aprendizajes
circunstancias necesarias para una buena información y registradas. Estadillos para hacer registros anecdóticos podrían ser los siguientes: Nombre: Clase: Incidente:
Fecha: Lugar:
Nombre:
Incidente Comentario
Clase:
Fecha
Comentario:
Nota: También se puede dejar el reverso de la ficha para los comentarios. El hacer un registro detallado de todos los incidentes puede ser muy laborioso; con frecuencia, es más realista disponer de estadillos sencillos similares a este: Alumno:
Comentario Observador Incidente Lugar
Clase:
3. Lista de corroboraciones: A veces se encuentra citada sin traducir como «check-list». Consiste en una relación nominal de conductas que enmarcan la observación. Este instrumento es útil para evaluar aquellas destrezas que pueden dividirse en una serie de actuaciones o comportamientos claramente definidos. A la hora de su elaboración debe identificarse la conducta que se desea evaluar, traducida a un conjunto de comportamientos que se puedan observar, ordenados y utilizar un procedimiento sencillo para indicar su presencia o ausencia. Ejemplos de lisca de corroboraciones para «Valorar el trabajo en
173
Pruebas diagnóstico
clase» podrían ser los siguientes, el primero para cada alumno y el segundo para un grupo de alumnos de un aula: Alumno:
_ ',
.. '., ......
TIEMPOS
2" Semana Semana 13 Semana 4aSemana 33 ..•...
<
J >
..,
D. B. Colabora Presenta tareas .......... C. en trabajos
Aula:
.
B 13 I 2"
Juan
.
Laura
.
33
13 I 23
33
13
4. Escalas estimativas o calificativas: Enriquecen la lista de corroboraciones, que se limita a señalar la presencia o ausencia de una característica observada, indicando el mayor o menor grado en que aparece. Estas escalas admiten varios modos de presentación: 4.1. Escala numérica: Asigna un número a cada grado de los comportamientos observados; por ejemplo, para el mismo objetivo de «Valorar el trabajo del alumno en clase»: 43 2 D. B. Colabora Presenta tareas C. en los trabajos en grupo
5
174
La evaluación
de aprendizajes
Debe haber un acuerdo previo sobre el significado de cada número, por ejemplo: 5 4 3 2
Excelente Bueno Normal Deficiente
5 4 3 2 1
1 Muy deficiente
Siempre Casi siempre Con frecuencia Pocas veces Nunca
Otras maneras de presentar escalas numéricas: +3
+1
+2
-1
o
-2
MUY DEFICIENTE
EXCELENTE
7
8
-3
6
4
5
3
2
MUY DEFICIENTE
EXCELENTE
4.2. Escala gráfica: Difiere de la anterior en que sustituye los números por símbolos. En realidad, lo único que cambia es la presentación. Estas escalas tienen la ventaja de ser más expresivas que las numéricas. Por ejemplo: «Colabora en los trabajos comunes»: AA
A
Total acuerdo
De acuerdo
D Indiferente
Desacuerdo
DD I Total desacuerdo
4.3. Escala descriptiva: Describe con más detalle los grados de cada comportamiento. Estas escalas ayudan a evitar juicios demasiado genéricos y precipitados, lo que permite una evaluación más objetiva; por ejemplo, para evaluar «Laatención en clase»: -frecuencia. Reacciona 3. entiende. atención. IIamarle -Se Es inútil 2. 4. con 1. distrae. Se A Se frecuencia. veces distrae distrae se continuamente 5. Siempre se con -no -aPregunta siempre del No responde profesor. bien si la las preguntas
Pruebas
175
diagnóstico
5. Escalas de actitud: Mención especial merecen las llamadas escalas de actitud, que recuerdan las listas de corroboraciones y las escalas de estimación, pero en las que es el mismo sujeto observado el que hace los registros. Evaluar actitudes no es fácil, pero eso no significa que debamos renunciar a su valoración (la problemática de la evaluación de actitudes está tratada, entre otros, por los siguientes autores: Manning y Rosenstock, 1971; Dawes, 1975; Hills, 1981: Hoover, 1977; Rosales, 1981; Morales, 1988; Bolívar, 1992). Estas escalas parten de la idea de que las actitudes se pueden inferir de las opiniones expresadas por los mismos sujetos y de que su «medida» se puede representar mediante una nota numérica. Se suelen emplear las siguientes escalas.
5.1. Escala Ordenada de Intervalos Iguales (Thurstone y Chave, 1929): Recuerda la lista de corroboraciones. La construcción de una escala de este tipo se inicia con la recopilación de un gran número de enunciados que expresen aspectos de la actitud que se esté considerando. Formulados esos enunciados -unos 100 al menos-, se pide a un número de «jueces» -25 como mínimo- que los clasifiquen en tres grupos según consideren que sean favorables, neutrales u hostiles a la actitud que se va a evaluar. Seguidamente se clasifican los de cada grupo en subgrupos, de forma que resulten nueve categorías en total: extremadamente favorable, favorable, moderadamente favorable; favorable-neutral, neutral, neutral-hostil; moderadamente hostil, hostil y extremadamente hostil. Se considera «buen» ítem o enunciado aquel en el que coinciden los «jueces» acerca de su posición en la escala. Finalmente, se seleccionan de 15 a 25 «buenos» ítems que cubran las nueve posiciones de la escala. A continuación transcribimos un ejemplo parcial, puesto que, como hemos dicho, los reales constan de 15 o 25 ítems, cuyo objetivo es «La actitud hacía los exámenes»: VALOR OPINIONES 1,S 9,0 Los exámenes se evitar porque son alienantes. deben incluir pruebas optativas. La preparación dedeben exámenes consume unaprendizaje. tiempo y unas No se debe obligar ayudan a nadie a estudiar aestrategia hacer con exámenes. más profundidad. son la mejor de energías que es mejor emplear en otras actividades. ..
3,0 7,S 6,0 4,S
Se presentan los ítems ordenados al azar, no las valoraciones, para que los sujetos señalen las opiniones con las que están de acuerdo. La media de los valores de las opiniones elegidas es la «medida» de su actitud. Los resultados, más
176
La evaluación
de aprendizajes
que un valor absoluto, indican la posición relativa del individuo dentro del grupo.
5.2. Escala de Acuerdo o Concordancia (Likert, 1932): La escala Likert, que consiste también en una lista de enunciados, es el método más extendido para las mediciones de actitud. Las dos diferencias fundamentales entre esta escala de Likert y la de Thurstone son las siguientes: la valoración de los ítems se basa en datos empíricos, no en la opinión previa de los «jueces»; y el sujeto no señala simplemente si está de acuerdo o no con cada opinión, sino el grado de su acuerdo, generalmente de 1 a 5, de manera semejante a la Escala numérica. Debe procurarse que los enunciados, relacionados con la actitud que se quiere evaluar, estén formulados de forma afirmativa. Para evaluar la misma «Actitud hacia los exámenes», se presentarían una serie de ítems, por ejemplo: «Los exámenes se deben evitar porque son alienantes»:
5
4
3
2
Muy de acuerdo
De acuerdo
Indiferente
En desacuerdo
Muy en desacuerdo
"Los exámenes son la mejor estrategia de aprendizaje»:
5
4
3
2
Muy de acuerdo
De acuerdo
Indiferente
En desacuerdo
Muyen desacuerdo
5.3. Diferencial semántico: Se considera, en general, como un buen instrumento para medir las actitudes positivas y negativas. Se utiliza para ello una lista de adjetivos y sus antónimos a través de siete intervalos. Para su construcción, deben tenerse en cuenta los siguientes pasos: Determinar la actitud-objetivo que se quiere medir. Seleccionar unos 10 pares de adjetivos que tengan que ver con la actitud que se pretende medir. No escribir siempre los positivos a la derecha y los negativos a la izquierda; más bien, intercambiarlos al azar. Esto evita la rutina del que va a contestar. -
Dar instrucciones de cómo se contesta este tipo de escala, si se aplica a personas poco entrenadas.
Algunos pares de adjetivos utilizados en escalas semánticas, que Osgood, Suci y Tannenbaum (1957) clasifican en evaluativos, de grado y de actividades, son los siguientes:
Pruebas diagnóstico
Activo Estático Grande Positivo Escaso Cierto Mínimo Frío Positivo Enfadado Pasivo Interesante Indeciso ACTMDADES: Tenso Cálido Sano Valioso Adecuado Bueno Enfermizo Amistoso Relevante Profundo Dinámico Perfecto .Informativo Máximo Fuerte Resuelto Útil Justo Significativo Relajado Débil Tranquilo Preparado Objetivo Negativo Improvisado
GRADO:
177
El ejemplo siguiente, tomado de Filella e Immegart (1972), está pensado para evaluar la actuación de un grupo o equipo:
1. La participación en el trabajo por parte de todo los miembros del equipo fue: (7) MÁXIMA MíNIMA (1) 2. El interés en el trabajo puesto por todos los miembros del equipo fue: (7) GRANDE ESCASO (1) 3. Elliderazgo del grupo estuvo estructurado: (7) CONSCIENTEMENTE _ 4. Elliderazgo del grupo fue: (7) COMPARTIDO
ESPONTÁNEAMENTE (1)
CONCENTRADO EN UNOS POCOS (1)
5. El interés mostrado por los miembros del equipo por las ideas de los demás fue: (7) GRANDE ESCASO (1) 6. La libertad de los miembros del equipo para expresar abiertamente sus ideas fue: (7) GRANDE ESCASA (1) 7. La atención puesta por los miembros del equipo a su tarea fue: (7) MÁXIMA
MíNIMA (1)
8. La eficacia de los miembros del equipo para llevar a cabo su tarea fue: (7) GRANDE ESCASA (1) 9. La or'Janización para el trabajo fue: (7) MUY ELABORADA
_
SIN ELABORACiÓN (1)
178
La evaluación
10. El proceso del trabajo del equipo fue: (7) MUY PREPARADO
_
IMPROVISADO (1)
11. El entendimiento entre los miembros del equipo fue: (7) PERFECTO _ 12. El grupo funcionó: (7) COMO UN EQUIPO
de aprendizajes
ESCASO (1)
COMO UNA SUMA DE INDIVIDUALlDADES (1)
5.4. Otras escalas: Son muchas las variantes de escalas que se encuentran en la bibliografía especializada. La mayoría son de escasa aplicación en el contexto educativo que aquí nos interesa, por lo que nos limitamos a citadas: la escala de análisis jerárquico de Guttman (Edwards, 1957), la escala de Lunn (1969), las comparaciones emparejadas (Thurstone, 1947). Una buena revisión actual puede consultarse en Dunn-Rankin, Knezek, wallace y Zhang (2004).
2.
ENCUESTA La encuesta (EN) pretende obtener datos a partir de procedimientos de interrogación (Davis, 1975; Hunkins, 1972; Cohen y Manion, 1990; Colas y Buendía, 1992). Se suelen clasificar en dos grupos: entrevista y cuestionario.
2.1.
Entrevista La entrevista es una comunicación verbal y no verbal entre dos o más personas, que se lleva a cabo presencialmente en un marco espacio-temporal concreto y con unos objetivos previamente establecidos (Gaeta, 1975, estudia la entrevista en un contexto educativo y SilvaMoreno, 1987, en un contexto conductual más general). Por medio de la entrevista pueden evaluarse aptitudes, actitudes y objetivos de aprendizaje, en cuyo caso se convierte en un Examen Oral, que se estudió entre otras pruebas libres en el capítulo 9.
Clasificación: Se proponen diversos criterios para clasificar las entrevistas. 1. Fines: Según los fines que se persiguen, las entrevistas pueden ser: a) De investigación: Buscan fundamentalmente la recogida de información significativa sobre una cuestión que intentamos investigar. b) De intervención: Buscan información sobre los problemas actuales del sujeto, y su relación con la historia personal del mismo. Pueden dividirse, a su vez, en:
179
Pruebas diagnóstico
Diagnósticas, para alcanzar una información del entrevistado que permita determinar las causas de un problema. De tratamiento, cuando pretenden influir en un cambio de conducta o situación del sujeto entrevistado. La distinción entre diagnóstico y tratamiento es más bien formal, pues la intervención de todo diagnóstico inicia un tratamiento.
2. Estructura: Según e! protocolo, la entrevista puede ser: a) Estructurada: Cuando el protocolo se prepara cuidadosamente; es poco espontánea, pero permite cuantificar los resultados. b) Semiestructurada: El entrevistador sigue un protocolo previamente establecido, pero puede flexibilizar e! orden e incluso introducir preguntas nuevas. c) Libre: El contenido, el orden y la formulación de las preguntas no están determinados; se emplean preferentemente para obtener una información inicial exploratoria.
Proceso: El proceso de una entrevista se puede descomponer en tres fases o momentos:
1. Preparación: Determinar los objetivos. Se ha de delimitar con claridad cuál es la finalidad de la entrevista. Esto conlleva que se confeccione una buena guía acorde con el nivel de estructuración. 2. Realización: Aplicar la entrevista. Para ello, e! entrevistador ha de dominar una serie de técnicas en relación con la comunicación, la comprensión de la personalidad del entrevistado y de la situación. Entre otras, estrategias verbales: silencios, repetición, aclaración, reflejo de sentimientos, interpretación, explicación, estímulo, sugerencias, persuasión, confianza y seguridad; y no verbales: aceptación, comprensión, sinceridad, adecuado contacto visual, posición de! cuerpo, situación espacial y calidez de las expresiones faciales. 3. Conclusión: Debe realizarse una síntesis de lo tratado. Toda entrevista va seguida de la elaboración de una serie de conclusiones sobre los objetivos que se han alcanzado, en qué medida se han alcanzado y las tareas para e! futuro.
Cuestionario 2.2. El cuestionario es un tipo especial de entrevista. Puede utilizarse en una relación presencial, en cuyo caso nos encontraríamos ante una entrevista estructurada; o puede ser contestado sin intervención directa del encuestador, lo que se podría considerar como una entrevista a gran escala.
Clasificación: Los modos de las respuestas determinan las distintas clases de cuestionarios. Reproducen la clasificación de ítems mencionada en el capítu-
180
La evaluación
de aprendizajes
lo 3, con la peculiaridad, compartida por todas las PD como instrumentos de evaluación por analogía, de que no hay respuesta correcta predeterminada, sino que todas tienen valor como información sobre la situación que se evalúa. Así, aparecen los siguientes cuestionarios: Dicotómicos CUESTIONARIOS
(A)
Múltiples excluyentes (B) Cerrados (2) Mixtos (3) {Abiertos (1)
Múltiples no excluyentes (C) {
Clasificación (D)
1. Cuestionarios abiertos: Son cuestionarios construidos con preguntas de respuesta abierta (RA). Ejemplo: ¿Quépiensa Vd. sobre el modo de evaluar que usan los profesores de Matemáticas en su Centro?
2. Cuestionarios cerrados: Son cuestionarios con distintos tipos de PO, por lo que, dentro de este tipo de cuestionarios, existen, a su vez, una serie de categorías: A. Dicotómicos: Cuestiones formuladas con alguno de los protocolos de los ítems V/F. Ejemplo: ¿Tiene vd. interés por el estudio de las Matemáticas? [SÍ/NO]. B. Alternativas múltiples excluyentes: Cuestiones con formato EM de única respuesta. Ejemplo: ¿En qué debe basarse la evaluación escolar? a) b) c) d)
Los ejercicios de clase. Los exámenes tradicionales. Laspruebasobjetivas Trabajo de investigación.
C. Alternativas múltiples no excluyentes: Cuestiones con formato EM de varias respuestas. Ejemplo: ¿En qué momentos los profesores debieran comunicar alumnos sus decisiones evaluativas? a) b) c) d)
a sus
Después de la sesión de evaluación. En público. Después de cada actividad de aprendizaje. Privadamente.
D. Clasificación: Se pide al encuestado que valore las alternativas, de tal forma que la respuesta implique un orden en las categorías presentadas en el cuestionario; excepcionalmente, se puede pedir que sean proporcionadas por el mismo encuestado.
181
Pruebas diagnóstico
Ejemplo: Según tu opinión, cita por orden de preferencia las disczplinas que más contribuyen a tu formación. 1° Educación Física. 2D Sociales. 3° Matemáticas.
3. Cuestionarios mixtos: Se trata de añadir alguna pregunta abierta al final de una pregunta cerrada. Tienen las ventajas de ambos tipos de pruebas. Ejemplo: Valora con Excelente(E) / Bueno(B) / Correcto(C) / Pobre(P) / No puedo juzgar (Nj) los materiales siguientes: A Texto: B. Clases: " C. Prácticas: D. Bibliografía:
E/B/C/P/N] E/B/C/P/N] E/B/C/P/N] E/B/C/P/N]
Añadir las razones para haber elegido la valoración "Pobre»:
o
Confección de cuestionarios
1. Factores: Una vez delimitado el campo de estudio, una primera tarea consiste en identificar las variables o factores que lo configuran. Se pueden utilizar para ello diversos procedimientos como definición de conceptos, construcción de indicadores de presencia o ausencia de los factores, etc. 2. Preguntas: La «bondad» de un cuestionario se juzga por la clase de preguntas que se proponen y por su adecuada formulación. Las preguntas de un cuestionario recaen sobre aquellas variables o factores respecto a los cuales deseamos tener información. Cuando se formulan las preguntas, es conveniente seguir una serie de reglas prácticas: a) La pregunta ha de ser clara y concreta, evitando palabras de significado confuso y ambiguo, o términos excesivamente técnicos y poco usuales. Cuando la información deseada depende de un factor excesivamente complejo, es preferible utilizar varias preguntas. Ese ideal de claridad exige también prescindir de frases negativas y de aquellas otras que condicionan la respuesta. b) Las preguntas han de tener «aceptabilidad» social. Esto supone evitar preguntas inadecuadas porque exijan una información confidencial, o pongan de manifiesto la ignorancia o falta de información del sujeto. c) Es conveniente seguir una adecuada distribución de las preguntas. Así, la técnica del «embudo» propone formular preguntas generales para pasar, a continuación, a otras más concretas. d) Por su parte, el fenómeno de la «irradiación» -influencia de la pregunta anterior- aconseja usar «preguntas amortiguadoras» que corten una
182
La evaluación
de aprendizajes
posible influencia y que, a la vez, permitan volver a la «batería» o conjunto de preguntas sobre la cuestión que se estaba abordando. e) Un cuestionario debe incluir preguntas «filtro» que permitan eliminar otras posteriores.
3. Población y muestra: Una tercera tarea es determinar la muestra y la población, a qué sujetos se va a aplicar la muestra y con cuántos se va a realizar el cuestionario. Es conveniente empezar por realizar una reducción provisional de! cuestionario para sometedo a una prueba técnica o pretest. Los resultados del análisis de este pretest contribuirán a completar una presentación definitiva.
4. Otras exigencias metodológicas: Hay que tener en cuenta también e! modo de administrado, que impone unas pautas de aplicación, la computación y codificación de los resultados y el análisis de las conclusiones de acuerdo con los objetivos. Presentación del cuestionario: Cuando se presenta un cuestionario deben tenerse en cuenta las siguientes consideraciones: a) Aspecto externo: -
No demasiadas preguntas por página. Separar grupos o bloques de preguntas. Dejar espacio suficiente para las respuestas abiertas. Dibujar espacios (cuadros) para las respuestas cerradas.
b) Secuencia de las cuestiones: -
Agrupación lógica de preguntas por temas: hechos o acciones, intenciones, opiniones, motivos, etc. Colocar estratégicamente preguntas «f1ltro». Para evitar e! efecto «irradiación», introducir, cuando se cambie de tema, preguntas «amortiguadoras».
c) Hoja de datos: -
Prever la posible mecanización. Prever la tabulación en histograma, tabla de doble entrada, etc. Eliminar preguntas inútiles, repetidas, imposibles de tabular.
d) Instrucciones: -
Explicar objetivos y razones del cuestionario. Claridad y concreción acerca de la contestación a cada pregunta. Indicación sobre el cómo y el dónde se debe contestar. Añadir un ítem-muestra al principio.
5VBElnHd 5'" Ela
5V)I~5IHEI~)VHV) I
Todo instrumento de evaluación ha de cumplir algunos requisitos para su consideración, estudio y aplicación. Entre otros, las propiedades psicométricas; pero no sólo tales propiedades, también otras características necesarias para una buena confección y utilización de las pruebas. De las propiedades psicométricas con sus métodos de estimación más usuales y de las otras características, se tratará brevemente en el presente capítulo; para finalizar con una normativa deontológica actualizada sobre la evaluación educativa.
PROPIEDADES PSICOMÉTRICAS
1.
Los tests y pruebas, para poder ser utilizados de una forma adecuada como insy trumentos científicos de medida, han de reunir una serie de propiedades requisitos métricos (Muñiz, 2003), de los que citamos los siguientes:
Fiabilidad 1.1. Es la precisión con la que una prueba mide una variable dada. Se proponen diversas formas para realizar una estimación empírica del coeficiente de fiabilidad:
a) Repetición de la prueba: Consiste en la aplicación del mismo test en dos ocasiones distintas al mismo grupo de alumnos. La medida de la fiabilidad del test quedará puesta de manifiesto por el grado de correlación entre las calificaciones resultantes de la doble aplicación. Tal correlación se expresa por medio del coeficiente de correlación de Pearson, que muestra el grado de estabilidad de los resultados para un período de tiempo:
rXY
L
ZXZy
N
[1]
186
La evaluación de aprendizajes
En donde:
Zx
= puntuación típica de un alumno en la la prueba
(Zx Zy
= x ;x
x)
= puntuación típica de un alumno en la 2a prueba
(Zy=Y;y YJ N = número de alumnos. b) Formas paralelas: Se mide la fiabilidad mediante dos presentaciones diferentes del mismo test; es decir, en la segunda ocasión no se aplica la misma prueba, sino otra equivalente. La correlación entre los resultados de las dos pruebas se llama coeficiente de fiabilidad, que también se expresa por el coeficiente de correlación de Pearson.
c) Dos mitades: Cuando se construye e! test, se divide en dos mitades equivalentes y se hace una sola aplicación. En este caso, e! coeficiente de fiabilidad se calcula con la fórmula de Spearman-Brown [4], en la que n = 2, resultando la expresión siguiente (Muñiz, 2003): 2 Pxx' Pxx'
donde
Pxx'
=
1+ Pxx'
[2]
es la correlación entre las dos mitades del test.
d) Coeficiente alfa: Mide la consistencia interna de un test. La fórmula, establecida por Cronbach (1951), es una generalización realizada a partir de la fórmula de Kuder-Richardson-20 (Muñiz, 2003):
n ex =
n
1
[1 -
0'2x J~l
[3]
cr~J
En donde: n = número de ítems de! test. Lcrj cr~
= suma de las varianzas de los n ítems.
= varianza de las puntuaciones en el test.
Factores que afectan a la fiabilidad: Para que las pruebas sean más fiables, conviene que el profesor tenga en cuenta los siguientes factores: a) Longitud: La fiabilidad de una prueba o test es mayor si se incrementa e! número de ítems similares para comprobar el mismo objetivo. En principio, cuantos más ítems se utilicen, es decir, cuanto mayor sea la longitud de la prueba, mayor será la fiabilidad.
187
Características de las pruebas
A partir de la fiabilidad del test original, se puede medir ese aumento bilidad mediante la fórmula de Spearman-Brown (Muñiz, 2003): npxx' Pxx'
En donde:
=1+
(n -
Pxx'
= fiabilidad del test alargado.
Pxx'
= fiabilidad del test original.
n
de fia-
[4]
1) Pxx'
= número de veces que se ha alargado el test.
b) Variabilidad: Cuando aumenta la variabilidad de las calificaciones, la fiabilidad también aumenta.
Validez 1.2. Es el grado de precisión con el que la prueba utilizada mide verdaderamente aquello para lo que fue diseñada como instrumento de evaluación. El punto de referencia que ha de tener en cuenta el profesor validez de un examen deben ser los objetivos.
para medir la
Se distinguen diferentes clases de validez; se habla de validez de contenido, de predicción y de constructo. Sin embargo, la validez es un concepto único; las citadas clases son más bien evidencias de las que se puede inferir la validez (Osterlind, 1998).
Validez de contenido: Hay validez de contenido ítems de la prueba es lo suficientemente representativa que se pretende.
cuando la muestra de para evaluar el objetivo
En la construcción de la prueba, el profesor ha de tener en cuenta los índices de dificultad y de discriminación de los ítems propuestos.
Validez de predicción: Trata de mostrar la medida en que una prueba predice o estima una actuación o conducta futura, llamada criterio. Para ello se utilizan las técnicas de regresión simple y múltiple (Muñiz, 2003). La regresión simple intenta pronosticar el criterio a partir de un solo test; la regresión múltiple, a partir de varias medidas predictivas. Validez de constructo: Se refiere a la recogida de evidencia empírica que garantice la existencia de un constructo de acuerdo con las condiciones propias de cualquier modelo o teoría científica. En el ámbito psicológico, se han utilizado dos procedimientos para obtener datos acerca de la validez de constructo, el análisis factorial y la matriz multirrasgo-multimétodo (Muñiz, 2003).
188
La evaluación de aprendizajes
1.3.
Dificultad Se entiende por índice de dificultad (ID) de un ítem la proporción de sujetos que lo aciertan de aquellos que han intentado resolverlo. Varía de Oa 100. El índice de dificultad del ítem vendría dado por la siguiente fórmula (Muñiz,2003): A ID = - x 100 [5]
N
En donde: ID = índice de dificultad. A = número de sujetos que aciertan el ítem. N = número de sujetos que han intentado resolver el ítem.
1.4.
Discriminación Se dice que un ítem discrimina si distingue entre aquellos sujetos que puntúan alto en la prueba y los que puntúan bajo. En consecuencia, el índice de discriminación (IDs) se define como la correlación entre las puntuaciones de los sujetos en el ítem y sus puntuaciones en la prueba (Muñiz, 2003). El índice de discriminación, que varía de -1 a + 1, permite determinar en qué medida una pregunta es selectiva para distinguir un grupo competente de un grupo incompetente. Cuanto más elevado es este índice, la pregunta permite diferenciar mejor dichos grupos. Si un test, por ejemplo, se compone de preguntas con altos índices de discriminación, asegura una clasificación discriminativa de los estudiantes según su nivel de actuación. Dicho de otra manera, el test no concede ventajas a los alumnos débiles respecto de los fuertes; más bien ayuda a reconocer a los mejores estudiantes. Esto, por tanto, sólo quiere decir que una pregunta separa a los alumnos en la misma dirección (discriminación positiva) que el resto del examen, o en dirección contraria (discriminación negativa). Uno de los procedimientos para establecer el índice de discriminación es el siguiente: con las pruebas ya corregidas, se hacen dos grupos: mejores calificaciones y peores calificaciones. El índice de discriminación vendrá dado por la siguiente fórmula:
IDs =
As - Ar
N 2
En donde: IDs = índice de discriminación.
~ = número de aciertos del grupo superior.
[6]
189
Características de las pruebas
Al = número de aciertos del grupo inferior. N = número total de sujetos corregidos.
* * * Muchos de estos cálculos vienen facilitados por programas informáticos para PC como el ITEMAN (comercializado por Assessment Systems Corporation), que permite calcular todo tipo de índices de los ítems. Otros programas son «El Sistema Integrado de Procesado de Test» elaborado por Díaz, Neira, Alguero, Brugos, García, Ávarez y Soler (1999) y el ITEM (pomes y Arguelles, 1991) que proporciona un servicio de análisis de resultados; entre otros: a) Número de aciertos, fallos y omisiones, ción tipmcada de los individuos.
puntuación
absoluta
y puntua-
b) Calificación media, desviación típica y fiabilidad de la prueba. c) Corrección
de acierto casual y detección
de fraude.
Además, el programa dispone de un servicio de archivo de hasta 999 pruebas diferentes, con 999 individuos, 150 ítems por prueba y cinco opciones por ítem, con la posibilidad de copiar, fusionar, depurar y modificados.
OTRAS CARACTERíSTICAS 2. Los instrumentos los que se suelen edición de 1965, entre las diversas
de evaluación deben cumplir también otros requisitos, entre citar los siguientes (Ebel y Frisbie, 1977, y sobre todo en la 1a citada por Guilbert, 1989, estudian ampliamente la relación características de un examen):
Pertinencia: Grado de coherencia entre los criterios establecidos en la selección de las preguntas y sus fines. Las preguntas deben ser pertinentes en relación con el interés general de un tema, y no consecuencia del gusto y capricho del examinador. La noción de pertinencia se aproxima a la de validez de contenido.
Equilibrio: Grado de concordancia entre la proporción de las preguntas que se seleccionan para cada uno de los objetivos y lo que sería una proporción ideal a juicio de expertos. Representatividad: plicar preguntas
Es el equilibrio entre preguntas para un aspecto y olvidar otros.
Equidad: Grado de concordancia tivos tratados en la enseñanza.
entre las preguntas
y objetivos, no multidel examen y los obje-
Claridad: Supone unos enunciados en los que aparezca la información necesaria con expresiones directas simples, eliminando palabras innecesarias y datos poco relevantes.
190
La evaluación
de aprendizajes
Objetividad: Grado de concordancia entre el juicio del examinador y lo que, según criterio de especialistas independientes y competentes, constituye una «buena» respuesta. «Practicabilidad»: Está determinada por las circunstancias, especialmente espacio-temporales, necesarias para la construcción, administración, calificación e interpretación de los resultados de un examen. Dicho de otra manera, debe ser posible elaborar, responder y corregir la prueba. Este aspecto no debe prevalecer sobre la validez. Eficiencia: Es la cualidad de un examen que permite el mayor número posible de respuestas independientes por unidad de tiempo. Tiempo: Un instrumento de evaluación será menos fiable si, porque se dispone de poco tiempo, provoca la introducción de factores que distorsionen; por ejemplo, poco rigor, aproximación, riesgo, etc. El tiempo de examen puede ser un factor decisivo que condiciona su dificultad. Hay que escoger más bien problemas que necesiten una reflexión (comprensión, análisis), pero cuya solución pueda expresarse en un tiempo relativamente breve. Extensión: La fiabilidad de un instrumento de evaluación puede aumentarse (fórmula de «5pearman-Brown», citada al hablar de los factores que afectan a la fiabilidad) por adición de nuevas preguntas equivalentes a las del test original. «Especificidad»: Cualidad que hace que un alumno que no ha seguido las enseñanzas que han servido para construir el instrumento de evaluación, obtenga un resultado similar al esperado únicamente por azar.
3.
RELACiÓN ENTRE LAS CARACTERíSTICAS DE UN EXAMEN Las propiedades y características hasta aquí citadas guardan entre sí una estrecha dependencia, de las que destacamos algunas. Validez y fiabilidad: Para que un instrumento de evaluación sea válido debe ser a la vez pertinente y fiable. La fiabilidad es una condición necesaria, pero no suficiente, para la validez. Así, resultados válidos deben ser fiables, pero resultados fiables no son necesariamente válidos. En consecuencia, los resultados poco fiables influyen en el grado de validez. Por otra parte, una prueba puede a menudo volverse más válida si se aumenta su fiabilidad. Validez y pertinencia: El concepto de pertinencia corresponde, más o menos, al de validez de contenido. El modo de establecer una y otra es análogo. Por definición, una pregunta es pertinente si sirve a la validez del ítem, y un ítem es pertinente si respeta las especificaciones de los objetivos establecidos durante su planificación.
Características de las pruebas
Pertinencia y equilibrio: El equilibrio no es más que una subcategoría del concepto de pertinencia. Pertinencia y equidad: Si el ítem se construye a partir de los objetivos, es pertinente por definición. En la hipótesis contraria, este ítem no es pertinente y; en consecuencia, tampoco es válido. Es equitativo en el primer caso, e injusto en el segundo. Sin embargo, un examen puede ser equitativo sin ser pertinente (válido de contenido) en la medida en que corresponde bien a lo tratado durante la enseñanza; lo que sucede es que no se deriva suficientemente de los objetivos propuestos. Equidad, especificidad y fiabilidad: Una prueba no puede ser equitativa si no es primero específica. Por otra parte, la especificidad, así como la equidad por razones análogas, afectará a la fiabilidad de los resultados. Fiabilidad, discriminación, extensión, homogeneidad (de las preguntas) y heterogeneidad (de los estudiantes): La fiabilidad está influida por la discriminación de los estudiantes, el número de ítems, la similitud de los ítems para medir un competencia dada y las diferencias de los estudiantes en relación con esa competencia. El poder discriminatorio de una pregunta está directamente influido por su nivel de dificultad. Así, el índice medio de discriminación de un ítem se verá igualmente afectado por la homogeneidad de las preguntas y por la heterogeneidad de los estudiantes. La equidad y la especifiCidad van a influir también en el poder de discriminación del ítem. Se ha demostrado que un test con un índice medio de dificultad del 50% tiene grandes probabilidades de ser fiable, en lo que concierne a su consistencia interna y homogeneidad. Formato y capacidad: El formato de la pregunta no condiciona el proceso mental que se pretende evaluar. Ningún instrumento de evaluación tiene la exclusividad cuando se trata de medir los procesos intelectuales más elevados y complejos. La forma de la pregunta no determina la naturaleza del proceso intelectual requerido para poder contestada. Otra cosa es que las conclusiones de la investigación al respecto ponen de manifiesto que los exámenes reales de nuestras aulas, sean pruebas libres (PL) o pruebas objetivas (PO), ponen en juego sobre todo la memoria y pocas veces exigen que el alumno haga un razonamiento. Formato y aprendizaje: El que la naturaleza del examen afecte a la preparación que de él hace el alumno viene atestiguado por la experiencia, la razón y la investigación. En relación con la influencia de los exámenes en el estudio y el aprendizaje, la cuestión realmente importante es cómo estas diferencias afectan a sus logros. A falta de investigaciones adecuadas, nos aventuramos a formular las siguientes inferencias: a) El tipo de estudio y logro que un formato de examen estimula depende probablemente más de las preguntas que se hacen que de la manera en que deban respondedas los alumnos.
191
192
La evaluación
de aprendizajes
b) En la medida en que los exámenes en diferentes formatos miden los mismos tipos o aspectos de logros, estimulan el mismo método de estudio y tienen los mismos efectos en los logros. Muchos factores, diferentes de los exámenes, afectan a cómo y con qué éxito estudian los alumnos. Estos factores interaccionan de maneras complejas para facilitar o inhibir el aprendizaje. Por tanto, es muy pequeña la probabilidad de que la investigación demuestre alguna vez claramente qué forma de examen, respuesta abierta (RA) o prueba objetiva (PO), produce una influencia más beneficiosa en el estudio y el aprendizaje. Dificultad y capacidad: Se tiene tendencia a confundir la dificultad de una pregunta con la complejidad del proceso intelectual que mide; sin embargo, no hay relación entre ellas. Una pregunta que sólo requiera memoria puede ser más difícil, a causa de la naturaleza excesivamente especializada de la información exigida, que una pregunta que requiera interpretación de datos; y al contrario, una aplicación de principios puede ser más fácil, si los principios son familiares al alumno y si los datos que se han de interpretar son simples, que la simple memorización de un principio complejo. Dicho de otro modo, la dificultad de una pregunta y la complejidad de las instrucciones que la acompañan no están necesariamente unidas a la naturaleza del proceso intelectual puesto en juego. El cuadro siguiente (versión simplificada de la propuesta por Cormier, 1977) resume las relaciones entre las principales características que debe tener un examen:
VALIDEZ
~ FIABILIDAD
PERTINENCIA
~ OBJETIVIDAD
DISCRIMINACiÓN
~ DIFICULTAD
PRACTICABI LIDAD
Para que una prueba sea válida, es necesario que sea pertinente y fiable; pero puede ser fiable y no válida. De manera semejante, para que sea fiable, ha de ser objetiva y discriminante; lo contrario no es verdad. Para que discrimine, debe poder llevarse a la práctica y tener un índice de dificultad adecuado, no viceversa.
193
Características de las pruebas
PRINCIPIOS ÉTICOS Y DEONTOLÓGICOS DE LA EVALUACiÓN El código de la American Psychological Association, 1992 (APA)dedica un apartado completo a los distintos aspectos de la evaluación, del que presentamos, adaptadas a los docentes, las siguientes directrices (Muñiz, 1997b). 1. Evaluación en un contexto profesional: Los profesores únicamente llevan a cabo evaluaciones en el contexto de su tarea docente; además, dichas evaluaciones educativas se basan en una información suficiente para proporcionar una fundamentación adecuada de sus conclusiones.. 2. Competencia y uso apropiado de evaluaciones: Los profesores, por un lado, elaboran, aplican, puntúan, interpretan o usan técnicas de evaluación de manera que tanto su proceder como los fines perseguidos son apropiados de acuerdo con las conclusiones actualizadas de investigaciones acerca de la utilidad y pertinencia de dichas técnicas; y, desde otro punto de vista, se abstienen del uso inapropiado de técnicas de evaluación y toman medidas razonables para evitar que se use inadecuadamente la información proporcionada por estas técnicas; esto incluye el abstenerse de facilitar las puntaciones de los exámenes y otros datos a personas ajenas a los estudiantes. 3. Construcción de exámenes: Los profesores, al construir exámenes, utilizan procedimientos científicos y conocimientos profesionales actualizados para su diseño, estandarización, validación, reducción o eliminación del sesgo y recomendaciones de uso. 4. Uso de la evaluaciones: Los profesores, al aplicar, puntuar, interpretar, o utilizar técnicas de evaluación, conocen su fiabilidad, validez, estudios sobre la estandarización y resultados y aplicaciones adecuadas. Además, son conscientes de los límites de la certidumbre con la que pueden hacerse diagnósticos, juicios y predicciones acerca de las personas, por lo que intentan identificar las situaciones en las cuales determinadas técnicas de evaluación o normativas no deben ser aplicadas, o pueden requerir un ajuste, debido a características de la persona tales como género, edad, raza, etnia, nacionalidad, religión, orientación sexual, discapacidad, idioma o estatus socioeconómico. 5. Interpretación de los resultados de la evaluación: Al interpretar los resultados de la evaluación, los profesores tienen en cuenta los distintos aspectos de las pruebas y las características de la persona evaluada que puedan afectar sus juicios o reducir la presión de sus interpretaciones. 6. Personas no cualificadas: Los docentes no promueven el uso de técnicas de evaluación educativa por parte de personas no cualificadas.
4.
194
La evaluación
de aprendizajes
7. Pruebas obsoletas y resultados desfasados: Los profesores no basan sus decisiones en medidas y pruebas obsoletas, inapropiadas para los objetivos de sus programaciones. 8. Calificación e interpretación: Los profesores, que ofrecen procedimientos de calificación o evaluación a otros docentes, describen con precisión la finalidad, normas, validez, fiabilidad y aplicaciones de los procedimientos, así como cualquier cualificación especial aplicable a su uso. 9. Explicación de los resultados de la evaluación: Los profesores garantizan una explicación de los resultados, utilizando un lenguaje que pueda entender la persona evaluada u otra persona legalmente autorizada. 10. Mantenimiento de la seguridad de los tests: Los profesores se esfuerzan para mantener la integridad y seguridad de los exámenes de acuerdo con la legislación vigente y los requerimientos del código ético.
SVB:lnHd :la O)NVB
Un Banco de Pruebas es un archivo de preguntas válidas para comprobar con fiabilidad la consecución de un repertorio de objetivos de aprendizaje. La confección y, en su caso, la informatización de un Banco de Pruebas debe servir principalmente para poder diseñar un examen de características determinadas por el profesor. Un repertorio de pruebas propuesto directamente a los alumnos puede tener el peligro de llevades a «estudiar para el examen» y, así, viciar su función de control del aprendizaje y, en general, de todo el proceso de instrucción. Enseñar y estudiar para el examen es una mala práctica, porque todo examen representa una muestra de los muchos ítems posibles de una programación para deducir, por extrapolación, si el alumno ha aprendido bastante más que la mera solución de unos pocos ítems. Aprender únicamente las respuestas hace que la prueba global dé una indicación equivocada del rendimiento del alumno y resta significado a la calificación basada en tales resultados. Las características de un Banco de Pruebas, en general, son las siguientes:
1. Clasificación: Para poder localizadas fácilmente, las pruebas deben estar bien clasificadas, ya que lo que no está clasificado «no existe». A continuación, glosamos algunos criterios recomendables para clasificar las pruebas de un «banco». 1.1. Objetivo: Cada pregunta debe estar relacionada con un objetivo de aprendizaje, identificado al menos esquemáticamente, por un lado, con un contenido científico y, por otro, con la capacidad o proceso mental que el alumno debe realizar sobre dicho contenido. Creemos que así es más fácil localizados. Aunque en teoría podrían figurar más, se recomienda que la capacidad de los objetivos de referencia sea la comprensión, es decir, preguntas que pretenden comprobar si el alumno es capaz de traducir afirmaciones a diferentes lenguajes o a distintos grados de abstracción, de interpretar datos, métodos o conceptos y de extrapolados. También se suelen considerar objetivos cuya capacidad es la aplicación, es decir, si el alumno es capaz de identificar las limitaciones del ámbito de aplicación de un principio, de seleccionar la fórmula adecuada y de relacionada con la situación problema para sacar conclusiones en casos concretos.
198
La evaluación
de aprendizajes
En consecuencia en los «bancos» no se suelen utilizar objetivos que encierren capacidades más complejas, como analizar, sintetizar o valorar (Álvarez, Soler, González-Pienda, Núñez y González-Castro, 2004); pero sobre todo ha de evitarse la simple memorización, por lo que es indiferente, en la mayoría de los ítems, que el alumno los realice con o sin libros; incluso con éstos es posible que, si no domina la materia, le resulte más difícil realizar el examen, debido a la confusión que le puede producir una consulta en un tiempo limitado.
1.2. Nivel: Es obvio que las pruebas deben enmarcarse en una programación contextualizada en un nivel. 1.3. Diseño: Es la característica más crítica y la que da unidad a un conjunto de pruebas. Se trata de explicitar, por un lado, la generalización de la situación en que se va a situar al alumno (se podrá materializar en una serie casi indefinida de pruebas) para que demuestre la adquisición del objetivo correspondiente; dicho de otra manera, son los indicadores observables para poder deducir la adquisición de dicho objetivo. En teoría se pueden concebir varios diseños distintos para comprobar el mismo objetivo. Por otro lado, concreta también el formato del ítem. Si el formato es de elección múltiple (EM), hay que recordar que la base debe ser autosuficiente, es decir, deben permitir, eliminando los distractores o con una simple adaptación gramatical, utilizadas automáticamente como preguntas clásicas de respuesta abierta (RA).Otra alternativa es la utilización de estos ítems como pruebas mixtas, exigiendo que el alumno justifique la elección de su respuesta o incluso por qué elimina las incorrectas. A veces, cuando se desea hacer un amplio barrido de varios conceptos, se fuerza el formato EM para convertido en respuestas combinadas.
1.4. Otras características: En cada prueba, es útil añadir lo siguiente: a) Diagnóstico, es decir, la respuesta correcta a cada ítem, y todas aquellas consideraciones que se crean necesarias para corregidos. Se ahorrará tiempo y esfuerzo si, al mismo tiempo que se formula el ítem, se escribe la respuesta. Es recomendable consignadas aparte para no condicionar la resolución de las cuestiones. b) Observaciones, tales como tiempo de aplicación, recursos que se permita utilizar a los alumnos, etc., y sobre todo alternativas de interpretación o dificultades especiales que encuentran los alumnos debido a sus preconceptos. c) Análisis: Se recogerían en este campo los resultados del estudio psicométrico del ítem, es decir, los índices de dificultad, discriminación y demás datos de interés de la historia de aplicación de cada ítem.
2. Codificación: En los «bancos», cada prueba debe quedar identificada con un código. En los ejemplos que incluimos al final del capítulo, está formado por una letra y seis números para significar los extremos siguientes:
Banco de pruebas
2.1. Capacidad: La letra corresponde a la capacidad. Para ello es obligado referirse a la taxonomía de capacidades propuesta por el equipo de Bloom (1972). En esta taxonomía, tantas veces criticada, con frecuencia crípticamente citada y hasta el momento no mejorada, se ordenan las capacidades cognoscitivas del 1 al 6 (1-Memorización, 2-Comprensión, 3-Aplicación, 4-Análisis, 5-Síntesis y 6-Valoración). Puesto que en los ejemplos que aquí incluimos solo se pretende comprobar la comprensión y la aplicación, el código de las pruebas empieza con una e (comprensión) o una a (aplicación) respectivamente. 2.2. Objetivo: Los primeros dos dígitos hacen referencia al número de orden del objetivo de aprendizaje de la programación de aula correspondiente. 2.3. Diseño: Los dos dígitos siguientes recogen el diseño (01, 02, etc.). 2.4. Prueba: Hemos reservado los últimos dígitos para identificar cada prueba (desde el 01 al 99; si se prevén más de 100 pruebas equivalentes del mismo objetivo y diseño, habría que reservar tres o más dígitos). Por ejemplo, una prueba identificada con c.30.02.05 quiere decir que pretende comprobar comprensión (c); se refiere al objetivo (30); recoge el diseño (02) de los posibles para comprobar dicho objetivo; y en el banco figura en el lugar quinto (05).
3. Utilización: En el capítulo 16, recogemos una serie de consideraciones necesarias para llevar a la práctica el proceso de examinar; aquí adelantamos algunas. Es obvio que, para comprobar la consecución de un objetivo de aprendizaje, hay que incluir alguna prueba clasificada dentro de dicho objetivo. El conocimiento, producto del aprendizaje significativo, no está ato mizado; por el contrario, se almacena de una manera relacionada en racimos de conocimientos afines. Por esta razón, aunque el objetiVO tiene siempre un carácter general y la prueba un carácter particular, se propone la hipótesis de que, seleccionando una muestra de pruebas, incluso pertenecientes a cualquiera de los posibles diseños, se puede extrapolar, de su éxito, la consecución de todo el objetivo. Esta hipótesis, así como la determinación del número de pruebas equivalentes necesarias para lograr una observación controlada de la que deducir resultados válidos y fiables, es necesario sometarla a la oportuna investigación. Conviene tener en cuenta que, al seleccionar algunos de estos ítems para confeccionar un examen, habrá que modificar el orden de los distractores para que, como ya se subrayó, el número de veces que aparece la respuesta correcta en cada posición se equilibre.
199
200
La evaluación
de aprendizajes
4. Ejemplos de bancos 4.1. Matemáticas (Teresa y Luengo, 1996) OBJETIVO (4) CAPACIDAD: CONTENIDO:
Comprensión. Concepto de derivada de una función en un punto.
DISEÑO (1): Se trata de comprobar si se comprende el concepto de derivada de una función en un punto, para lo cual se propone en primer lugar que se seleccione las expresiones que corresponden a la derivada de f en un punto y, haciendo uso del resultado obtenido y conocidos los valores determinado que toma la función en las proximidades del mismo, se estime el valor de la derivada de la función en dicho punto.
c.04.01.01
PRUEBA
1) ¿Qué expresiones ción f en x = 1?
1. 2
entre las que siguen corresponden
a la derivada de la fun-
lim f(x) - f(l) x-H
x-
1
. f (1 + h) .llm-----h
f (1)
h~O
3. 1im [f (x + h) - f (h)] x~l
4. 1im f(l) - f(h) h~O
a) b) c)
1 Y3 2 y4
d)
3 y4
h
1Y2
2) Si de la función f se conocen los datos que figuran en la tabla de la derecha, ¿cuál sería el valor estimado de f'(l)? a)
1
b)
2 3 4
c)
d)
x..
0,8 0,9 0,95
1 1,01
1,1 1,15
f(& 3,64 3,81 3,9025 4 4,0201 4,21 4,32
201
Banco de pruebas
PRUEBA c.04.01.02
De la función f se conocen los datos que figuran en la tabla de la derecha.
-0,15 -0,10 -0,01
fC& 1,08 1,069 1,0097
O
1
K..
0.01
0,1 0,15
0,9897 8,87 0,789
1) ¿Cuáles de las expresiones que siguen corresponden a la derivada de f en el punto x = O?
1.
l.
lm-----f(O + h)
2 • 1 lID . x-tO
3.
h
h-tO
- f(O)
_-_1
_f_(x_)
X
1iID f(x) - f(O) x-tO
X -
O
4 • l' lID f(h) - 1 h-tO
a) b) c) d)
h
Sólo la 1 y la 3 Sólo la 2 y la 3 Sólo la 3 y la 4 Todas
2) Teniendo en cuenta los valores de f que figuran en la tabla, ¿cuál sería el valor estimado de f' eO)? a)
-2
b) -1 c)
O
d) 1
202
La evaluación
OBJETIVO (4) CAPACIDAD: CONTENIDO:
de aprendizajes
Comprensión. Concepto de derivada de una función en un punto.
DISEÑO (2): Para comprobar si se comprende el concepto de derivada de una función, se propone que, con la ayuda de la gráfica de la función y conocidos los valores que toma en las proximidades de un punto, se estime el valor de la derivada de la función en dicho punto, como el límite de los cocientes
f(x) - f(a)
-----
x-a
.
(pendlentes
,
de las secantes que se apoyan en el).
PRUEBA c.04.02.01 La gráfica de más abajo corresponde a la función f, de la que se conocen más los valores que figuran en la tabla siguiente:
x 3
fW-
5
3,25
5,5 5,9
4,0625 4,8025
6
5
ade-
1,25
1) ¿Cuál es el valor de la pendiente de las secantes AB, donde la abscisa de B va tomando los valores x de la tabla, desde x = 3 hasta x = 5,9? a) b) c) d)
1,25; 1,75; 1,875; 1,975 2,25; 2,45; 2,475; 2,495 -2,25; -2,45; -2,475; -2,495 -1,25; -1,75; -1,875; -1,975
2) En consecuencia, a)
de las afirmaciones
lim f(x) = 2 x-t6
e (6)
c)
=2 f(3) = -1,25
d)
lim f(x) = -2,5
b)
x-t3
que siguen, ¿cuál puede ser cierta?
203
Banco de pruebas
PRUEBA c.04.02.02
A determinada función f le corresponden la gráfica de la derecha y los valores que figuran en la tabla siguiente: 25,75 ÍOO5,4375 5,724 5,64
2\;
2
I~I
5 2,5 2,05 2,2
1) ¿Cuál es el valor de la pendiente de las secantes AB, donde la abscisa de B va tomando los valores x de la tabla, desde x = 5 hasta x = 2,05? a) b) c) d)
-1; 1,75 ; 1,950; 1,975 1; -1,75; -1,950; -1,975 1,25; 0,625; 0,55; 0,52 -1,25; -0,625; -0,55; -0,52
2) Teniendo en cuenta el resultado obtenido, ¿cuál de las afirmaciones que siguen puede ser cierta?
a)
lirn f(x) = -1/2 x--.2
b)
f~ (2) = -112
c)
lirn f(x) = 5 x--.2
d)
f' (5) =
5/4
204
La evaluación
OBJETIVO (5) CAPACIDAD: CONTENIDO:
Aplicación. Derivabilidad de una función límites. Derivadas laterales.
de aprendizajes
en un punto.
Cálculo
de
DISEÑO (1): Para comprobar si se sabe aplicar el concepto de derivada de una función en un punto, procurando controlar el proceso de resolución, a través de varias preguntas y a partir de la expresión de una función, debe procederse al cálculo de las derivadas laterales y decidir sobre la derivabilidad de la misma en dicho punto. PRUEBA a.05.01.01 Considérese
la función dada por
f (x) = --
x
1+ Ixl
1) ¿Cuál es el valor de las derivadas laterales de f en x=O?
a) b) c)
d)
e (0)= e (0)= e (0)=
f~ (0)= 1 f~ (0)=-1
-1 Yf~ (0)= 1 f~ (0)= 1 Yf~ (0)=-1
2) ¿Es derivable f en x enx = O? a) b) c) d)
= O? En caso afirmativo, ¿cuál es el valor de su derivada
Sí, y su derivada en x = O es l. Sí, Ysu derivada en x = O es-l. No, al ser distintas las derivadas laterales de f en x = O. No, al estar definida f por medio de valores absolutos.
PRUEBA a.05.01.02
si x:/:.O Dada la función
f(x) = {--"
1) ¿Cuáles de las expresiones
1. 2.
f' (O)= lim +
h---*O+
,
.
f_ (O) = hm
t---*o-
3.
f'(O) =lim~ x---*o
4.
f'(O)
=O
que siguen son correctas?
f(h)
h
--
1
1+ e
1+
Sl X = O
e
205
Banco de pruebas
a)
1Y2
b)
1 y4
c) d)
2y3 Todas
2) ¿Cuál es el valor de las derivadas laterales de f en x
a) b)
c) d)
f~ (O) = f~ (O) = O f~ (O) = f~ (O) = 1 (O) = O; f~ (O) = f~ (O) = 1; f~ (O) =
e
3) ¿Es derivable f en x
enx = a) b) c) d)
= O?
1 O
= O? En caso afirmativo, ¿cuál es el valor de su derivada
O?
Sí, y su derivada en x = O es O Sí, Ysu derivada en x = O es 1 No, al ser distintas las derivadas laterales de f en x No, al no estar definida f en x = O
=O
206
La evaluación
OBJETIVO (5) CAPACIDAD: CONTENIDO:
Aplicación. Derivabilidad de una función límites. Derivadas laterales.
de aprendizajes
en un punto.
Cálculo de
DISEÑO (2): Para comprobar si se sabe aplicar el concepto de derivada de una función en un punto y con el fin de controlar el proceso de resolución, a partir de la expresión de una función, con el apoyo de la gráfica de la misma y a través de varias preguntas debe procederse al cálculo de las derivadas laterales y decidir sobre la derivabilidad de la misma en dicho punto. PRUEBA a.05.02.01 La función f(x) = sen Ixl tiene por gráfica la que figura a la derecha: 1) ¿Cuál es la expresión vadaf'(x)?
a) b)
de la función deri-
f'(x) = eas Ixl, para x #f'(x) = leas xl
O
e)
f'(x) = { - eas x para x> x~O
d)
f'(x) = {- eos eas x para x >
2) ¿Cuál es el valor de las derivadas laterales de f en x a) b)
f~ (O) f~ (O)
= f~ (O) = -1 = f~ (O) = 1
c)
e (O) = -1;
d)
f~ (O) =
1;
f~ (O) = 1 f~ (O) = -1
3) En el caso de que exista, ¿cuál es el valor de f' (O)? a)
-1
b) 1 c) d)
No existe, al no ser f derivable en x = O No existe, al no ser f continua en x = O
= O?
207
Banco de pruebas
PRUEBA a.05.02.02 La gráfica de la derecha función dada por f(x) = 1) ¿Cuál es la expresión vada f'(x)?
corresponde
a la
I x31.
de la función deri-
a)
3x s~ Sl x> f'(x) = {-3X~ x ~O
b)
f' (x) = { -3x3X~ Sl s ~ x> x ~ O O
e)
f'(x) = 13x21
d)
f'(x) = 3x2
2) ¿Cuál es el valor de las derivadas laterales de f en x a) b)
c) d)
= O?
e (O) = f~ (O) = o e (O) = f~ (O) = _00 e (O) = f~ (O) = +00 e (O) = -00; f~ (O) = +00
3) En el caso de que exista, ¿cuál es el valor de feO)? a) b) c) d)
-00
+00 O
No existe
Diagnóstico: 4.01.01.1-a) / 4.01.01.2-b) / 4.01.02.1-d) / 4.01.02.2-b) / 4.02.01.l-a) / 4.02.01.2-b) / 4.02.02.1-d) / 4.02.02.2-b) / 5.01.01.1-a) /5.01.01.2-a) / 5.01.02.1-a) / 5.01.02.2-d) / 5.01.02.3-c) / 5.02.01.l-d) / 5.02.01.2-c) /5.02.01.3c) / 5.02.02.1-a) / 5.02.02.2-a) /5.02.02.3-c)
208
La evaluación
de aprendizajes
4.2. Física (García Mendoza y Soler, 1994) OBJETIVO (4) CAPACIDAD: CONTENIDO:
Comprensión. Cinemática. Composición de movimientos.
DISEÑO (1): Se propone una situación problema en la que el móvil está sometido a dos movimientos independientes. La dificultad de las distintas pruebas es consecuencia de que en unas se dan los datos directamente, con lo que se puede deducir la respuesta de forma inmediata; mientras que en otras el alumno debe deducir los datos que no se le dan expresamente.
Se pide identificar las clases de movimientos y las variables que intervienen en cada uno, para así deducir las características (tiempo, trayectoria, velocidad, etc.) del movimiento compuesto. No se tiene en cuenta el «efecto Coriolis». PRUEBA c.04.01.01
Desde lo alto de un precipicio se lanzan horizontalmente y a la vez tres piedras (A, B Y C) con distintas velocidades. ¿Cuál llega antes al suelo? a) b)
A B
c)
C
d)
llegan todas a la vez
~"¡¡
.•.......
\":¿:;~:~~:~, , ... .. ~..... '. .'. .. . . "0•••••••••
.
~
~'-
-
-
--
-
-
PRUEBA c.04.01.02
Un cazador experimentado apunta, con un rifle sin alza, a la cabeza de un mono que se encuentra a una distancia de 300 m en una rama de un árbol. En el momento justo del disparo, el mono se deja caer al suelo. Entonces la bala: a) b) e) d)
Dará en la cabeza del mono. Dará en el cuerpo del mono. Pasará por encima de la cabeza del mono si la velocidad es alta. Pasará por encima de la cabeza del mono siempre.
PRUEBA c.04.01.03
Un velero se mueve con velocidad constante en un mar en calma. Se deja caer un cuerpo desde lo alto del palo mayor. El cuerpo chocará contra el suelo: a) b) e) d)
Delante del palo mayor. Detrás del palo mayor. Justo en la vertical del punto de lanzamiento. No se puede afirmar nada sin saber la velocidad de velero.
209
Banco de pruebas
PRUEBA c.04.01.04
Una persona va en una moto con velocidad constante. Suelta una de sus manos y lanza verticalmente hacia arriba una bola de acero, dejando la mano extendida. Labola caerá: a) b) c) d)
Detrás del motorista, si la velocidad de la moto es grande. Delante del motorista. En la mano que la lanzó. Detrás del motorista siempre.
PRUEBA c.04.01.05
Un nadador que es capaz de mantener una velocidad constante de 1 m.s-1 respecto al agua en reposo, desea atravesar un río cuya corriente tiene una velocidad de 1 m.s-1. Para hacerla en el menor tiempo posible, debe nadar en una dirección: a) b) c) d)
Perpendicular a la corriente. Que forme un ángulo de 45° con la corriente y sentido aguas arriba. Que forme un ángulo de 45° con la corriente y sentido aguas abajo. Tarda el mismo tiempo sea cual sea la dirección de marcha que elija.
PRUEBA c.04.01.6
Se dispara un proyectil formando un ángulo de 30° con la horizontal. ¿Qué gráfica representa correctamente el espacio horizontal X recorrido por el proyectil en función del tiempo? x
x
x
a)
b)
c)
h d)
PRUEBA c.04.01.07
Un niño lanza con un tirachinas una piedra a un pájaro que vuela horizontalmente a una altura de H m. El tiempo transcurrido desde que la piedra golpea al pájaro hasta que éste choca contra el suelo sólo depende de: a) b) c) d)
Velocidad que lleva el pájaro. Altura H. Altura H y velocidad que lleva el pájaro. Distancia entre el niño y el pájaro en el momento del impacto y altura H.
210
La evaluación
de aprendizajes
PRUEBA c.04.01.08
Un defensa golpea un balón hacia la puerta contraria. La aceleración del balón durante el vuelo: a) b) c) d)
Es máxima en el punto más alto de la trayectoria. Es la misma en todo el recorrido. Es mayor en el trayecto de subida que en el de bajada. Es cero en el punto más alto de la trayectoria.
PRUEBA c.04.01.09
~ ~ ~ Al golpear un balón se le comunica una velocidad inicial Va = Si + lO} . En el punto más alto de su trayectoria la velocidad y la aceleración toman los valores:
a~~~j jj SiOj ~ -9,S -9,S 10 9,S 9,S ~ ~
Se dispara un proyectil formando un ángulo de 30° con la horizontal. ¿Qué magnitud, referida al proyectil, permanece constante? a) b) c) d)
Vector velocidad. Componente horizontal del vector velocidad. Componente vertical del vector velocidad. Módulo del vector velocidad.
Diagnóstico 4.01.0l-d) / 4.01.02-a) / 4.01.03-c) / 4.01.04-c) / 4.0l.05-a) / 4.01.06-b) / 4.01.07-b) / 4.01.0S-b)/ 4.01.09-b) /4.01.10-b)
211
Banco de pruebas
4.3. Química (pereda y Soler, 1994) OBJETIVO (44) CAPACIDAD: CONTENIDO:
Aplicación. Electroquímica.
Electrolisis.
DISEÑO (1): Se pide la aplicación de los principios de la electrolisis a casos concretos llegando a deducciones cuantitativas. PRUEBA a.44.01.01 Tres cubas electrolíticas
idénticas
contienen
disoluciones
acuosas
diluidas de
igual concentración de HC1, HZS04 y Hl04. Si se hace pasar la misma cantidad de electricidad, ¿en cuál de ellas se recogerá más volumen de hidrógeno en c.n.? a)
HCl
b) c) d)
HZS04
Hl04 Igual en las tres
PRUEBA a.44.01.02 En la figura se observan dos cubas electrolíticas idénticas con sendas sales: NiClz y NiC13, fundidas. Con estos datos, ¿qué se puede afirmar sobre los depósitos en cada una? a) b) c) d)
Se deposita la misma masa de níquel en ambas. Se deposita el mismo número de equivalentes de níquel en ambas.
+ +
+
NiCI2
Se deposita más masa de níquel en la de NiC13. Se precisa conocer la carga que circula para determinar cias.
NiCls
si hay diferen-
PRUEBA a.44.01.03 En la electrolisis de una sal de oro desconocida, se obtuvieron 3,09 g de oro haciendo pasar 4.550 C. ¿Cuál es el eq-g del ión oro en dicha sal? Dato: 1 F
= 96.500 C
a)
49,25 g
b) c)
65,66 g 98,5 g
d)
197g
212
La evaluación
de aprendizajes
PRUEBAa.44.01.04 En la electrolisis controlada de AuCl3 se desprende Clz en un electrodo deposita Au en el otro. Indicar cuántos moles de electrones se necesitan que se deposite 1 mol de Au y en qué electrodo tendrá lugar ese depósito. a) b) c) d)
y se para
3 moles en el cátodo. 3 moles en el ánodo. 1 mol en el cátodo. 1 mol en el ánodo.
PRUEBA a.44.01.05 Sabiendo que EONi2+/Ni = -0,25 v y EOclz/cl = -1,36 v, ¿qué potencial mínimo se requiere para electrolizar una disolución acuosa de NiClz en condiciones estándar? a) b) c) d)
0'11 v 1,61 v 2,22 v 2,51 v
Diagnóstico: 44.01.01-d) / 44.01.02-b) / 44.01.03-b) /44.01.04-a) /44.01.05-b)
213
Banco de pruebas
4.4. Biología (Bárcena, llana y Olaizola, 1994) OBJETIVO (6): CAPACIDAD: CONTENIDO:
Describir la morfología de la célula y la fisiología de sus orgánulos. Comprensión. Morfología y fisiología celular.
DISEÑO (1): Se pregunta res y sus funciones.
sobre la relación entre distintas estructuras
celula-
PRUEBA c.06.01.01 ¿Cuál es el camino correcto que ha de seguir una proteína ribosoma para llegar al interior de una vacuola digestiva? a) b) c) d)
sintetizada
Ribosoma, hialoplasma, lisosomas y vacuola. Ribosoma, hialoplasma, mitocondria y vacuola. Ribosoma, retículo endoplasmático rugoso, retículo endoplasmático liso, aparato de Golgi, lisosoma y vacuola. Ribosoma, reticulo endoplasmático liso, lisosoma, aparto de Golgi y vacuola.
PRUEBA c.06.01.02 me qué tipo de células es propia una pared celular cutinizada? a) b) c) d)
Todas las células animales. Célula vegetal adaptada a un medio seco. Célula vegetal adaptada a medio húmedo. Célula vegetal de tejidos conductores como el xilema.
PRUEBA c.06.01.03 Una célula vegetal se caracteriza por: a) b) c) d)
por un
Tener pared celular de celulosa y cloroplastos. Presencia de membrana plasmática y ausencia de pared celular. Ausencia de pared celular y gran abundancia de mitocondrias. Presentar su ADN disperso por el protoplasma.
Diagnóstico: 6.01.01-c) / 6.01.02-b) /6.01.03-a)
214
La evaluación
de aprendizajes
4.5. Geología (Bárcena, Dona y Olaizola, 1994) OBJETIVO (4): CAPACIDAD: CONTENIDO:
Describir los procesos de la Tectónica Global. Comprensión. Laestructura de la corteza terrestre y la tectónica de placas.
DISEÑO (1): Se proponen varias definiciones y/o características y se pide que se relacionen con el nombre que reciben. PRUEBA c.04.01.01
¿Cómo se define una dorsal medio-oceánica? a) b) c) d)
Grandes cordilleras marinas de plegamiento. Acumulaciones de lava basáltica con claras anomalías térmicas positivas. Geosinclinales en los que se están produciendo el plegamiento de rocas sedimentarias. Fosas submarinas en las que la corteza oceánica subduce.
PRUEBA c.04.01.02
¿Cómo se define una placa litosférica? a) b) c) d)
Fragmento de la corteza en forma de casquete esférico. Fragmento de litosfera limitado por fallas transformantes. Una estructura en forma de casquete esférico cuyo límite inferior es la astenosfera. Una porción de la corteza oceánica en movimiento.
Diagnóstico: 4.01.01-b) /4.01.02-c)
Banco de pruebas
215
4.6. Filosofía (Ordóñez, 1996) OBJETIVO (4) CAPACIDAD: CONTENIDO:
Aplicación. Convencionalismo
de los sofistas.
DISEÑO (1): Resolver una serie de casos relacionados convencionalismo político y ético.
con el concepto
de
PRUEBA a.04.01.01 Según el convencionalismo a) b) c) d)
político, ¿cuál es el origen de las leyes políticas?
La convención de las voluntades de los dioses. El acuerdo social de la mayoría. Las leyes dadas por e! acuerdo de los fundadores El Logos o Razón Universal.
de la polis.
PRUEBA a.04.01.02
«Pero, según yo creo, la naturaleza misma demuestra que esjusto que elfuerte tenga más que el débil». Los valores morales, como la justicia, se fundamentan según los sofistas en la: a) b) c) d)
Voluntad del más fuerte o en la voluntad de la mayoría. Astucia de los dioses, que son más fuertes que los humanos. Conciencia de cada superhombre. Imposición de las tradiciones populares de las culturas dominantes.
PRUEBA a.04.0l.03
«Si cualquier hombre criado en sociedad, nos dice el sofista, se encontrase con hombres en estado natural, añoraría la presencia de Euribatos y Frinondas -dos ejemplos de hombres malvados-». Según Protágoras, y atendiendo al anterior texto: a) b) c)
El hombre es social por naturaleza, como dice Aristóteles. La educación es necesaria para transformar a un hombre en ser social. La educación no consiste en transformar las opiniones inconvenientes en convenientes.
d)
La educación cosas.
no tiene sentido
si el hombre
es medida
de todas las
PRUEBA a.04.01.04 El bien y la verdad en e! plano ético dependen del mayor o menor grado de placer que nos proporcionan y del poder establecido. El resto de las normas morales son: a) b)
Consecuencia de! temor a los dioses, impuesto por la religión. Una guía para aceptar la muerte y el dominio del poderoso.
216
La evaluación
c) d)
de aprendizajes
Una imposición de los usos y costumbres sociales del pueblo conquistador. El resultado de un acuerdo, y posiblemente antinaturales.
PRUEBA a.04.01.05
La admisión por los sofistas de la convencionalidad de las leyes políticas estaba suponiendo la existencia de unos valores muy propios de la cultura occidental. ¿Cuáles eran? a) b) c) d)
El progresismo en las legislaciones y en los pueblos. El acceso a la lectura y escritura. El régimen democrático y de libertades. La existencia del derecho y de la magistratura.
PRUEBA a.04.01.06
«En el fondo no tenéis idea de los valores del hombre, y por eso no sois conductores sino seductores», decía Platón de los sofistas. Según esta crítica, el requisito de acuerdo de la mayoría, ¿es suficiente para que algo se convierta en ley? a) b) c)
d)
Sí, porque los acuerdos de la mayoría marcan el bien común. No, porque los acuerdos pueden estar equivocados. Sí, porque eso es lo que se requiere para que algo sea ley No, porque aparte de los acuerdos, se requiere que la ley sea justa.
Diagnóstico: 4.01.01-b) / 4.01.02-a) / 4.01.03-b) / 4.01.04-d) / 4.01.05-c) / 4.01.06-d)
NOI)lf)I:lI'lf) -11 NOI)lf)n051 N5I"0105l1l\lln .1 .1
Después de haber estudiado el primer elemento de la evaluación y, a su vez, de la medida, es decir, la recogida de datos con un estudio pormenorizado de los distintos instrumentos para recoger dichos datos, abordamos ahora el segundo, la valoración, codificada generalmente en una calificación. Como ya hemos subrayado, la recogida de información es condición indispensable para llegar a conocer el estado de los alumnos en un momento dado; sin ella la evaluación queda en mera «opinión» del profesor. Si bien en la práctica docente se valoran los datos conforme se van recogiendo durante la corrección de pruebas -se califica al corregir-, conviene tener en cuenta que el mero resultado de dicha información, aunque sea numérico, no tiene significado por sí mismo, no es aún una calificación; cuyo significado se deriva no del carácter cuantitativo de tales datos, sino del valor que se les asigna en un contexto académico. Así, por ejemplo, 5 problemas o 50 pruebas objetivas bien resueltos de un total de 10 problemas o 100 pruebas, respectivamente, son resultados numéricos sin significado inherente; hay que valorados para convertir el 5 y el 50 en calificación de suspenso o aprobado. En conclusión, la calificación es un juicio de valor en el que se comparan los datos obtenidos en la recogida de información, que reflejan el «cómo es» de lo que se va a evaluar, con unos determinados parámetros de referencia, que indican el «cómo debería ser» (Zabalza, 1989); es decir, los criterios con que se van a comparar los datos obtenidos. Elegir esta base de referencia, llamada a veces «normotipo», parece algo inocuo e intrascendente; sin embargo, es una decisión fundamental en la tarea de todo profesor y conlleva consecuencias significativas, por lo que es importante entender las diferencias de los procedimientos para corregir pruebas que se presten a un tipo de valoración más que a otro, y que cualquiera de éstos comporta virtualidades y riesgos. Aunque son varias las formas para llegar a la valoración de datos, se suelen citar dos: valoración «normativa» y «criterial»; si bien sucesivas matizaciones en ambos casos pueden dar pie a una lista más amplia de «normotipos» (Hills, 1981). Se oye con frecuencia que las buenas pruebas se construyen para hacer un solo tipo de valoración: si el estándar por el que se opta es el absoluto, los ins-
220
La evaluación
de aprendizajes
trumentos de evaluación deben servir para una interpretación «criterial»; si el relativo, para una «normativa». En la práctica docente se suelen llevar a cabo ambas de forma espontánea, haciendo matizaciones normativas a las valoraciones criteriales. 1. Valoración «normativa» (entre los muchos autores que la tratan se pueden citar: Ebel y Frisbie, 1977; Rodríguez Diéguez, 1980; Zabalza, 1989): Cuando referimos los resultados a otros individuos para obtener un significado, estamos haciendo una valoración «normativa» o relativa. Otros autores hablan de «normotipo estadístico,>. El término quiere decir «normal», que tiene una connotación de típico, usual o promedio. Así, la valoración «normativa» supone comparar los resultados de una persona con su grupo de referencia: ¿está por encima o por debajo, un poco o muy por encima? Por ejemplo, si para interpretar las puntuaciones de un alumno, comparamos el rendimiento del mismo con el rendimiento de los otros, estamos haciendo una valoración «normativa». Ésta se basa, pues, en unos criterios relativos que discriminan a los sujetos de acuerdo con una distribución de resultados de todos los que han realizado la prueba. Las pruebas construidas para hacer este tipo de valoración se conocen con el nombre de «pruebas normativas», y su aplicación más frecuente es la ordenación de personas en concursos, oposiciones, etc. Aquilatando un poco más, a veces se llama valoración propiamente «normativa» a la que se hace entre individuos y grupos, y de «tratamiento» a la que se hace entre grupos. Es obvio que la calificación obtenida mediante una valoración «normativa» depende mucho de la naturaleza del grupo con el que se compara. Una persona puede pertenecer a la vez a varios grupos y, consiguientemente, su situación relativa puede variar de un grupo a otro: alumnos con una actuación satisfactoria podrían fracasar en un grupo brillante; por el contrario, un grupo de malos alumnos podría permitir el éxito de incompetentes. Mediante una valoración «normativa», los alumnos quedarán siempre clasificados en dos grupos: los admitidos y los excluidos; sin la seguridad de que los admitidos sean, además, competentes. Las calificaciones en todos los sistemas se suelen codificar en diez números o cinco letras para expresar varios niveles de logro; en éste, el código 10/NSB indica actuación excelente; 7/B/N, más que media; 5/C/S, media; 4/D1I, por debajo de la media o insuficiente; y O/E/MD,logros muy deficientes. En las calificaciones conseguidas por este método, suelen ser pocos los que queden en el límite de poder recibir una nota más alta; en este caso, los profesores reciben menos quejas y peticiones de los alumnos para revisar exámenes en busca de algún punto extra con que subir de 4 a 5 o de 5 a 7. Si la distribución de resultados es muy dispersa, probablemente se obtendrán calificaciones similares por cualquier método de calificación relativa; sin embargo, cuando los resultados están más concentrados, puede ser injusto para algunos alumnos, dado que con una leve revisión podrían mejorar sus
La medida en educación.
11.
Calificación
calificaciones. Por ello, este método de calificar no es aconsejable en situaciones académicas. Por otra parte, este tipo de calificación se complica por la necesidad de establecer cuotas arbitrarias para cada categoría. Las cuotas pueden asignarse mediante «cortes» hechos en una lista de alumnos ordenados por sus resultados: hasta el primero se califican con SB, hasta el segundo con N, y así hasta MD. La principal falacia de este sistema es que no es fácil que exista un criterio objetivo que permita 'delimitar la extensión y decidir la localización de los «cortes». ¿Qué proporción de notas deben ser SB, N, S, etc.? En toda valoración «normativa» hay siempre implícito algún tipo de criterio que se relativiza en la comparación con el grupo. Una dificultad añadida es el hecho de que alumnos con logros semejantes queden con calificaciones distintas en virtud del criterio de «corte» utilizado. Un modo de asignar cuotas de calificación relativa es mediante la desviación típica, que permite determinar «cortes» según la proporción de alumnos que queramos obtenga las distintas calificaciones de 5B, N, 5, lo MD. Para determinar los sitios de «corte» a partir de la desviación típica, un criterio puede ser el siguiente (Ebel y Frisbie, 1977): • Para la calificación S (actuación media), se suma y se resta a la media la mitad de la desviación típica. Se obtiene así el intervalo para la calificación S. • Para determinar la calificación que separa las notas SBy N, se suma la desviación típica al extremo superior del intervalo de las notas 5. • Para el «corte» de las notas I-MD, se resta la misma cantidad del extremo inferior de las S. • Finalmente, conviene revisar al alza o a la baja los casos que caen en los límites (casos «frontera»), teniendo en cuenta el número de pruebas realizadas, la calidad de las puntuaciones o algún otro dato relevante de los logros. Si el número de alumnos fuese lo suficientemente elevado para poder suponer que la distribución de las calificaciones es «normal», este método nos daría los siguientes porcentajes: 38,3% para los 5, 24,1% para los N e 1y 6,7% para los 5ByMD. La tabla de la página siguiente recoge un ejemplo de las puntuaciones de los 40 alumnos de una clase de Historia del Arte:
221
222
La evaluación
de aprendizajes
4 2 3 9 8 5 Lx¡f¡ 40 20 32 54 27 21 12 2 4 = Lx¡2f¡ 324 256 243 200 147 36 2 80 = 1296 8 212
1
1° Se calcula la media de todas las puntuaciones: x:
=
LX. f;. 212 1 = -= 5,3
N
40
2° Se calcula la desviación típica:
(j-~~
~~f;.
_ x:2
= ~ 11296 _ (5, 40
3)2
= 2, 07
. d d e d'1C h a d eSVIaClon .. , tlpIca: ,. 2, °7 = 1,03 Y1a mIta --
2
3° Para determinar los sitios de «corte»: • Intervalo de calificaciones S: (S,3 - 1,03 , S,3+ 1,03) = (4,27, 6,33). Observamos que hay 17 alumnos con puntuaciones en este intervalo (S a 6), que representan el 42,S% de los 40 alumnos. • «Corte» de las calificaciones SB-N: (6,33 + 2,07 = 8,4). Serán calificados con N los alumnos cuyas puntuaciones estén en el intervalo (6,33,8,4), y con SBlos que tengan más que 8,4. Observamos que hay 7 alumnos con N (los de 7 y 8), que representan el 17,S%;y 3 alumnos con SB (los de 9), que representan eI7,S%. • «Corte» de las calificaciones I-MD: (4,27 - 2,07
= 2,2).
Serán calificados con I los alumnos cuyas notas estén en el intervalo (2,2, 4,27), y con MD los que tengan menos de 2,2. Hay 9 alumnos con I (los de 3 y 4), que representan el 22,5%; Y4 con MD (los de 1 y 2), que representan el 10%.
La medida en educación.
II. Calificación
En resumen: SE: 7,5% (3) N: 17,5% (7) S: 42,5% (17) 1:22,5% (9) MD: 10% (4)
Obsérvese que los porcentajes son parecidos a los que obtendríamos si la distribución fuese «normal» con un número suficiente de alumnos. 2. Valoración «criterial» (entre los muchos autores que la tratan se pueden citar: Ebel y Frisbie, 1977; Rodríguez Diéguez, 1980; Zabalza, 1989): Se basa en unos criterios absolutos que permitan valorar la competencia de una persona. Fue Glaser (1963) quien usó por primera vez el término para destacar la necesidad de pruebas que puedan describir la posición del aprendiz respecto de un programa y no de un grupo. Se realiza una valoración «criterial» cuando la comparación se establece en relación a un marco de referencia externo de estándares absolutos, el cual determina los requisitos qúe ha de reunir lo evaluado (aprendizajes, instituciones, etc.). Obviamente, en la evaluación de aprendizajes estas referencias son los objetivos. Este tipo de valoración permite evaluar la actuación de una persona según un nivel determinado para, sin tener que comparada con otras, establecer si posee competencia en una tarea dada. Es posible, por tanto, declarar aptos a todos los alumnos; y también, teóricamente, suspender a todos. Así pues, de acuerdo con varias gradaciones, y en un sentido absoluto, la calificación encierra un significado de lo que la persona puede hacer. Después de 40 años, el término «criterio» sigue siendo confuso, en parte debido a que se usa con diferentes significados; por lo que algunos autores sugieren que se utilicen otras expresiones, como la valoración de «dominio» de una muestra o de cada uno de los objetivos de aprendizaje. Se habla, así, de «dominio de un repertorio de objetivos» cuando las preguntas de un examen se refieren a todos y cada uno de esos objetivos fijados de antemano; y de «dominio de una muestra» para describir valoraciones absolutas de exámenes que sólo representan algunos de los objetivos programados. En este segundo caso, la valoración ha de centrarse en la proporción de objetivos conseguidos, aunque se deben extrapolar deducciones sobre los objetivos no recogidos en la muestra. De todas maneras, no es fácil determinar la muestra de un «dominio», especialmente en ciencias sociales, más que en las experimentales y Matemáticas. En suma, cuando se habla de «dominio», se hace referencia a una valoración «criterial» que se aplica bien cuando el examen refleja todos los objetivos, bien cuando sólo aparece una muestra. Es la valoración más frecuente en situaciones académicas, aunque a menudo viene matizada por la valoración «normativa»: los
223
224
La evaluación
de aprendizajes
estándares absolutos se suelen modificar más o menos explícitamente según la calidad del grupo, tal como se indicó anteriormente. En general los profesores, por razones teóricas, prefieren estas calificaciones absolutas a las relativas; sin embargo, encuentran difícil, y en algunos casos arbitraria, la tarea de establecer estándares. Para hacer valoraciones absolutas, se proponen dos métodos:
a) Porcentajes: El primero consiste en otorgar las calificaciones según los porcentajes de objetivos que domina el alumno. Así, una calificación de 80% significa que se domina el 80% de los objetivos de aprendizaje pedidos en la prueba. Generalmente, los porcentajes se convierten más tarde en notas numéricas o literales al compararlos con los estándares establecidos por el profesor. Por ejemplo, a los alumnos con calificaciones entre el 95 y 100% se les da un SE; entre el 85 y 94%, un N; entre el 75 Yel 84%, un S; y así sucesivamente. La restricción, más que en el número de alumnos elegibles para recibir cada una de las posibles notas, se encuentra aquí en el rango de las calificaciones; por lo que una primera dificultad, semejante a la citada al hablar de la valoración «normativa», viene dada por las razones para determinar el intervalo de cada nota: ¿por qué para los SE se decide el 95, en vez del 90 o el100%? Otra gran dificultad es la costumbre de usar porcentajes fijos en el tiempo. No parece lógico que permanezcan constantes a lo largo de todo un curso, es más defendible establecer porcentajes variables; por ejemplo, que el rango de los SE sea 95-100% para el primer trimestre, 88-100% para el segundo, 85-100% para el tercero y 90-100% para el examen final. Una tercera dificultad de las calificaciones porcentuales es la situación que se crea cuando la mejor nota de un examen es excesivamente baja, por ejemplo 68%. En este caso, algunos profesores no se complican la vida con preguntas tales como ¿era el examen demasiado difícil?, ¿estudiaron poco los alumnos?, ¿no se enseñó bien?, e introducen directamente ajustes sustituyendo la calificación perfecta, 100%, por la más alta conseguida, el 68%. Aunque este reajuste sirva de alivio a los afectados, se establece así un nuevo dominio con una serie de interrogantes: ¿cómo se puede definir este nuevo dominio?, ¿qué interpretación útil se puede hacer de las nuevas calificaciones?
b) Objetivos: Un segundo método de calificación absoluta es el basado en la relación entre el número y dificultad de las cuestiones de una prueba y los objetivos programados. Este método depende de los juicios del profesor para establecer el tipo y la cantidad de conocimiento que los alumnos deben demostrar para conseguir cada nota. Entraña los siguientes pasos: En primer lugar, el profesor ha de describir, preferiblemente por escrito, los objetivos que debe haber alcanzado el alumno para «pasar por los pelos» y asignarle la calificación de aprobado mínimo o S, para obtener una nota de N, de SE, etc.
La medida en educación.
11.
Calificación
Con las descripciones en la mano, el profesor lee el primer ítem de la prueba y decide si un alumno con sólo el mínimo de logro debe ser capaz de responded o correctamente. Si es así, se registra una S; en caso contrario, la pregunta se califica como de nivel superior, N o en su caso SB; y se aplica el mismo procedimiento al ítem 2, 3, etc. El proceso continúa hasta clasificar todos los ítems. La cuota estimada para un S se determina sumando el número de símbolos S que se escribieron junto a los ítems. Supongamos que en este caso resulte 29. A continuación se suman los símbolos N, a los que se añade 29 para obtener la calificación corte para una actuación de N. Y así hasta que se haya determinado una calificación de corte para cada nota. En resumen, podría resultar: SB = 48-50 N = 40-47 S = 29-3'9
1 = 17-28 MD
= 0-16
La clave final se puede obtener ajustando 2 o 4 puntos hacia abajo las cuotas estimadas, según la longitud de la prueba. Este ajuste pretende corregir, en favor del alumno, el posible error de que nuestras estimaciones no sean fiables. Así, con un ajuste de 2 puntos, los resultados para obtener desde 1 a SB en nuestro ejemplo son, respectivamente, 15, 27,38 y 46. En el caso de preguntas abiertas o problemas científico-matemáticos, pruebas que no se puntúan con 1/0, sino que admiten una gradación de puntos, este extremo ha de tenerse en cuenta a la hora de clasificados con S, N, SB, etc., y decidir el mínimo número de puntos que debe conseguir un alumno en cada nota. Este método, sin embargo, tiene también sus limitaciones. A veces resulta difícil que profesores de una misma materia y de un mismo curso se pongan de acuerdo sobre los conocimientos que se deben mostrar en cada lugar de la escala de notas y, por consiguiente, en la clasificación de los ítems. No obstante, se puede llegar a consensos aceptables si los profesores están dispuestos a definir la actuación están dar por escrito y si son capaces de proporcionar unas razones defendibles para sus juicios clasificatorios (Terwilliger, 1989).
3. Calificación por referencia al propio alumno (Rodríguez Diéguez, 1980; Zabalza, 1989): Si la valoración se realiza desde la perspectiva de la evolución del mismo sujeto, se habla a veces de calificación por diferencia o «normotipo individualizado»: se valoran las ganancias que el alumno ha manifestado a partir de una determinada línea base (LB). Algunos profesores consideran esto más justo, sobre todo en el caso de alumnos con necesidades educativas especiales (n.e.e.) en etapas de educación
225
226
La evaluación
de aprendizajes
obligatoria (Álvarez y Soler, 1998; Álvarez, González-Pienda, Núñez y Soler, 1999). Para estimar esa cantidad de cambio y crecimiento, se utilizan pruebas antes y después de la intervención. Sin embargo, son pocas las pruebas escolares lo suficientemente buenas como para ofrecer medidas fiables de ganancias a corto plazo en los logros individuales de alumnos. Además de la fiabilidad, hay otros problemas con las medidas del crecimiento. Por una parte, para la mayoría de los fmes educativos, es más útil el conocimiento del nivel de un alumno en relación con un programa o con el de sus compañeros, que el saber si ese alumno ha cambiado más o menos rápidamente que los otros a lo largo de un período de entrenamiento; por otra, los alumnos con capacidad medio-alta, cuando saben que la calificaciónse obtiene mediante el grado de crecimiento, aprenden de inmediato que sus calificaciones en el pretest deben ser lo más bajas posible para permitirles mayor ganancia.
4. Calificación por contrato: Supone un acuerdo entre profesor y alumno en el que se especifican los logros que éste debe alcanzar y qué nota se le asignará si los consigue. Taylor (1980), que revisó más de cien informes en los que se describe la calificación por contrato, concluye que ésta, aunque se presenta de múltiples formas, hasta el extremo de que cada maestro inventa su propio sistema, tiene un sitio permanente entre los métodos para asignar notas. Este tipo de calificación se adapta mejor a alumnos con buen nivel intelectual y con motivación de logro. Por otro lado, es más eficaz con clases pequeñas y programas flexibles, en los que los alumnos tienen la opción de seguir intereses individuales. En todo caso, el contrato ha de redactarse siempre por escrito, para que no haya ningún malentendido sobre lo que se debe hacer, cómo, cuándo y por quién. 5. Valoración de «nivel mínimo»: Exige señalar un nivel mínimo, aunque, según el método empleado para fijado, implícitamente se esté usando una «norma» relativa o un «criterio» absoluto. Un ejemplo sería proponer una prueba para determinar qué alumnos podrían seguir con aprovechamiento un curso de álgebra: si se selecciona el 20% mejor (16 de una clase de 80), se está utilizando una «norma»; si, en cambio, se seleccionan todos los alumnos que hayan alcanzado unos determinados objetivos, se recurre a un «criterio de dominio». Ejemplos de «nivel mínimo» podrían ser los siguientes: Se requiere una media de 6,5 para entrar en Medicina; los que saquen más de 8,5 de media no necesitan ir al examen final. Un caso extremo de esta valoración es la calificación determinada por el resultado mínimo; así, si los resultados parciales fueron [5, 6, 7 Y8], la calificación es 5. Hasta aquí un breve estudio de la «medida» en educación, con sus dos dimensiones de recogida de datos y su valoración, imprescindibles para abordar con cierta garantía el tercer elemento, y más complejo, la toma de decisiones, que estudiaremos a continuación.
v AIJ.V)n051 V1 N5I NOI)Vn'VA5I .1 S5INOISI)5IO 510 VIlUOJ.
La toma de decisiones es algo que está presente en todo momento a lo largo del proceso de instrucción. Sin embargo, aquí nos centramos fundamentalmente en su estudio como tercer elemento esencial de toda evaluación y que sigue al juicio de valor sobre los resultados codificado en la calificación, de acuerdo con la definición de evaluación por la que hemos optado (cap. 2). Una decisión se define como una elección entre distintas acciones posibles, lo que supone disponer de alternativas para poder elegir la más adecuada de acuerdo con algún criterio. Tal elección viene casi siempre acompañada de determinadas circunstancias de conflicto, incertidumbre y, en definitiva, de riesgo; lo que ha de hacer reflexionar al que la toma sobre la transcendencia que puedan tener sus consecuencias. A esto hay que añadir que podemos no conocer todas las alternativas, que no estén en todo momento a nuestro alcance o que, en fin, no siempre exista un único criterio. Por otro lado, la verdad es que no siempre se busca «lo mejor», quizá por aquello de que «lo mejor es enemigo de lo bueno». Una decisión, también las educativas, la puede tomar una persona, como en estos momentos es el caso del profesor único en la Educación Primaria y la Enseñanza Universitaria, o un grupo, como es el caso de las Juntas de Evaluación exigidas por el ordenamiento legal para la Educación Secundaria. En las páginas siguientes nos proponemos estudiar la problemática de la toma de decisiones grupal, aunque también se tratará la individual, en el contexto educativo, a través de los siguientes apartados: clases de decisiones, enfoque racional del proceso y herramientas de formulación y selección de alternativas, para terminar con algunas sugerencias sobre un proceso práctico aplicable a lasJuntas de Evaluación.
CLASES DE DECISIONES En los procesos de evaluación se manejan distintas decisiones, cada una de las cuales tiene sus peculiaridades. Simplificando el análisis, se podría afirmar que existen dos clases de decisiones: las selectivas y las modificativas.
1.
230
La evaluación
de aprendizajes
1. Decisiones selectivas: Las decisiones selectivas están relacionadas con las funciones atribuidas a una evaluación sumativa (cap. 15). En muchos casos son irreversibles, por lo que se ha de procurar una especial precaución y prudencia para que su adopción ofrezca las máximas garantías de justicia, adecuación y objetividad. Se suelen considerar como decisiones selectivas, entre otras, las siguientes: a) Promoción: Tal decisión es la consecuencia de una integración de juicios o calificaciones parciales. En general no sólo se decide quiénes promocionan, también se establecen diferencias de calidad entre los que promocionan. b) Concesión de premios: Tienen este carácter las matrículas de honor, los premios final de carrera, la selección de candidatos para determinados eventos como olimpiadas de Matemáticas o Física, etc. c) Repetición: La repetición de un curso o asignatura suele ser una decisión conflictiva para quienes la toman y para quienes la sufren. De ahí la importancia de acompañada de un informe, haciendo ver al alumno el riesgo de fracaso futuro si se le promocionase; así como de un plan de acción para que no se vuelvan a repetir las mismas deficiencias.
2. Decisiones modificativas: Las decisiones modificativas están relacionadas con la evaluación formativa (cap. 15), ya que tienen en cuenta el rendimiento del alumno para determinar unas actividades de recuperación, preferentemente individualizadas, condicionadas e inspiradas por una simple orientación, o por una modificación diversificadora en la programación o en la metodología. Estas decisiones pueden ser ejecutivas o consultivas (Barbier, 1990).
2.1. Ejecutivas: Son aquellas en las que se asume la responsabilidad de llevadas a la práctica por medio de un plan de intervención y seguimiento (Álvarez et al., 1999). Las decisiones ejecutivas pueden referirse a diversos ámbitos: a) Decisiones metodológicas: Mectan directamente al alumno, pero van más allá del veredicto tradicional que se limitaba a discriminar entre alumnos que «valen» y «no valen». Se pueden citar, entre otras, las siguientes: D~cisiones-pronóstico: Teniendo en cuenta los conocimientos del alumno, su capacidad de trabajo y otras aptitudes, se pronostica sobre posibilidades futuras; lo que se utiliza para diseñar y recomendar un plan educativo adecuado. Decisiones de orientación: Determinan ayudas para desarrollar las aptitudes innatas de los alumnos, incrementar sus hábitos de estudio y, en definitiva, obtener resultados satisfactorios (G. Vidal y G. Manjón, 1992). Decisiones de modificación de conducta: Complementan las decisiones de orientación y pretenden potenciar o eliminar determinados comportamientos. Entre las conductas que han de ser potenciadas están el aumento de atención, el hábito de concentración, etc.; entre las que hay
Toma de decisiones en la evaluación
educativa
que eliminar están la falta de disciplina, la asistencia incontrolada, la pasividad en el aula, etc. Decisiones didácticas: Pretenden promover la construcción personal de conocimientos significativos mediante asimilación receptora o mediante aprendizaje por descubrimiento, tomar en consideración los conocimientos previos del alumno, adecuar la enseñanza a los estadios mentales del alumno, combinar la práctica con la teoría, etc. Decisiones motivacionales: Buscan incrementar el interés y la satisfacción de los alumnos en el aprendizaje. Son decisiones didácticas que se suelen tratar aparte por su importancia. Por ejemplo, mostrar la utilidad que tienen las tareas que se van a realizar, favorecer que el alumno opte por ejercitar las estrategias de aprendizaje que le sean más apropiadas, explicitar la formulación de objetivos, los instrumentos de evaluación y los criterios de calificación. Decisiones asignativas: Se encarga a una persona una función o cometido. b) Decisiones institucionales: Las decisiones institucionales son aquellas que se toman teniendo en cuenta el conjunto de una institución, antes que los valores y necesidades particulares del individuo. Suelen ser procedimentales porque intentan modificar modos de actuar, tales como: Proceso de evaluación: Las funciones de la evaluación, los instrumentos de recogida de información, la temporalización de los exámenes. Dinámica de las reuniones: Técnicas de análisis de las deficiencias y problemas individuales y grupales; herramientas de elección de soluciones a dichos problemas; distribución de responsabilidades del Tutor, delJefe de Estudios, de los profesores. Sistemas de control y seguimiento de las decisiones. 2.2. Consultivas: La evaluación educativa termina muchas veces con decisiones no ejecutivas. Ocurre esto cuando las soluciones que pueden subsanar los malos resultados rebasan la responsabilidad del que las toma. Es entonces cuando aparecen las llamadas decisiones modificativas de' propuesta o sencillamente consultivas. La decisión se limita a la elaboración de un informe dirigido al órgano competente con capacidad para ejecutadas para que estime y adopte la puesta en práctica de lo que se le propone. Otras, por el contrario, dan lugar a la petición de datos que sirvan de apoyo a los evaluadores; tal es el caso de los que se piden a equipos de orientación, tutores, padres, etc. Son decisiones de este estilo las relativas al: a) Alumno: Reglamento Interno, faltas de asistencia, condiciones materiales y organizativas, masificación, tratamiento de la diversidad, etc. b) Profesor: La especialización y perfeccionamiento didáctico, el profesorado de apoyo y sustitución, la formación del profesorado, etc.
231
232
La evaluación de aprendizajes
c) Proyecto curricular de centro: Estrategias especiales para conseguir objetivos difíciles o subsanar lagunas por la falta de coordinación con los cursos anteriores. d) Organización: Horario, equipo psicopedagógico, intervención de la Jefatura de Estudios, etc.
2.
EL ENFOQUE RACIONAL DE TOMA DE DECISIONES Conviene recordar que las decisiones educativas las puede tomar una persona o un grupo. En todo caso, es difícil hacer buenas tomas de decisiones, y más cuando las circunstancias de riesgo o incertidumbre son acusadas o cuando, fiándose de la propia experiencia y capacidad, se resuelven de manera intuitiva. Los resultados, en cambio, suelen ser más eficaces y la probabilidad de acierto mayor, sobre todo en el caso de la toma de decisiones grupal, cuando se tienen en cuenta unas reglas inspiradas en teorías psicológicas y prácticas empresariales. Estas reglas se materializan en el enfoque de toma de decisiones racional, que Zerilli (1978: 103) define del siguiente modo: La decisión es un proceso racional continuo mediante el cual partiendo de ciertos datos y efectuando un análisis y valoración sobre la conveniencia y las consecuencias de las soluciones alternativas posibles, respecto a un determinado objetivo, se llega a efectuar la elección final. Este enfoque expresa siempre una sistematización y en muchos casos refleja también un proceder espontáneo real que, aunque aparentemente resulte artificial y tedioso a los profesores nuevos, llega a automatizarse de una manera natural en profesores habituados. El enfoque racional de los procesos de evaluación educativa viene marcado preferentemente por un carácter grupal, ya que son grupos de docentes los que toman las deCisiones en los Departamentos, Seminarios, Claustros y Juntas de Evaluación. Existen múltiples razones que justifican muy positivamente este extremo (Huber, 1984): Los grupos suelen tener más información y mayor capacidad para usada correctamente que la que puede atribuirse a una persona. La aceptación de una decisión tiende a ser más completa cuando se ha intervenido en el proceso de tomada. A todo esto hay que añadir la ventaja que tiene para la institución la experiencia que sus miembros adquieren con esa participación grupal en la toma de decisiones. Por el contrario, una de las desventajas que más afecta a las decisiones grupales es el consumo de mucho tiempo y el desánimo que esto inspira.
Toma de decisiones en la evaluación
educativa
El enfoque racional se presenta estructurado en las siguientes tres fases: 1a Fase: Problema: Una toma de decisiones es una consecuencia de la aparición de un problema que hay que resolver; por ejemplo, un suspenso o rendimiento insatisfactorio de! alumno. Es obvio que sin e! acuerdo de que existe un problema no puede abordarse su solución. Pero no son tan obvias las dificultades añadidas, a causa de que la perspectiva del problema sea diferente desde el punto de vista de cada miembro de! grupo. De ahí que una reunión puede resultar ineficaz si en el grupo no existe la comunicación debida para llegar a compromisos comunes. Esta comunicación, como elemento previo e imprescindible al análisis del problema, se facilita cuando el grupo está jerarquizado, y adopta una dinámica en las intervenciones yen los procedimientos. Así, por ejemplo, en las Juntas de Evaluación, el tutor puede anunciar el tema, el tiempo que se le asignará y e! orden de intervenciones; el Jefe de Estudios puede actuar de secretario tomando nota y resumiendo las decisiones tomadas. Supuesta esta dinámica, para llegar a una buena decisión es preciso analizar el problema, lo que podrá realizarse a través de los siguientes tres pasos dependientes y complementarios:
1. Detección del problema: El primer paso consiste en detectar e! problema, es decir, en darse cuenta de que una situación determinada constituye un conflicto que ha de resolverse. En la práctica educativa el problema aparece, con cierta facilidad, en los resultados insatisfactorios de los alumnos. 2. Recopilación de datos: El segundo paso en este análisis consiste en recopilar datos que ayuden a definir la situación problemática. Se trata de identificar los factores clave que la delimitan. 3. Objetivo: El último paso de esta fase es traducir el problema a objetivo en términos de resultado deseado. 2a
Fase: Soluciones: En esta fase se distinguen también tres pasos comple-
mentarios.
1. Causas: Esta segunda fase empieza con la investigación de las causas: se pretende establecer una relación entre e! problema suscitado y sus posibles causas. Suele ser lo más difícil y lo que puede invalidar todo e! proceso. En algunas-ocasiones, se encontrará una única causa; en otras, una combinación de dos o más. En general, el profesor se pregunta por las posibles causas de una calificación negativa: mala preparación, poco tiempo de estudio, escasa atención, deficiencias en la enseñanza, deficiencias en las técnicas de estudio, etc. Ayuda a encontrar causas la atribución de variables a distintas dimensiones; lo que se puede reducir a la información sobre capacidades básicas, conocimientos específicos y estrategias de estudio (cap. 15). Así, por ejemplo, a la dimensión «rendimiento general insatisfactorio», pueden atribuirse variables como falta de atención, lagunas, poco tiempo de estudio, etc.; ya la dimensión «insuficiencia en el dominio del lenguaje histórico», pueden atribuirse variables como falta
233
234
La evaluación
de aprendizajes
de retención, falta de expresión linguística, problemas de relación con el profesorado, etc.
2. Soluciones opcionales: El segundo paso consiste en identificar soluciones, sugeridas precisamente por las causas del problema, que sirvan para alcanzar el objetivo propuesto. Por ejemplo, ¿qué soluciones son las que efectivamente servirían para alcanzar el nivel de suficiencía en el dominio del lenguaje histórico? La importancia de la búsqueda de soluciones opcionales se pone de manifiesto por el hecho de que, con frecuencia, la decisión resulta inapropiada por no haber considerado todas las alternativas posibles. El número de alternativas depende en gran medida de la naturaleza de la decisión. Así, en las decisiones de selección sólo hay dos alternativas: aceptar o rechazar; por ejemplo, una Junta de Evaluación acepta o rechaza que un alumno tenga matrícula de honor. En cambio, en las decisiones de tratamiento o modificativas existen más alternativas; por ejemplo, a los profesores se les presentan diversas opciones para elegir tareas de recuperación.
3. Elección de la mejor alternativa: Una vez exploradas las opciones, se trata de elegir una alternativa que al menos ayude mejor que cualquier otra a superar las posibles deficiencias. Por experiencia se sabe que existen decisiones evidentes que se toman con mucha facilidad y otras, en cambio, que exigen muchas deliberaciones y atinadas reflexiones. Esto se debe fundamentalmente a las siguientes razones, citadas en el Proyecto Inteligencia Harvard (Megía, 1992): Es extremadamente dificil tomar decisiones cuando se desconoce qué resultados producirán las diversas opciones. Si todas las soluciones opcionales llevan a un resultado favorable, o todas tienen aspectos desfavorables, también es difícil optar por alguna de ellas. En cambio, cuando una opción produce resultados claramente mejores que otros, no resulta difícil elegir. La alternativa elegida puede gozar de diferentes grados de aceptación, tanto entre los individuos sobre los que va a recaer como entre los que la van a llevar a cabo. La mejor alternativa es la que viene determinada no sólo por la calidad, sino también por la aceptación; a saber, «buena decisión = calidad x aceptación». 3a Fase: Plan de acción: Una cosa es tomar una decisión y otra llevada a la práctica. Por lo tanto, una vez seleccionada la alternativa que más satisfactoriamente resuelve el problema, es necesario elaborar un plan de acción en el que queden organizadas unas tareas y en el que se establezca un sistema de seguimiento.
Toma de decisiones en la evaluación
235
educativa
HERRAMIENTAS DE TOMA DE DECISIONES Se han elaborado diferentes técnicas para cada una de las fases de la toma de decisiones que describiremos a continuación agrupándolas en torno a tres clases: análisis, selección y plan de acción, Todas ellas son de aplicación en las situaciones de toma de decisiones grupal, algunas también para realizadas individualmente.
1. Técnicas de análisis (Blasco, 1990; Delbecq, Van de Ven y Gustafson, 1975): Son instrumentos de exploración cuyo fin es precisamente detectar posibles alternativas de problemas, causas, soluciones, etc. Son muchas las que se pueden encontrar en la bibliografía especializada; por ejemplo, árboles de pertenencia, análisis de gráficos, estratificación de datos. Aquí describiremos con más detalle cuatro: las dos primeras de carácter más general, el «brainstorming» para grupos pequeños y el «Phillips 66» para grupos más numerosos; las dos últimas más específicas y complementarias de las anteriores, ya que pueden utilizarse en sus grupos. a) «Brainstorming» o tormenta de ideas (Anzieu y Martín, 1975; Cirigliano y Villaverde, 1982): Se apoya en la teoría psicológica de la asociación de ideas por contigiiidad, semejanza o contraste, por lo que se rompe la barrera de lo inconsciente, se estimula la facultad creadora y; al activar procesos asociativos y reforzar la capacidad de comunicación, ayuda a descubrir ideas originales, aumentando la información elaborada. El «brainstorming» se sitúa en los mecanismos de la inducción, desarrollando una actitud interrogativa, poniendo de manifiesto las preocupaciones de los miembros de un grupo acerca de las posibles alternativas de formulación de problemas o de sus soluciones. Para ello se organiza un grupo pequeño, entre 5 y 10 personas, concebido para presentar ideas divergentes, sin restricciones o inhibiciones debidas a dificultades procedimentales de ejecución, ni a limitaciones de aptitudes o de habilidades. Todas las ideas son aceptadas sin ponedas en tela de juicio, a menos que choquen con las reglas acordadas, por ejemplo, en cuanto al tiempo de discusión, o que tiendan a menoscabar las contribuciones de los otros. Aunque el «brainstorming» es relativamente libre, es posible limitado; así, una sesión de promoción de ideas sobre un campo amplio de problemas, causas o soluciones puede continuar con otra sobre algún aspecto más restringido. Es indispensable, por un lado, que el grupo sea homogéneo y esté integrado por individuos relativamente maduros que se conozcan suficientemente bien como para crear una atmósfera en la que sea aceptable la completa libertad de expresión; por otro lado, es también necesario disponer de suficiente tiempo para encarar el tema de una manera relajada y sin tensiones, porque no se necesiten inmediatamente resultados,
3.
236
La evaluación
de aprendizajes
Supuesta la familiaridad con la técnica, y ya dentro de las normas prácticas de funcionamiento, el moderador deberá: Indicar claramente el campo de ideas que se habrá de abarcar. Cerciorarse de que alguien tenga la responsabilidad de llevar un registro de las ideas expresadas. Ayudar a establecer y hacer cumplir las reglas acordadas. Establecer el tiempo límite de la discusión. Asignar el turno cuando dos o más personas deseen hablar al mismo tiempo. Animar a participar a los que tengan dificultades en liberarse del miedo o la timidez. Luchar para crear la atmósfera que provoque ideas divergentes.
b) «Phillips 66» CAntunes, 1975; Anzieu y Martín, 1975; Cirigliano y Villaverde, 1982): Esta técnica, descrita y divulgada por J. Donald Phillips, de la Universidad del Estado de Michigan, tiene en común con la anterior el hecho de que es muy útil para descubrir todos los entresijos de un supuesto, facilitando la confrontación y el esclarecimiento de los puntos de vista de todos los miembros del grupo; pero se distingue en que permite descomponer un grupo grande en unidades pequeñas, en donde es más fácil crear una atmósfera informal que facilite la participación de todos los presentes, liberándolos de sus inhibiciones y permitiendo incluso que puedan llegar a ser protagonistas; es difícil permanecer anónimo en un grupo pequeño. De este modo se rompe la frialdad y se obtiene rápida y ordenadamente la participación de un auditorio grande en una cuestión determinada. En esencia, consiste en dividir un grupo en otros más pequeños, de cuatro a seis integrantes, con el propósito de discutir o analizar un tema durante un tiempo breve. El 66 alude a grupos de seis personas que discuten un tema durante seis minutos. Dentro ya de las normas prácticas de funcionamiento, hay que conceder siempre unos minutos para elegir un presidente, con el fin de propiciar la integración en los subgrupos, y un secretario-informante para llevar un registro e informar al pleno. Uno de ellos actuará, además, de coordinador, que deberá: Asegurarse de que todos están familiarizados con el procedimiento, por qué se emplea, el tiempo que se concede y lo que se espera alcanzar. Hacer la división del grupo, de manera que se rompan vínculos previos. A menudo esto se consigue disponiendo con anticipación los asientos, o acudiendo al procedimiento de «numerarse». Explicitar oralmente o por escrito el tema en cuestión. Moverse entre los subgrupos y estar a su disposición para aclarar posibles dudas y determinar los logros.
Toma de decisiones en la evaluación
educativa
237
Si la cantidad de subgrupos, o la falta de tiempo, impide elaborar un informe completo, facilitar medios y ampliar el tiempo para ordenar las ideas en orden de importancia y pertinencia. Siempre se debe avisar antes de dar por finalizado el tiempo. Recoger los informes de cada grupo (escritos y orales), clasificados y preparar un resumen. En este punto el procedimiento debe ser flexible para recoger los condicionamientos que impone el tamaño de la reunión, los tipos de preguntas que se discuten, el empleo que se hace de ellas, etc. Asegurarse de que todos los puntos al grupo general.
de vista significativos sean llevados
c) QDCC (Kepner y Tregoe, 1983): Es una técnica complementaria
del brainstorming y del Phillips 66, ya que en ambas los participantes pueden utilizada para elaborar alternativas y conclusiones. Propone que el problema, las causas, las soluciones, etc., se describan en detalle desde cuatro perspectivas, a cada una de las cuales se responde con una doble salida, indicando qué es y qué no es en relación con: • • • •
QUÉ: Identidad, ¿qué es? o ¿de qué se trata? DÓNDE: Ubicación en el espacio, ¿en dónde surge? CUÁNDO: Ubicación en el tiempo, ¿cuándo ocurre u ocurrió? CUÁNTO: Magnitud o extensión, ¿qué extensión tiene?, ¿qué abarca?
Un ejemplo esquemático
de tal técnica pudiera ser el siguiente:
ES QUÉ
NO ES
insatisfactorio evaluación la 1alos otros cursos Literatura Rendimiento Disciplinario escolar 2aobjetivos evaluación -En Historia Integración Historia: 2a yescolar 3a evaluac. Literatura: En otras asignaturas Todos
d) Diagrama causa-efecto o de Ishikawa (Blasco, 1990): Por su forma, se conoce también como «espina o raspa de pescado». Tiene el mismo carácter de complementariedad que la técnica anterior QDCC, pero añade la virtualidad de sistematizar las posibles causas y soluciones de un problema, agrupándolas por familias y jerarquizándolas; orientando, así, el análisis hacia las más fundamentales.
238
La evaluación
de aprendizajes
TAREA DEL
FAMILIA
ALUMNO
Trastornos de atencion/motivación
Bajo nivel cultural
Trastornos perceptivos
No valoración del estudio
Deficiencias de aptitudes
Metodología inapropiada
CALIFICACiÓN NEGATIVA
Deficiencias lingOísticas
Objetivos
CAPACIDAD DEL
ESCUELA
ALUMNO
2. Técnicas de selección (pokras, 1992; Simon y Albert, 1979): Son herramientas que ayudan a abandonar alternativas de problemas, causas, soluciones, etc., para concentrarse en unas pocas; en la convicción, como dice el principio de Pareto, de que los elementos críticos de cualquier conjunto constituyen una minoría. Este principio se traduce en la regla 80/20, que se suele ilustrar con el ejemplo de que el 80% de los problemas se pueden explicar mediante el 20% de las causas. De manera semejante a las de análisis, son muchas las técnicas de selección que aparecen en la bibliografía especializada; por ejemplo, la Matriz de prioridades y el Criterio ABC. En éste se clasifican ordenadamente las alternativas de un problema y se da importancia a las clasificadas como A; en cambio, las B se consideran como meramente instrumentales, y las C se relegan por su escasa incidencia. Por su mayor posibilidad de aplicación en el contexto educativo, nos detenemos, sin embargo, en el voto ponderado, en la matriz de clasificación por criterios yen el análisis de fuerzas. a) Voto ponderado (Anzieu y Martín, 1975): Consiste en presentar y comentar una serie de cuestiones, estudiadas anticipadamente por cada uno de los miembros del grupo, y votadas de forma ponderada, según la importancia que cada uno les dé a partir de sus diferentes aspectos. Por ejemplo, se consideran tres alternativas, que cada miembro del grupo califica con un 1, 2 o 3; el grupo selecciona la alternativa más votada, en este caso la P, como aparece en la tabla siguiente:
Toma de decisiones en la evaluación
Alternativas
I
Profesor A
1a
3
2a
2
I
239
educativa
Profesor B
I
Profesor
I
Profesor D
3 2
3
3a
e
2
9
3
8
2
7
b) Matriz de clasificación por criterios (Pokras, 1992): Se trata de adoptar unos criterios para seleccionar la alternativa más plausible. Los criterios pueden ser la consideración de las consecuencias de la elección: beneficios, recompensas, conclusiones, perjuicios, etc.; o también la jerarquización de opciones según criterios como la mejor, la más factible, la más fiable, etc. En una tabla de doble entrada quedan incluidas en vertical las posibles alternativas, y en horizontallos criterios de ponderación materializados en una puntuación que puede ir, por ejemplo, de Oa 5.
CRITERIOS
2
3
TOTAL
3
5
8
ALTERNATIVAS 1a
o
2a
5
7
La decisión recaerá sobre aquella alternativa que más puntuación numérica alcance. Es una tarea en la que resaltan los atractivos de la decisión tomada, así como las críticas a las alternativas rechazadas. La opción elegida pasaría por ser la alternativa ideal o, al menos, la que más se acerca. c) Análisis de fuerzas (pokras, 1992): Se analiza cada alternativa bajo los siguientes aspectos: Positivas: ¿Con qué alternativas aminoramos o resolvemos el problema? Negativas: ¿Con qué opciones aumentamos o empeoramos el problema? Incógnitas: ¿Qué desconocemos del problema que pueda ser definitivo para encontrar una solución? Al final se comparan los resultados del análisis: ¿Son o tienen la misma relevancia todas las alternativas?, ¿qué alternativa se presenta como más factible?, ¿qué alternativa tiene más apariencia de ser la adecuada?, ¿qué cantidad de riesgo conlleva cada alternativa?, ¿en cuál se confía más? Los resultados del análisis para cada tipo de acción alternativa se recogen en una tabla como la siguiente:
240
La evaluación
Alternativas
de aprendizajes
Positivas Comparación Incógnitas (Desventajas) Negativas
2"
Todas estas técnicas no se utilizan como métodos únicos, sino como técnicas complementarias a otras más tradicionales en el campo de la educación para buscar una mayor profundidad y amplitud de las alternativas, debido a las aportaciones de todos los integrantes del proceso instructivo. 3. Técnicas para diseñar un plan de acción: A este fm se puede emplear la siguiente herramienta, que es una versión más o menos simplificada del PERT,siglas que corresponden a «Program Evaluation and Review Technique», y que se refiere al camino crítico de un calendario de un plan de acción que especifica las fechas, personal implicado, orden de las operaciones, etc., para conseguir una meta determinada. Se pueden encontrar aplicaciones al contexto educativo en Pokras (1992). Se empieza teniendo presentes las respuestas a una serie de preguntas hechas en las fases de análisis y selección, tales como: ¿cuál es el objetivo de la decisión en términos de comportamiento?, ¿qué actividades son necesarias para alcanzado?, ¿quién será el responsable de cada una?, ¿en qué orden se realizará cada actividad y cuánto tiempo supondrá cada una?, ¿qué recursos son necesarios?, ¿qué criterios se adoptan para medir si el objetivo se ha conseguido? A continuación, se ordenan las acciones que se consideran imprescindibles para llevar a la práctica la decisión tomada, así como la indicación de las personas responsables, el sistema de seguimiento, los recursos y tiempos. El conjunto de tales actuaciones y propuestas constituye un detallado plan de acción que, en el caso de ser muchas o complejas, se puede recoger en una tabla como la siguiente: Recursos DECISiÓN TOMADA: Tiempo responsable Persona Técnica de seguimiento
2" Acciones
Es conveniente también tener en cuenta la ley de Murphy: «Todo aquello que tenga posibilidades de fracasar, fracasará». Por eso, el plan se puede completar anticipando los posibles fallos que, si se considera útil, se pueden
Toma de decisiones en la evaluación educativa
241
recoger en una hoja de previsión donde figure lo que puede fallar, cómo se puede evitar que ocurra y cómo se rectificará el fallo si ocurre.
JUNTAS DE EVALUACiÓN
4.
Algunos profesores se muestran muy contentos porque ya han superado eso de dictar notas en las sesiones de evaluación, y dicen que se dedican a evaluar, lo que en muchos casos quiere decir a hablar de los alumnos. Pero, ¿sobre qué se habla? Fulanito es muy inteligente, pero muy vago; no le doy sobresaliente porque no estudia. Menganito, el pobre, no puede más, hace todo lo que puede, así que le vaya aprobar (Brincones, 1990: 230).
La cita refleja en gran medida la realidad de muchas Juntas de Evaluación, en donde se hacen comentarios, pero no se evalúa porque no se toman decisiones sobre los resultados ni sobre las estrategias de enseñanza. Tampoco se evalúan las programaciones en muchas reuniones de departamentos docentes, porque no se toman decisiones ni sobre la extensión de los programas ni sobre la secuencia de los objetivos. Sin embargo, en aquellos casos en que el proceso de evaluar incluye la toma de decisiones, por un lado, cambian sustancial mente las actuaciones de los citados órganos docentes y, por otro, se enriquecen y perfeccionan los contenidos conceptuales y procedimentales no sólo de los alumnos, sino también de los profesores. Todo grupo debe adoptar un proceso racional -inicialmente debe ser sencillo- de toma de decisiones y obligarse disciplinadamente a seguido sin improvisar excesivas modificaciones sobre la marcha. Esto no se contradice con la conveniencia de dedicar periódicamente un tiempo a analizar el proceso para ir introduciendo mejoras más complejas. La estructura de cada fase del proceso debe utilizar, en primer lugar, una técnica de análisis que permita formular todos los posibles problemas, causas, soluciones, etc.; para reducidos posteriormente a las alternativas más viables mediante una técnica de selección. Es decir, un proceso en «zigzag»que sucesivamente se abra de modo creativo a todas las alternativas para luego sacrificar la mayoría de ellas con objeto de concentrarse en el problema más importante y en la solución más viable. A manera de ejemplo, se sugiere el siguiente para un escenario restringido al ámbito de los aprendizajes, que es el más frecuente en las Juntas de Evaluación.
Decisiones previas Para agilizar el proceso formal de toma de decisiones en la Junta de Evaluación, se deben tomar en el foro adecuado una serie de decisiones previas, más fáciles
4.1.
242
La evaluación
de aprendizajes
por no ser irreversibles, por lo que se pueden rectificar cuantas veces se estime oportuno. Son fundamentalmente tres, como aparece en el siguiente esquema:
Opciones
Organización funcional
Datos
1. Opciones: Además de clarificar las metas, objetivos, estrategias de instrucción, etc., hay que decidir si se ofrece a los alumnos la opción de elegir entre asignaturas optativas; y; luego, dentro de cada asignatura, si se les ofrece un único programa a todos, o también programas diversificados, en los que los objetivos complementarios se calificarían con una gama completa de notas (de O a 10) y los mínimos con una restringida (de O a 5), o sencillamente con un apto/no apto.
Asignatura Obligatoria
Asignatura Optativa
Programa Único
Complem.lÚnico
Programa
Ayuda también tener presente un catálogo de las clases de decisiones que se van a considerar. 2. Organización funcional: Se trata de atribuir una función a cada miembro del grupo y diseñar la dinámica de las reuniones. 3. Datos: Decidir qué datos se van a llevar a la Junta, es decir, las calificaciones numéricas o literales, simples o matizadas. A continuación se ofrecen
Toma de decisiones en la evaluación
educativa
diferentes modelos de informes, para matizar las calificaciones insatisfactorias, que los profesores se comprometen a aportar a la Junta de Evaluación. MODELO A CURSO: A A P C P C . EVALUACiÓN: NOMBRE
SOCIALES MATEMÁTICAS LENGUA
CATEGORíAS (Siglas) 1. Conceptuales (C): (M) Memorización: No recuerda datos. (1<) Comprensión: No los comprende. 2. Procedimentales (P): (R) Aplicación: No es capaz de resolver cuestiones. 2. Afectivas (A): (T) Atención: Es incapaz de mantener una atención sostenida. (1) Interés: No demuestra interés. (O) Otras causas que hay que explicar en un informe más detallado: - Aptitud deficiente para la materia. - Problemas personales. - Falta de base. -
No dedica tiempo al estudio. Falta de orden, puntualidad, disciplina, etc. Desconoce técnicas de estudio adecuadas.
MODELO B
72548 96 3 CURSO: 10
1
ASIGNATURA
NOMBRE
CATEGORíAS: 1. Bajo nivel de aptitudes. 2. Retraso en el aprendizaje. 3. Falta de interés. 4. Nivel de atención bajo. 5. Problemas personales.
6. No entrega los trabajos a tiempo. 7. Aparentemente no estudia. 8. Deficiencias en el recuerdo de datos. 9. Deficiencias de comprensión. 10. Deficiencias de aplicación.
243
244
La evaluación
4.2.
de aprendizajes
Proceso Los pasos del ejemplo que estamos sugiriendo se simbolizan en el siguiente diagrama:
Psicólogo Médico Departamento Plan de acción
Controles
1. Técnicas: Las técnicas de análisis y selección que se aplican a lo largo del proceso se simbolizan en el diagrama de la siguiente manera: ~
EXPLORACIÓN:Brainstorming o Phillips 66, dependiendo del número de personas, completado con QDCC o diagrama causaefecto.
<>
SELECCIÓNBINARIA:Sencillamente sí/no.
V
SELECCIÓNMÚLTIPLE:Voto ponderado.
C)
PERTsimplificado.
c=J
OPERACIONESdecididas en procesos previos.
2. Pasos: La secuencia de pasos simbolizada en el diagrama, que a primera vista puede antojarse compleja, pero que en realidad muchos califican hasta de obvia, es la siguiente: O. Datos sobre alumnos con calificaciones insatisfactorias, aportados según el modelo de informe adoptado en las decisiones previas.
Toma de decisiones en la evaluación
educativa
245
1. Problema: 1.1. Enumerar, por medio de un brainstorming o Phillips 66 completado con QDCC, los problemas planteados por los datos aportados. 1.2. Filtrar, por medio de una selección simple sí/no, solo los susceptibles de decisiones ejecutivas; es decir, los problemas relacionados con el aprendizaje. El resto de problemas, enviados al órgano competente (Jefatura de Estudios, Departamento, Gabinete de Orientación, etc.). 1.3. Seleccionar un problema de aprendizaje por medio de la selección ponderada o matriz de clasificación por criterios. 2. Soluciones: 2.1. Formular todas las posibles causas del problema seleccionado medio de un brainstorming o Phillips 66.
por
2.2. Formular todas las soluciones sugeridas por las causas detectadas a través de brainstorming o Phillips 66 completado con diagrama causa-efecto. 2.3. Aplicar criterios no sólo cognoscitivos (capacidad demostrada de comprensión, aplicación, etc., de contenidos), sino también afectivos (interés, aptitudes, etc.), de acuerdo con el modelo de recogida de datos decidido previamente. 2.4. Seleccionar la mejor alternativa por medio de la selección ponderada o de la matriz de clasificación por criterios. 3. Plan de acción: Concretar las acciones, personas responsables de cada acción, sistema de seguimiento, recursos y tiempos. 4. Introducir las mejoras adecuadas en las decisiones previas y los pasos del proceso, con el fin de empezar a recoger nuevos datos para la sesión siguiente.
NOI)Vn'VA:I:la S:lS,") .1
Son varios los criterios que se pueden adoptar para determinar las distintas clases de evaluación (Rodríguez Diéguez, 1980). Entre otros, conviene citar el sistema que se evalúa (dando lugar a la evaluación interna y externa), el momento de aplicación (evaluación inicial, intermedia y final) y los fines y funciones de la evaluación (evaluación formativa y sumativa).
SISTEMA EVALUADO Se habla de evaluación interna y externa, según el grado de pertenencia del evaluador al sistema evaluado. Si se considera la evaluación referida al aprendiz, se habla de auto y de heteroevaluación. En la heteroevaluación, cuyo estudio ocupa gran parte de la presente publicación, el profesor evalúa al alumno. Sin embargo, uno de los objetivos de la educación es también capacitar a éste a reflexionar sobre sí mismo, más cuando la capacidad de valorar es un componente indispensable de todo aprendizaje. Por todo ello, el profesor debe ayudar al alumno a que, a partir de la heteroevaluación del profesor y de otra serie de datos, sea capaz de valorar sus propios procesos de aprendizaje y de tomar sus decisiones, con objeto de conformar «esquemas personales» válidos para poder usados en el futuro cuando se enfrente a situaciones análogas. En esto consiste justamente la autoevaluación que, aunque a menudo pueda ser imprecisa, no es muy difícil de conseguir, dado que cualquier alumno posee siempre un juicio subjetivo de lo que hace; tanto más exacto cuanto más avanza en el sistema educativo. Si se considera como sistema la clase, aparece como interna la evaluación ordinaria integrada en el Proyecto Curricular, que es responsabilidad de los profesores implicados en el proceso de instrucción; y como externa en diversos grados las distintas clases de evaluación asistida, que suponen el asesoramiento o intervención de orientadores especializados (García Vidal y González Manjón,1992).
1.
250
La evaluación
de aprendizajes
Se pueden considerar otros sistemas de referencia como el centro o todo el sistema educativo, dando lugar a otras clases de evaluación interna y externa.
2.
TIEMPO DE APLICACiÓN Un segundo criterio es el momento en que se aplica dentro del proceso de instrucción. En este sentido se puede hablar de evaluación inicial, intermedia y final. La evaluación intermedia yfinal pueden asimilarse respectivamente a la evaluaciónformativa y sumativa que consideraremos posteriormente clasificadas desde otro criterio; sin embargo, la evaluación inicial, con características claramente formativas, tiene un perfil diferencial, por lo que pasamos a estudiada a continuación.
La evaluación inicial, conocida también como evaluación diagnóstica, es la que proporciona información sobre el alumno para tomar decisiones antes de comenzar un proceso de instrucción. 1. Tipos de diagnóstico: Se suelen considerar, en primer lugar, varios tipos de diagnóstico (Brueckner y Bond, 1971). a) General: Su finalidad es básicamente preventiva, con objeto de determinar la situación de cada alumno antes de iniciar un proceso de instrucción y asegurar, así, que las características de la enseñanza se ajusten a las propias del aprendizaje. Se refiere, pues, a todo el grupo, y ha de hacerse sobre las distintas variables que se consideren relevantes. No puede reducirse, por ello, a un test que se pasa el primer día de clase; sino que ha de extenderse a un cierto período de tiempo, que puede coincidir con el repaso inicial por el que los alumnos van recordando y activando dichas variables. Como parte esencial del proceso ordinario de programación, es la que afecta más directamente al profesor. b) Analítico: Busca aumentar el conocimiento de las variables y de los alumnos que presentan cualquier tipo de problemas, con objeto de que tales problemas puedan ser identificados y precisados lo mejor posible y, así, tratados adecuadamente. Su finalidad es, pues, fundamentalmente correctiva. Puede ser llevado a cabo por el profesorado con o sin la intervención de otros especialistas. c) Individual: Se refiere a alumnos con dificultades en el aprendizaje (DA) o necesidades educativas especiales (n.e.e.) (Álvarez et al., 1999), con frecuentes y generalizados fracasos. Para llevado a cabo, se aconseja una actuación conjunta del profesorado y de otros especialistas (Pérez]uste y G. Ramos, 1989).
2. Contenido del diagnóstico: En segundo lugar, hay que considerar el contenido de la información necesaria para todo diagnóstico. Se reduce básica-
Clases de evaluación
mente a lo que Halwachs (1975) designa con la expresión «estructuras de acogida», que indica el conjunto de conductas, representaciones y maneras de razonar propias del alumno que conforman la estructura en la que se inserta y organiza el nuevo conocimiento que va adquiriendo. No existe un consenso sobre los aspectos que deben ser objeto de esta evaluación, ni siquiera dentro de una misma teoría del aprendizaje (Álvarez Rojo, 1984; Buisán y Marín, 1984; García Vidal y González Manjón, 1992; Pérez]uste y Ramos, 1989). Tradicionalmente, se ha entendido como la evaluación de una serie de capacidades básicas, fundamentalmente cognitivas, relacionadas con los logros académicos. Más tarde, se insistió más bien en la necesidad de evaluar conocimientos previos específicos y pertinentes para los nuevos aprendizajes. Desde otras perspectivas, se ha puesto de relieve la importancia de los esquemas de conocimientos previos, es decir, los «inclusores» en nomenclatura de Ausubel, encaminados a los nuevos aprendizajes y a la organización y planificación de la enseñanza. Pero hay autores que critican la excesiva preponderancia de las variables de carácter cognitivo, olvidándose de evaluar otras no cognitivas, tales como los factores motivacionales y afectivos, cuya importancia en el ámbito educativo ha sido probada empíricamente. Otros van más allá y critican la evaluación diagnóstica que se centra exclusivamente en los niveles actuales del desarrollo del alumno en un momento concreto y no considera sus potencialidades a través de la mediación de los otros. Así,Vygotsky (1964) (Álvarezy del Río, 1990) mantiene la teoría de la construcción social de la inteligencia, que integra los conceptos de <
251
252
La evaluación
de aprendizajes
3. Instrumentos: Por último, comunes a otras clases de evaluación, los instrumentos de la evaluación diagnóstica: pruebas objetivas, exámenes convencionales, observación espontánea y estructurada con listas de control y escalas de estimación, análisis de tareas y de contenido, modelos referenciales, etc. Es importante destacar que esta forma de evaluar diagnóstica para conocer al alumno y planificar la enseñanza no debe interrumpirse al iniciar el proceso de enseñanza-aprendizaje, sino que tiene continuidad en la evaluación intermedia o formativa que estudiamos a continuación.
3.
FINES DE LA EVALUACiÓN Un criterio importante de clasificación es el que considera el fin para el que se evalúa, a saber, la clase de decisiones que se toman. Así, si se utiliza para tomar decisiones modificativas, es decir, para mejorar el proceso de instrucción, la evaluación tiene una función Formativa; y si para tomar decisiones ejecutivas finales sobre los resultados del aprendizaje, la evaluación tiene una función Sumativa (estos términos los usó por primera vez Scriven, cf. Cap. 2, aunque los sistematizó y elaboró el equipo de Bloom, 1975). Como acabamos de decir, a veces se identifica la evaluación Formativa con la intermedia y la Sumativa con la final; aunque guarden alguna relación, difieren sustancialmente en cuanto que las segundas dependen del tiempo y las primeras de la función. Conviene, por tanto, profundizar en su estudio para no caer en el error de quedarse en el significado aparente de estos términos y llegar a conclusiones como que la evaluación Sumativa no contribuye también a la «formación» de los alumnos.
3.1. Evaluación formativa: Del estudio de la medida aplicada a la educación (cap. 3), se deduce que la única medida que resiste una crítica rigurosa es aquella que se refiere a cada objetivo por separado, para determinar el grado de adquisición de cada uno de ellos, y cuya calificación se expresa en términos de Apto;No Apto de una escala nominal. Este tipo de medida es el punto de partida para entender la evaluación formativa. Además, para poder tomar las dedsiones modificativas propias de la evaluación formativa, es decir, para mejorar el proceso de enseñanza-aprendizaje, es necesario emitir a lo largo de dicho proceso de manera inmediata juicios, con una valoración criterial, no sólo respecto de cada objetivo, sino incluso de aspectos parciales e implícitos; lo que, a su vez, exige obtener una información adecuada sobre el grado de adquisición de cada uno por separado. Todo ello va a condicionar tanto la recogida de información como la valoración, exigiendo para la evaluación formativa una serie de características que nos proponemos analizar en los párrafos siguientes.
Clases de evaluación
a) Detectar deficiencias en el aprendizaje: La evaluación no debe limitarse sólo a jugar un papel sancionador y convertirse en una serie de obstáculos que los estudiantes tienen que vencer; ya que, en estas circunstancias, la evaluación se transforma, de hecho, en la fuente prioritaria de motivación, o mejor diríamos de inquietud, de los alumnos, y la enseñanza recibida se relega a un papel totalmente secundario. Lo que preocupa entonces únicamente al alumno es saber cómo sacar mejores calificaciones y tener éxito en la obtención de certificados con el menor gasto posible. El profesor debe intentar convencer al alumno de que el fin de la instrucción no es sólo obtener un título, y que el fin de la evaluación no es únicamente permitide el conseguido. La evaluación formativa empieza siendo un control de la calidad y eficacia de cada paso del proceso de enseñanza-aprendizaje, pero no para sancionar, sino para analizar y diagnosticar lo que se debió aprender y no se logró. Se aplica a zonas de este proceso con alguna unidad y que influyen en la eficacia del resto del proceso. b) Detectar causas: Esta evaluación se preocupa de todos los elementos del proceso de enseñanza-aprendizaje. Implica no sólo un análisisy diagnóstico del aprendizaje en sí, de los aspectos parciales no asimilados de los objetivos; sino que, en continuidad con la evaluación inicial, lleva asociados otros elementos complementarios, sobre todo las causas de los fallos, tales como aptitudes y capacidades básicas, habilidades aplicadas, estilo y estrategias de aprendizaje no adecuadas, así como la posibilidad de entrever otros factores contextuales, tales como aspectos médicos, psicológicos, familiares y ambientales que pueden influir en el aprendizaje. El elemento «medir» queda reducido a detectar fallos y causas sin tener necesariamente que cuantificados.
c) Mejorarel proceso de instrucción: Lo más importante es su característica de no ser un veredicto final, sino más bien un diagnóstico de la situación del alumno durante su proceso de aprendizaje respecto a cada objetivo por separado para ayudade a alcanzados; llegando, más allá de los objetivos, a analizar las necesidades y valorar hasta qué punto se han satisfecho. En la evaluación formativa el elemento «toma de decisiones» adquiere una importancia decisiva, porque trata de decisiones modificativas para mejorar todo el proceso de instrucción. Supone continuar con las pruebas de diagnosis durante y a lo largo del proceso de aprendizaje, antes de que termine (entonces ya no tiene remedia), que ayudan a parcelar el proceso de instrucción e ir alcanzando cada paso secuencialmente y por caminos más o menos directos, y alternativos, al ritmo de cada uno. Es, por un lado, unfeedback para los alumnos. Si el fallo se detecta sólo en una minoría de alumnos, a partir de los resultados de la evaluación formativa, cada uno de ellos obtiene información (porque él mismo se da cuenta, o porque se lo indica el profesor) del camino que le queda por recorrer en el logro de las metas propuestas; y así, según el progreso realizado o la ausencia del mis-
253
254
La evaluación
de aprendizajes
mo, puede ajustar las actividades para aprender, introducir posibles correcciones y procesos alternativos remediales para continuar su aprendizaje. Este tipo de evaluación debe hacer competir al alumno consigo mismo, y no con otros alumnos, con el fin de luchar contra sus deficiencias. Tiende a promover un desarrollo personal adecuado. Es, por tanto, un ingrediente del proceso de aprendizaje; pero también es un complemento natural de una buena enseñanza, ya que es unfeedback para los profesores; porque, si el fallo se detecta sistemáticamente en una mayoría de alumnos, habrá que orientar los remedios hacia el programa para revisado y precisado, y hacia la metodología para introducir las correcciones oportunas en las estrategias de enseñanza. Esta evaluación requiere un espíritu más positivo de cooperación de todos los grupos implicados y una integración de todos los elementos. No debe, de ninguna manera, ser utilizada por el profesor para sancionar.
d) TIempo de aplicación: Como consiste en evaluar tanto las estrategias de aprendizaje como el rendimiento conseguido por el alumno 'durante la instrucción, desde el momento en que aborda el aprendizaje hasta que termina, mediante controles precisos, más o menos formales, la evaluación debe ser permanente. Esta noción ha sido a menudo mal traducida, como evaluación «continua», y peor interpretada: hay profesores que la entienden como una continua evaluación, dedicando más tiempo a examinar que a otras actividades educativas y manteniendo al alumno constantemente sobre «ascuas». Hay otros profesores, y alumnos, por el contrario, que la entienden como si un apto justificase siempre la adquisición de todos los objetivos previos; por ejemplo, un aprobado en Química en el 2° trimestre, justifica toda la Física del 1er trimestre. Esto se podría aceptar en caso de resultados positivos de objetivos inclusivos con relación de orden (cap. 3) (un aprobado en dividir justifica sin más el aprobado en sumar y multiplicar); pero no en el caso de resultados negativos (un suspenso en dividir no asegura también un suspenso en multiplicar y sumar), o de objetivos no inclusivos sin relación de orden (el caso citado de Física y Química); de esta forma, la adquisición de unos objetivos enmascara la de otros totalmente distintos y sin relación. En resumen, la evaluación formativa es una evaluación permanente para determinar el grado de adquisición de cada objetivo, y detectar tanto los aspectos NO asimilados, como las causas para reajustar y «optimizar» los logros y el proceso de enseñanza-aprendizaje. Otras coordenadas que completan el perfil de la evaluación formativa son: e) Nivel de generalización: Como se fija más en la adquisición de cada objetivo o incluso de aspectos parciales de los objetivos, el nivel de generalización de las pruebas es mínimo, de manera que todas y cada una de las capacidades y de los contenidos importantes, aun implícitos, de los objetivos deben quedar reflejados en algún control de la evaluación formativa.
Clases de evaluación
f) Selección y construcción de pruebas: La diferencia esencial entre evaluación formativa y sumativa no está en el formato ni en el contenido de las pruebas, sino en cómo se usan para promover el progreso del aprendizaje del alumno. Por tanto, se podrán adoptar pruebas informales o formales, semejantes a las de la evaluación sumativa. Al contrario que en ésta, las preguntas de la evaluación formativa pueden repetirse curso tras curso porque no influyen en decisiones irreversibles; es más, es conveniente repetidas siempre que se hayan mostrado válidas como indicadores de las deficiencias de aprendizaje. Para construir una prueba de evaluación formativa, como en la planificación de toda evaluación, ayuda construir un diagrama que muestre jerárquicamente los objetivos que hay que evaluar o una tabla de especificaciones (cap. 16), reflejo de la matriz capacidades/contenidos de programación. Por ejemplo, si un alumno es incapaz de resolver problemas, el diagrama nos puede sugerir que controlemos si se debe a dificultades de comprensión del lenguaje o al conocimiento del procedimiento científico; o también, si un alumno falla en la traducción latina de una texto de Cicerón, el diagrama nos puede sugerir que controlemos las preguntas que se hacen sobre el análisis morfológico, el análisis sintáctico, el conocimiento del significado de las palabras, la técnica de búsqueda en el diccionario, etc.
g) Calificación: No se trata de dar un certificado final, ni de reflejar los resultados en un acta oficial. La calificación se hace por medio de una valoración criterial o de dominio objetivo a objetivo, y se reduce a un Apto/No apto completado con un informe más o menos formal, pero inmediato, aspecto éste esencial de la evaluación formativa, con diagnóstico de fallos y causas. A partir de estas calificaciones, el mismo alumno puede hacer su propio diagnóstico de su estado de aprendizaje; y el profesor, proporcionar instrucciones detalladas para su recuperación. Una manera estándar de planificado se representa en la tabla siguiente, en la que se ofrece, primero, la respuesta correcta, a continuación, bajo las columnas «Texto h y «Texto2»,fuentes de información asequibles al alumno y, por último, otras estrategias alternativas de recuperación preferentemente individualizadas, tales como estudios dirigidos, MAV, programas informatizados, etc.
255
256
La evaluación
;
1358. España
Pregunta , Ebro. LevanteMadrid, Láminas, Depresión del elaborado (1993) por el España! prof.: MEC,
minutos. Estébanez Documental Guadalaviar. la Geografía donde Informático Planeta la dinámica Texto Serie Cf.: MAV: 2Apuntes Universidad manifestación Turia oen El movimiento 1Ecos, de clase, Lección 7", Lae Albacete, Atlas Escolar, Milagroso, Vicens-Vives, tecnónico; CC.NN. Enciclopedia adj. papel cap.5, 10Texto BUp, en AA.W. Barna, topográfico, del (1976)Análisis mapa tectónicas, Kyoto, 50 interpretación Cualquier Tamargo, de mapa España: físico de (Gráfico Puyol, MAC. R. yJ. (1992), las placas J.ea milimetrado.) Programa AA.W(1994) Geografía de aparezca un para estudiar págs. 83ss. (1984): AA.W. El (1980) Respuesta
Oviedo, MAC, Barna. formación del representación, España, del siglo XXI, relieve su Mundo, pág. pág. 49. 7.yDISA-EI
de aprendizajes
28. Tebar págs. Flores, 13, 14 Y
3.2. Evaluación sumativa: Del estudio de la medida aplicada a la educación (cap. 3), se deduce que la valoración final de un repertorio de objetivos, reflejada en una calificación a partir de unos resultados calculados a través de una media ponderada, da lugar a una evaluación cuyo concepto, en comparación con la evaluación formativa, no es unívoco sino analógico; es decir, tiene aspectos comunes y aspectos diferenciados. Aquí, el rigor de la medida queda mediatizado por la subjetividad que siempre está implícita en la ponderación.
Clases de evaluación
257
Esta clase de medida, junto con las exigencias administrativas y sociales, es la base de la evaluación sumativa, que conlleva una serie de características que nos proponemos analizar en los párrafos siguientes.
a) Medir:Reiteramos que la diferencia esencial entre la evaluación formativa y sumativa no está en el formato o en los contenidos de las pruebas, sino en el fin para el que se usan. Sin embargo, las decisiones asociadas a la evaluación sumativa exigen que el elemento «medir» quede cuantificado en una calificación criterial final, mientras que el elemento «toma de decisiones» suele quedar reducido a la decisión selectiva de poder pasar de tema, de curso, etc.; aunque no es infrecuente que tenga también consecuencias «formativas» para alumnos y profesores. b) Juicio sobre el resultado: La evaluación sumativa es una acción «después de» que se preocupa de dar un juicio del trabajo del aprendiz en relación con algo fijo, mediante la comparación de los objetivos y los resultados. Pero dicho juicio no da pistas e información suficientes sobre las necesidades de ajuste y cambio para que el alumno llegue a las metas propuestas no alcanzadas; aparte de que no tiene ya la oportunidad de recuperar las eventuales deficiencias de aprendizaje, como sucede en la evaluación formativa. e) Tiempo de aplicación: Los controles son más espaciados que en la evaluación formativa. Se suelen realizar al final de una unidad más o menos larga, a final de trimestre,
de curso, etc.
En resumen, la evaluación sumativa es la evaluación final que emite un juicio sobre el alumno (a veces, aunque menos frecuentemente, también sobre el profesor o el currículo) en relación con el resultado del aprendizaje, reflejado en una calificación globalizada de un repertorio de objetivos, y de la que se sigue una toma de decisiones ejecutiva, a veces implícita. Ejemplos de estas decisiones son:
-
«Estás en condiciones de pasar al tema siguiente, al curso siguiente, de ejercer la profesión, etc.».
-
«Por ahora no estás en condiciones de seguir; por tanto, tienes que repetir y volver a empezar el tema, el curso, etc.».
Otras coordenadas
que completan
el perfil de la evaluación sumativa son:
d) Nivel de generalización: Se fija preferentemente en la comprobación de una muestra de objetivos, porque esto suele ser suficiente para tomar las decisiones que le son propias. Por ejemplo, en la evaluación sumativa se controla globalmente si el alumno es capaz de interpretar gráficas con objeto de decidir si ha de pasar al tema, al objetivo o al curso siguiente; en cambio, en la evaluación formativa debe comprobarse parceladamente si el alumno es capaz de localizar puntos en un sistema de coordenadas, interpretar máximos, mínimos y puntos de inflexión, etc., con objeto de mejorar las posibles deficiencias en algunos de estos aspectos. No obstante, es obvio, como hemos reiterado, que se puede aprovechar la evaluación sumativa para fines formativos.
258
La evaluación
de aprendizajes
e) Justificación: Aparte de razones y exigencias administrativas y sociales, se basa también en la posible predicción de éxitos futuros; es decir, se presupone que las decisiones de promoción de la evaluación sumativa que se toman a partir de la superación de unas materias y cursos sirven de predicción de resultados suficientes en otras materias y cursos. Claro que esto supone, por un lado, evidencia de la relación entre objetivos de distintos cursos y, por otro, que no se modificarán en cursos siguientes ni el contenido ni el método ni las estrategias de aprendizaje de los alumnos. De todas formas, como norma general, de los resultados de una evaluación, no deben sacarse consecuencias predictivas demasiado amplias, ni a muy largo plazo. Ejemplos: -
Un alumno aprobará Inglés de un curso si está capacitado para empezar con éxito el Inglés del curso siguiente.
-
La asimilación de capacidades operativas en Aritmética o Álgebra pueden predecir los resultados en Álgebra superior.
-
La asimilación de capacidades como la comprensión de problemas biológicos proporciona una base para predecir futuros aprendizajes en la misma materia, Biología, e incluso en otras como Física o Química.
La razón de esta relación no es clara, puede deberse a la capacidad del alumno, a determinadas estrategias de aprendizaje o a otras relaciones del aprendizaje con el desarrollo o con el contexto. f) Construcción de pruebas: En primer lugar hay que decidir qué muestra de objetivos se va a evaluar; es decir, qué casillas o puntos de intersección de la matriz capacidades/contenidos (cap. 16). Para ello pueden ayudar algunos criterios como los siguientes: agrupar objetivos según contenido o capacidades, seleccionar sólo los que incluyan otros objetivos aunque sea implícitamente, seleccionar los necesarios para etapas siguientes, etc. Y luego hay que construir situaciones con indicadores válidos sobre la consecución de los objetivos seleccionados.
g) Calificación: Aquí ya no se considera objetivo a objetivo, como en la evaluación formativa, sino que se trata de medir el dominio de un repertorio de objetivos a través de una muestra significativa. Lavaloración criterial de dominio de una muestra de objetivos es propia de la evaluación sumativa, así como la valoración criterial que controla el dominio de objetivo a objetivo es propia de la evaluación formativa. Para calcular la calificación en una evaluación sumativa, es necesario tener en cuenta, por un lado, el valor que se le da a cada pregunta del examen y, por otro, la corrección del azar cuando sea posible; aspectos estudiados al hablar de la medida (cap. 3 y 13).
h) Contexto: La evaluación sumativa se ve rodeada con frecuencia de una serie de factores con textuales que tienden a distorsionarla; entre otros, el secreto profesional del profesor, el intento por parte de otros miembros de la comunidad educativa (padres, alumnos, etc.) de asalto a ese «baluarte» y, sobre todo,
Clases de evaluación
la ansiedad en los alumnos, aspecto éste difícil de evitar. Se cuenta que en un cementerio sobre la lápida de un valeroso guerrero rezaba: <~quí yace el que nunca tembló», y alguien añadió un «grafito»:«Porque nunca se examinó». Prácticamente todos los estudiantes experimentan alguna ansiedad antes de un examen. Esto lo demostró ya en 1929 Cannon cuando comprobó la presencia de azúcar en la orina después de exámenes importantes. El azúcar, como se sabe, es un indicador fIsiológico de una fuerte reacción emocional. Estas reacciones distraen la atención-concentración y conducen al seguimiento inadecuado de las instrucciones y a una mala interpretación de pistas informativas obvias. Autores que han estudiado la ansiedad ante los exámenes han distinguido en ella dos aspectos: preocupación por la actuación personal y emoción o reacciones intrínsecas y neurálgicas ante los exámenes (Hembree, 1988). La preocupación parece proceder del miedo a las consecuencias negativas como resultado de la actuación en los exámenes. Es decir, los alumnos con ansiedad pueden temer que sus malas calillcaciones condicionen su futuro y provoquen rechazo de los compañeros, padres y profesores, ridículo o pérdida de respeto. Desde este punto de vista, no se debería llamar ansiedad de los exámenes, porque no es el examen el que produce tales sentimientos; es la respuesta anticipada y no deseada que puede resultar de una mala calillcación lo que es la fuente de tal ansiedad. Esto lo confIrma el hecho de que los que se someten a exámenes de manera anónima o a pruebas que no tienen consecuencias personales, no suelen mostrar ninguno de los bloqueos que aparecen en los alumnos con ansiedad ante los exámenes. No es probable que se encuentre una respuesta simple y universal a las cuestiones relacionadas con las causas y curación de la ansiedad ante los exámenes, dado que los seres humanos son complejos y las situaciones en las que se les examina son diversas; sin embargo, combinando los resultados de investigaciones realizadas al respecto (Hembree, 1988; Tryon, 1980) y las observaciones comunes del comportamiento humano, podemos ofrecer algunas generalizaciones que parecen razonables: a) Hay una correlación negativa entre el nivel de preparación y el nivel de ansiedad ante exámenes. Los mejor preparados tienden a ser menos ansiosos cuando se enfrentan a cualquier tipo de prueba. b) Hay una alta correlación positiva entre el nivel de ansiedad y el nivel de aspiración. Los más ansiosos ante un examen tienden a ser los que tienen más necesidad o deseo de hacerla bien. c) Grados moderados de ansiedad facilitan y mejoran la actuación en exámenes. Grados más extremos suelen empeorarla. d) Cuanto más familiarizado esté un alumno con un tipo de prueba, es menos probable que sea víctima de ansiedad extrema. e) La ansiedad puede ser útil educativamente si se distribuye, a un nivel relativamente bajo, a lo largo del curso, en vez de concentrada a niveles relativamente altos justo antes y durante los exámenes. Una enseñanza
259
260
La evaluación
de aprendizajes
buena cuenta con dosificar controladamante una energía estimulada por la ansiedad de los exámenes. MacKeachie (1988: 7), después de más de 30 años de investigaciones relacionadas con la ansiedad y las estrategias de estudio, ha concluido que la pobre actuación de los alumnos ansiosos se suele deber a unas malas técnicas de estudio: Me he preocupado de alumnos cuya actuación se ve dificultada por una excesiva ansiedad ante exámenes de logros ... pero aunque estos alumnos hayan aprendido a relajarse y controlar sus sentimientos de ansiedad, su actuación no mejora. Nuestras conclusiones más recientes indican que tales alumnos obtienen malos resultados en los exámenes no porque están ansiosos, sino porque están mal preparados. Los alumnos muy ansiosos estudian, pero lo hacen de manera ineficaz:, memorizando detalles y reduciéndose a leer apuntes y textos una y otra vez.
Es evidente que un alumno con un alto grado de ansiedad presenta un bajo autocontrol que, desde el punto de vista del rendimiento supone dificultades en el hábito de estudio, en el empleo adecuado del tiempo disponible, etc. Las ayudas para este tipo de estudiantes varían según los diversos enfoques adoptados. Algunos programas se centran en mejorar estrategias de aprendizaje, y otros en entrenar el autocontrol y en la modificación de los procedimientos negativos que se desencadenan en los momentos previos. El programa más conocido es el entrenamiento en inoculación del estrés (Meichenbaum, 1975), que enseña al estudiante a comprender la naturaleza de sus reacciones de estrés y a reconocer cuándo se pone nervioso y cómo superarlo. Primero practica estas habilidades en una situación imaginaria y luego las lleva a situaciones reales. Para finalizar, resumimos en el diagrama siguiente la comparación entre la evaluación formativa y sumativa:
Objetivo
Ev. Ev.
Sumativa
Formativa
Clases de evaluación
En realidad, los profesores practicamos de modo espontáneo la evaluación sumativa, y aprovechamos la información en ella obtenida para llevar a cabo ocasionalmente elfeedback de la evaluación formativa. Sería conveniente incrementar de forma progresiva esta última hasta aproximarse a la utopía que defiende la permanencia en el tiempo de la evaluación formativa y la reserva de momentos para la evaluación sumativa.
261
NOI)Vn1VA:I V1:1a OS5I)OHd 1:1 '"
La evaluación debe realizarse según un proceso que sirva de guía de trabajo para construir una prueba, aplicada, valorada, tomar las decisiones oportunas e informar de ellas a los alumnos, lo que puede materializarse mediante los pasos siguientes (los interesados encontrarán en Ebel y Frisbie, 1977, un clásico imprescindible cuando se trata de evaluación de aprendizajes, interesantes matices, diseminados a lo largo de su obra, sobre los pasos de este proceso, que han inspirado muchas de las ideas que aquí recogemos): 1. Planificación. 2. Selección del formato de los ítems. 3. Construcción de los Ítems. 4. Ejecución. 5. Corrección y calificación. 6. Toma de decisiones. 7. Revisión.
PLANIFICACiÓN 1. Tabla de especificaciones Para planificar un examen, sobre todo cuando los resultados se van a valorar criterialmente, como es el caso más frecuente en situaciones académicas, una de las estrategias que se usa a menudo es empezar estableciendo una tabla de doble entrada, conocida como «tabla de especificaciones» o «matriz de evaluación», que recoja los objetivos que se van a evaluar directamente. Con independencia de la taxonomía de capacidades y de la estructura de contenidos adoptadas, no es necesario examinar de todos los objetivos, sino sólo de una muestra. El conocimiento, producto del aprendizaje significativo, no está atomizado; por el contrario, se almacena de una manera relacionada en racimos de conocimientos afines. Por esta razón, se puede concluir que, seleccionando una muestra representativa, se puede extrapolar de su éxito, la consecución de toda una programación. Si la materia es breve, la muestra se puede seleccionar mentalmente; en caso de exámenes más amplios, ayuda hacer una representación escrita
1.1.
266
La evaluación
de aprendizajes
colocando los diferentes contenidos que se van a evaluar en las filas, y las capacidades en las columnas. En los ejemplos siguientes, la primera tabla reproduce una «matriz de programación» con el número de objetivos de dicha programación, y la segunda una tabla de especificaciones en la que el número de objetivos se ha traducido a número de elementos de un examen, localizados en las celdas: MATRIZ DE PROGRAMACiÓN
6O 1118 11 5 33 3 5 2 28 35 4 1 3 28 5 1 12 2 34 O 2 111 132 16 20 18 1. Lectura
4 2 1 5 O
(Tabla de especificaciones)
131 21 3 O 1O2 910 8 11 18 12 7 2III 2 O 3 O 96 64 O I3419 4. Sustantivo
2 3 I O
TOTAL
267
El proceso de la evaluación
Estos elementos, cantidades o porcentajes de la tabla de especificaciones, no deben interpretarse necesariamente como preguntas o ítems separados, sino también como cuestiones parciales de preguntas más complejas; por ejemplo, un ítem sencillo para controlar la memorización de una definición puede valer 1, y otro que encierre varias cuestiones, 3. En un examen de 2 ítems, representarían respectivamente el 25 y el 75% de la tabla. La TABLADE ESpecificaciones proporciona una visión general de la muestra que se va a evaluar, así como la importancia relativa de cada categoría de capacidades y contenidos. En nuestro ejemplo, de los 132 objetivos propuestos en la «matriz de programación», se controlan sólo 64, distribuidos en 10 preguntas o elementos para controlar memorización, 11 para comprensión, etc.; y 7 sobre lectura, 8 sobre ortografía, etc., como aparece en la «matriz de evaluación». Haciendo una revisión de las entradas de dicha matriz por filas y columnas, se puede matizar la proporción adecuada para evaluar las capacidades que se busquen para cada contenido. En todo caso, las preguntas o cuestiones del examen que figuran en la tabla de especificaciones deben quedar definidas a partir de los objetivos de aprendizaje localizados en las celdas de la «matriz de programación», atendiendo fundamentalmente a los siguientes factores:
a) Objetivos: Deben recogerse en la muestra los objetivos importantes. La importancia se puede deducir tanto de las capacidades adecuadas al desarrollo de los alumnos como de los contenidos científicos; así, en general debe haber más ítems para controlar comprensión y aplicación que memorización, y un contenido con 8 temas debe representar el doble de ítems que otro con 4. b) TIempo dedicado a la instrucción: Por regla general, una materia que ocupó 6 horas de clase debe representar aproximadamente el doble de ítems que otra de 3 horas. e) Prerrequisitos: Si unos objetivos se consideran como base necesaria para unidades didácticas futuras, deben representar más ítems que otros no considerados como prerrequisito.
d) Otras oportunidades de evaluación: Si un objetivo puede evaluarse de nuevo en una prueba posterior, su control puede posponerse; no así otro que no se va a volver a ver. Esta selección puede quedar condicionada también si el objetivo debe controlarse por medio de una respuesta abierta y los exámenes posteriores, por alguna razón, van a consistir en pruebas objetivas.
Númerode preguntas 1.2. Las capacidades y contenidos reflejados en la tabla de especificaciones da pistas sobre el número de preguntas de cada objetivo, como acabamos de ver; sin
268
La evaluación
de aprendizajes
embargo, se pueden considerar, además, otros criterios complementarios para determinar el número de preguntas de un examen.
a) Duración del examen: Por lo general, cuanto mayor sea el tiempo disponible y más largo sea el examen, las calificaciones resultarán más fiables; sin embargo, esta afirmación, por razones obvias, no puede extrapolarse indefinidamente, por lo que no es adecuado ni conveniente un examen de excesiva duración: para un niño, 60 minutos, y para un universitario, 3 horas empieza a considerarse excesivo. En consecuencia, el número y la complejidad de las preguntas que han de ser incluidas en un examen vienen condicionados por este tiempo disponible. A partir de esta limitación, parece lógico confeccionar una prueba con un número adecuado de preguntas, de modo que todos los alumnos, haciendo el examen a un ritmo normal, tengan tiempo suficiente para responderlas. Y ello por varias razones. En primer lugar, porque la velocidad en contestar, a no ser en aquellos casos en que se considere como un objetivo, no sirve como indicador de logros de aprendizaje. Quizá los tests rápidos sean adecuados en situaciones específicas y excepcionales, pero no habituales. En este sentido, alguna investigación educativa demuestra que no hay correlación entre velocidad y logros. Así, por ejemplo, la siguiente tabla CEbely Frisbie, 1977), que relaciona la velocidad y la calificación de un examen de 125 ítems verdadero/falso realizado por 100 alumnos. La media es 96,1. A los 50 minutos habían terminado 10 alumnos; el último tardó 120 minutos.
Orden de finalización
32 24 956 965 35 ................................ 940 964 948 955 27 31 52 968 942 40 30 25 Suma de calificaciones 1.010 ............................. Rango de calificaciones
La suma de las calificaciones de los 10 alumnos que terminaron primero el examen fue 965. La mejor calificación de este grupo fue 105; la peor, 70; por tanto, su rango de calificaciones fue de 35 unidades. De acuerdo con la tabla, se puede apreciar cómo, aunque el rango de calificaciones varía bastante de grupo a grupo, no se observa una tendencia a que los alumnos obtengan una calificación más alta según el tiempo empleado en hacer la prueba.
El proceso de la evaluación
Una segunda razón que aconseja dar tiempo suficiente para contestar es que la ansiedad que los alumnos sufren en los exámenes, ya alta de por sí en pruebas sin límite de tiempo, se acentúa ante exámenes que hay que realizar en poco tiempo o en un tiempo muy justo. En resumen, una prueba se considera adecuada cuando la mayoría de los alumnos disponen de tiempo para contestar a todas las preguntas. Aunque no hay normas generales, los especialistas en evaluación consideran inadecuado por rápido un examen si menos del 90% de los alumnos tiene tiempo para contestar todas las preguntas. En todo caso, el número de cuestiones que un alumno puede contestar en un tiempo determinado depende de varios factores; por ejemplo, del tipo de preguntas, de la mayor o menor complejidad del proceso requerido para poder responderlas y de los hábitos de trabajo y experiencia del alumno (uno puede quizá terminar un examen en la mitad del tiempo que necesita otro). Por ello, no es fácil determinar qué tiempo se requiere para contestar a unas determinadas cuestiones. Normas como «estimar un minuto para cada ítem de elección múltiple» o «30 segundos para un ítem verdadero/falso» son generalizaciones sin fundamento. Sólo la experiencia de proponer pruebas semejantes en contextos semejantes puede ayudar a decidir el tiempo necesario para realizar un examen. b) Muestra de preguntas: Hemos dicho al tratar de la tabla de especificaciones que basta controlar una muestra significativa de objetivos para poder sacar conclusiones de toda una programación. Además, es obvio que en los exámenes tampoco se incluyen todas las preguntas posibles que sugieren aquellos objetivos seleccionados; aunque, por lo común, cuantas más preguntas contengan, más fiables van a ser las calificaciones. En terminología estadística, los ítems de un examen constituyen una muestra de una población mucho más amplia. Así, una prueba que consista en la localización en un mapamundi de 100 capitales se podría construir seleccionando una de cada 5 capitales de las 500 que se han estudiado en clase. Estas 500 capitales constituyen la «población», de las que se seleccionan las 100 como «muestra» representativa de las 500. Conviene insistir en que la población a la que nos referimos ahora no son los objetivos (en este caso, el objetivo sería único: «localizar capitales en un mapamundi»), sino el conjunto de todas las preguntas que se pueden hacer para comprobar los objetivos. Consideremos un alumno al que, por una parte, se le pide localizar las 500 capitales y sitúa correctamente 325 (65%); y, por otra, de las 100 capitales de la muestra, localiza bien 68 (68%). La diferencia entre el 65% de la población y el 68% de la muestra se conoce como error de muestreo. En este ejemplo, la población de las preguntas está definida, 500 capitales; pero no ocurre así en la mayor parte de los casos, en los que no se dispone de una relación predefinida y limitada para elegir una muestra representativa de las preguntas. Sin embargo, las que se utilizan para cualquier prueba son también
269
270
La evaluación de aprendizajes
una muestra, dado que suponen sólo una parte de las que se podrían utilizar. El problema, pues, estriba en elegir una muestra adecuadamente representativa de una población teórica de las cuestiones correspondientes a un tema. Por consiguiente, toda prueba no deja de ser una muestra, por lo que su calificación está también sujeta a sus errores: cualquier muestra perfectamente seleccionada al azar estará sujeta a los errores de muestreo simplemente porque es una muestra. Sin embargo, una muestra grande estará por lo común más cercana al parámetro población que otra más limitada, y los errores debidos a ella serán menores. En resumen, es importante seleccionar una muestra de pruebas significativa, a sabiendas de que los errores inherentes de muestreo estarán presentes en prácticamente todas las calificaciones educativas; aunque no están producidos por errores al hacer el muestreo. Por último, conviene hacer una consideración más sobre el número de preguntas. Hay que señalar que depende también del factor interpretación que se va a hacer de los resultados: una calificación criterial necesita una muestra más amplia que una normativa. Como orientación, hay autores que establecen como mínimo 3 preguntas para evaluar un objetivo criterialmente; pero sólo 2 si la interpretación va a ser normativa.
2.
SELECCiÓN DEL FORMATO DE LAS PREGUNTAS Además de determinar el número de preguntas de un examen, hay que decidir la forma de cada una de ellas. El siguiente cuadro ofrece sugerencias, que de ninguna manera pretenden ser criterios rígidos, para seleccionar el formato según la capacidad que se va a evaluar. En él se observa que los objetivos con capacidades cognoscitivas y afectivas se pueden evaluar a través de indicadores indirectos; no así los relacionados con capacidades psicomotrices. También aparece que la evaluación de las capacidades cognoscitivas admite una enorme gama de pruebas objetivas, libres y algunas de diagnóstico; la de las afectivas, por el contrario, se reduce a las pruebas diagnóstico; y la de las psicomotrices, preferentemente a las pruebas reales y simuladas.
271
El proceso de la evaluación
Indirectos
P. Objetivas Verdadero/Falso
P. Diagnóstico
P. Reales Simulación
Elección Múltiple Respuesta limitada Problemas
P. Libres Respuesta abierta Pruebas mixtas Examen oral Prueba práctica Proyecto
Además del cuadro anterior, las características citadas en el análisis de cada formato de ítem pueden servir como criterios para seleccionado en cada caso. Allíse deducía que se deben elegir pruebas de respuesta abierta cuando: El profesor es el mismo que enseña, construye y corrige el examen. El grupo de alumnos es pequeño. El examen no se va a volver a usar. Se quiere comprobar la expresión escrita. Se va a controlar un repertorio de objetivos de aprendizaje cuyas capacidades están formuladas con palabras tales como describir, diseñar, hacer gráficas, desarrollar, explicar y, en general, las que requieren alguna forma de producción por parte del alumno que no puede ser demostrada a través de pruebas objetivas. El profesor desea explorar más los procesos de los alumnos que medir los resultados. El profesor se siente más capacitado para calificar críticamente un ensayo que para construir pruebas objetivas. Hay más tiempo para corregir los exámenes que para preparados.
272
La evaluación
de aprendizajes
Por el contrario, se debe elegir algún formato de prueba objetiva cuando no es el mismo profesor el que enseña, construye y corrige el examen y el grupo de alumnos es numeroso, etc.
3.
CONSTRUCCiÓN DE LAS PRUEBAS Conocidas las técnicas de construcción de los distintos formatos, conviene tener en cuenta los siguientes aspectos a la hora de redactadas.
a) Dificultad: Un primer aspecto importante que hay que considerar es el nivel de dificultad requerida en cada prueba; dificultad que debe estar determinada previamente mediante su aplicación a un grupo de control. En general, los ítems demasiado fáciles y demasiado difíciles no contribuyen especialmente a discriminar los logros de los alumnos. En cuanto a los difíciles, a no ser que el profesor sea capaz de hacer preguntas sencillas sobre situaciones complejas, no suelen tener una sola respuesta correcta definida, por lo que no discriminan a los alumnos. En relación con los fáciles, casi todos, incluso los menos preparados, los contestarán; por lo que su efecto es añadir una cantidad constante a las calificaciones de cada alumno obtenidas con una valoración criterial para subidas artificialmente.
b) Orden de las preguntas: Si el tiempo de examen es amplio, el orden de las preguntas apenas tiene efectos en los resultados. Sin embargo, si el tiempo se restringe, es preferible presentar las preguntas en orden de dificultad crecienu:, pues es lógico suponer que las preguntas más fáciles del principio reducirán la ansiedad de los alumnos ante el examen. Parece también lógico agrupar las preguntas referidas a un mismo conjunto de contenidos. e) Componentes de la nota: Otro aspecto que debe tenerse en cuenta es la combinación de los componentes de la nota. Cuando un profesor ha de planificar pruebas escritas y orales, trabajos, participación en clase y otras referencias para calificar un curso, un período de evaluación, un bloque temático, etc., cada uno de estos indicadores ha de tener el peso apropiado con objeto de obtener una calificación de máxima validez. No resulta fácil, sin embargo, hacer una ponderación adecuada del valor de cada componente para la nota final. Se pueden ofrecer, no obstante, algunas orientaciones. En principio, y teniendo en cuenta que siempre es preferible usar varias y diferentes clases de indicadores de logro, relevante cada uno de ellos para diferentes objetivos, en igualdad de condiciones habría que dar mayor peso a los componentes que impliquen una nota más fiable. Si, por otra parte, y como ocurre con frecuencia, todos los componentes tienen una correlación alta y sirven para medir de forma conjunta todos los objetivos importantes, su pondera-
273
El proceso de la evaluación
ción, como es obvio, entraña menos problemas. Sin embargo, cuando algún componente sirve para evaluar objetivos únicos, relevantes por ser únicos, no por su mayor o menor importancia, su peso debe ser superior al asignado a otros que cubren varios objetivos iguales. Hay que señalar también que los objetivos más importantes han de ser evaluados mediante más componentes, con objeto de resaltar su importancia en la nota final.
EJECUCiÓN 4. La celebración de los exámenes plantea pocos problemas; no obstante, tienen tan importantes consecuencias que no está de más que profesores y alumnos sepan cómo pueden realizarlos mejor. Hay buenas obras (Acosta, 1982; Alliprandi, 1972; Clifford, 1969; Díez, 1989; Gómez y García, 1991; Maddox, 1970; Rowntree, 1982) que pueden proporcionar interesantes ayudas, de las que aquí transcribimos algunas consideraciones.
a) Instrucciones: Dado que el tiempo de examen resulta siempre escaso para la mayor parte de los alumnos, es necesario aprovecharlo al máximo. Por ello conviene que las instrucciones para la prueba -tales como, tiempo disponible, cuántas y qué tipo de 'preguntas va a tener, cómo se va a calificar, cómo usar la hoja de respuestas, instrucciones específicas para responder alguna pregunta, material que se permite utilizar (diccionario, calculadora, etc.)estén dadas de antemano y mejor por escrito, que el material que se haya de entregar a los alumnos esté bien organizado con objeto de repartirlo rápidamente, y que se eviten en lo posible los avisos de última hora. De este modo, sin duda, cundirá más el tiempo previsto para el ejercicio. Ya durante la celebración del examen, el profesor ha de aclarar posibles ambiguedades que surjan en la transcripción de las instrucciones o del ejercicio; sin caer, no obstante, en la tentación de orientar las respuestas. Obvia decir que, en caso de hablar con algún alumno, ha de ser siempre discretamente para no molestar a los demás. b) Exámenes anunciados o por sorpresa: Algunos profesores gustan de hacer exámenes por sorpresa, sin previo aviso, considerando que así consiguen que los alumnos estudien regularmente y no se dediquen a «empollar» a última hora. Quizá la sorpresa sea un factor válido, pero sólo en circunstancias muy específicas. Por otra parte, el «empollar» el día antes puede valer para exámenes que sólo requieran memorización superficial, pero no cuando se evalúan capacidades más complejas. Es preferible, para que los estudiantes saquen de su estudio el máximo provecho, no sólo preparar concienzudamente el examen para los alumnos, sino también preparar a los alumnos para el examen. Por ello, conviene que éstos sepan siempre con tiempo suficiente que van a tener un examen y en qué va a
274
La evaluación
de aprendizajes
consistir éste, así como otros aspectos que se consideren necesarios para dar respuesta a las preguntas lógicas que suelen hacerse ante cualquier prueba. Con ello, además, se reduce su ansiedad.
c) Habilidades para hacer exámenes: No es infrecuente que los alumnos que no «saben» hacer exámenes rindan por debajo de lo esperado. Por ello, el profesor ha de procurar que tengan en cuenta, entre otras, las siguientes consideraciones: 1. El alumno debe leer o escuchar atentamente las instrucciones del examen y seguidas al pie de la letra. 2. Debe interpretar las palabras clave de cada pregunta: definir, describir, justificar, ete., y todo, siempre, a veces, ete. 3. Debe conocer y considerar los criterios de calificación: ¿cuánto vale cada pregunta?, ¿quitan puntos las respuestas erróneas?, ¿se puede dejar alguna pregunta sin responder?, etc. 4. Debe tener en cuenta la importancia de la legibilidad y la limpieza, circunstancias que pueden influir en todo corrector. 5. Debe adoptar una buena postura física. 6. Debe afrontar la prueba con la mejor disposición mental posible; lafatiga de un estudio atropellado a última hora puede pasar recibo. 7. Debe asignar a cada pregunta un nivel de dificultad (muy difícil, regular, fácil) y, consecuentemente, un tiempo a cada una para poder responder a todas. 8. Debe saber que en las pruebas objetivas por lo general se penaliza el adivinar; sin embargo, ha de intentar deducir razonadamente las respuestas a todas las preguntas. 9. Si ha de reflejar sus respuestas en una hoja aparte, como suele ser el caso de las pruebas objetivas, debe comprobar concienzudamente las marcas para asegurarse de que corresponden a lo que realmente quiere contestar. 10. En pruebas libres debe reflexionar y organizar sus respuestas antes de empezar a redactadas: en primer lugar, hacer un esquema de las ideas principales y, luego, desarrollado. Además, se aconseja escribir siempre algo adecuado en todas las preguntas. 11. Añadir,siempre que sea conveniente, diagramas, gráficos, recuadros, etc. 12. Debe repasar sus respuestas para detectar y corregir los errores. Está demostrado que el cambio de respuestas tiende a mejorar las calificaciones cuando tal cambio, más que a adivinanza al azar, responde a nuevas intuiciones (Crocker y Benson, 1980; Mueller y Wasser, 1977). 13. Para evitar las faltas de ortografía, en caso de duda, utilizar sinónimos o perífrasis.
El proceso de la evaluación
d) Escribir O dictar: En general, la mejor presentación de cualquier formato de examen es entregado impreso o fotocopiado. Así sucede casi siempre con las pruebas objetivas; en cambio, las pruebas libres y los problemas científico-matemáticos a veces se escriben en el encerado o se dictan al principio del examen. En ocasiones, se dicta cada pregunta y se da un tiempo de respuesta antes de pasar a la siguiente. Esto permite marcar el ritmo de los alumnos y asegurar que todos puedan responder a todas. Algunos estudios señalan que en estos casos los resultados son semejantes a cuando ellos siguen su ritmo. Es más, si las preguntas se hacen a una velocidad razonablemente rápida, se pueden presentar más y obtener así calificaciones más fiables para un mismo período de examen. Sin embargo, esta modalidad tiene también sus desventajas: se presiona más a los alumnos; no pueden volver sobre las respuestas para corregidas; su atención no está siempre tan fija en la hoja de examen, dificultando así la vigilancia, etc. e) Exámenes con o sin libros: Las pruebas en las que se pueden utilizar libros y apuntes se ven a veces como un modo de motivar al alumno para que no estudie superficialmente de memoria, sino para que asimile e integre los conocimientos; asimismo, obligan al profesor a construir preguntas que sirvan por lo menos para evaluar comprensión y aplicación. Por todo ello, este tipo de pruebas tiene su razón de ser. Además, los alumnos se dan pronto cuenta de que, si no van al examen bien preparados, los libros les sirven de poco: el buscar hechos y fórmulas puede distraedes y quitades un tiempo necesario para responder adecuadamente las preguntas. Kalish (citado por Ebel y Frisbie, 1977), sin embargo, en una comparación experimental de exámenes aparentemente iguales, con libros en un grupo y sin ellos en otro, concluye que en realidad no son equivalentes, sino que miden capacidades distintas. Además, contradiciendo las creencias populares sobre los exámenes con libros, sugiere algunas desventajas cuando señala que inducen a reducir el esfuerzo para lograr una mayor comprensión y favorecen un estudio más superficial que se queda en saber, no las cosas, sino en dónde están. Las tareas para hacer en casa tienen en general las mismas características que los exámenes con libros, con dos diferencias importantes: no hay límite de tiempo y no existe la seguridad de que representen niveles de logros personales, sino los del ocasional profesor particular. Por otra parte, son tareas que normalmente se ponen con el propósito de una evaluación formativa, por lo que no deberían entrar como componente de la calificaciónde una evaluación sumativa. t) Reducir las oportunidades de copiar: En cualquier examen, el profesor tiene una obligación adicional: evitar que los alumnos copien para conseguir una calificación mayor que la que les corresponde por su nivel de conocimientos. Este problema, que a veces sugiere versiones jocosas dentro y fuera del aula, tiene indudables componentes éticos, y por ello debe considerarse con seriedad.
275
276
La evaluación
de aprendizajes
El término «copiar» puede abarcar gran variedad de actividades: mirar el examen de un compañero que se encuentre situado cerca; usar libros, apuntes o «chuletas»; «soplar» información durante la prueba; comunicarse con un teléfono móvil; introducir papeles con alguna pregunta desarrollada y escrita previamente; «robar» exámenes; suplantar a otro alumno, etc.; pero todas ellas tienen como fin el engaño. Cualquier alumno avispado dispone en algún momento de oportunidades para copiar en exámenes de cualquier tipo y, aunque haya circunstancias que puedan incitar a ello, ninguna lo justifica. Las propias circunstancias de la prueba pueden ofrecer a veces más tentaciones de copiar: cuando e! alumno entiende que la calificación va a depender de factores poco relevantes y no va a dar la verdadera medida de sus conocimientos, cuando un examen exija un conocimiento detallado y superficial o se considere desproporcionado en relación con la enseñanza recibida, «justifica»en el alumno la intención de copiar y le anima a preparar «chuletas». Por otra parte, comprobar cómo algún compañero ha salvado la situación copiando incita a otros a hacer lo mismo. De todos modos, independientemente de las circunstancias, el engaño no se buscaría si todos los alumnos reconocieran que siempre es deshonesto e injusto. De ahí la responsabilidad del profesor. En ocasiones, e! copiar no es sino un último intento desesperado por aprobar en circunstancias en que se da una importancia desmesurada a las calificaciones. Sin embargo, las calificaciones son, o debieran ser, símbolos de los logros educativos; por ello, no pueden considerarse como coartada del engaño sin merma de su valor y del incentivo que para cualquier alumno supone una buena calificación conseguida honestamente. ¿Qué hacer para evitar en lo posible que los alumnos copien? De mano, han de reconocer que e! copiar es deshonesto e injusto y, por ello, el acto en sí mismo es reprobable y merecedor de algún tipo de sanción; por otra parte, e! profesor no debe entender e! copiar como algo inevitable y como un comportamiento aceptable y normal en los alumnos. Es su responsabilidad poner los medios necesarios para intentar evitar todo lo que facilite e! engaño antes, durante y después de la prueba: guardar bien el ejercicio antes de su realización; entregar exámenes distintos o con las preguntas, distractores, etc., dispuestos en distinto orden si los alumnos tienen que estar muy juntos; exigir e! examen en hojas especiales selladas; vigilar durante la prueba, no tanto para «pescar» a alguien, cuanto por su responsabilidad de «defender» a la mayoría de los alumnos que se comportan honestamente, etc. En todo caso, si un profesor está seguro, fuera de toda duda, de que un alumno está copiando, no puede pasado por alto; ha de obrar en consecuencia de! modo que se considere pertinente o según se haya indicado en las instrucciones previas.
Elproceso de la evaluación
277
CORRECCiÓN Y CALIFICACiÓN Una vez finalizado el examen, se procede a su corrección y calificación, para lo que conviene tener en cuenta las siguientes cuestiones:
a) Métodos de corrección: Aspecto especialmente importante para «minimizar» la subjetividad en la corrección de las pruebas libres. Se proponen los métodos holístico y analítico desarrollados en el capítulo 8. b) Factores que influyen en la calificación: La evaluación nunca es completamente objetiva, siempre puede haber factores que influyan en uno u otro sentido. Algunos como los siguientes (Guilbert, 1989): 1. La benevolencia y la rigidez: Ambos son factores cualquier profesor, y sobre todo por los alumnos. rrestados consiste en que el profesor invierta en dencia habitual. Así, por ejemplo, ante la rigidez, más calificaciones favorables que desfavorables: Malo
Bueno Bien
Mediano Aprobado
Suspenso
harto conocidos por Un medio de contracierta medida su tense han de considerar
Muy bueno Notable
Excelente Sobresaliente
Por el contrario, ante la benevolencia, se han de considerar más calificaciones desfavorables: Pésimo
Malo
Muy malo
Mediano
Bueno
2. Efecto centrípeto: Consiste en la tendencia a evitar los juicios extremos, con lo que se tiende a desplazar a los individuos hacia la media del grupo. Este efecto puede disminuirse mediante la utilización de una escala más amplia en el centro que en los extremos:
-10
-9
-8
-6
-4
o
+4
+6
+8
+9
+10
3. Efecto halo: Por el que, de acuerdo con Thorndike, un aspecto particular de una persona adquiere tal relevancia para el profesor, que va a influir en la. evaluación general de todos los aspectos, y viceversa. Este efecto será menor cuando la evaluación verse sobre aspectos independientes. 4. Error lógico: Es un caso particular del «efecto halo», y se produce por la presunción de que existe una relación entre dos variables que se van a evaluar; por ejemplo, se considera que si un alumno responde bien a las
5.
278
La evaluación
de aprendizajes
preguntas de memoria, lo hará igual de bien en cuestiones que requieran comprensión o aplicación. Este error puede disminuir si la evaluación se refiere no a abstracciones, sino a comportamientos observables. 5. Error por contraste y similitud: Una persona preocupada, por ejemplo, por el orden, tendrá tendencia a juzgar, por contraste, a las otras personas desordenadas, y viceversa. No es infrecuente, por otra parte, creer que los demás deben ser como uno mismo.
c) Exigencias de las calificaciones: Las calificaciones sirven de base para tomar decisiones relevantes sobre planes educativos, opciones de carreras y demás condicionamientos importantes para los alumnos y para las propias instituciones educativas. Por otra parte, las calificaciones sirven también para estimular, dirigir y recompensar los esfuerzos de los alumnos. Por todas estas razones, deben ser tratadas cuidadosamente, con precisión, y han de basarse en pruebas y observaciones suficientes. Hay quien minusvalora la importancia de las calificaciones, considerando que lo que los alumnos aprenden es más importante que la nota que consiguen. Nadie duda de que, por sí mismo, lo verdaderamente valioso es el conocimiento que se ha llegado a adquirir; pero tal consideración equivale a decir que no existe relación entre lo aprendido y la calificación que el alumno recibe. y, aunqu~ con excepciones, sabemos que no es así (cap. 2). Quiérase o no, las calificaciones están presentes en todo sistema educativo. Por ello, si pecan de imprecisión, el remedio no es minimizadas ni eliminadas, -con ello no sólo no se anula el problema, sino que se añaden otros-; más bien hay que dades su justo valor, asignadas con cuidado, procurar que mejoren su validez y precisión, que informen lo más exactamente posible de los logros educativos e interpretadas adecuadamente. Uno de los requisitos de un buen sistema de calificación reclamado con más insistencia es que las notas indiquen tan precisamente como sea posible hasta qué punto los alumnos han adquirido los objetivos de aprendizaje de un programa. El que los profesores se dejen influir, ya sea conscientemente o sin sabedo, por factores extraños a la hora de asignar calificaciones se atribuye, entre otras causas, a la ausencia de definiciones claras, aceptadas y explícitas para cada nota. En estos casos, los prejuicios e idiosincrasia de los profesores interfieren en los criterios para calificar, las calificaciones terminan por no ser fiables y pueden inflarse o disminuirse, haciendo que su valor facial sea más alto o más bajo que su valor real; por lo que el significado de las notas varía de profesor a profesor, de curso a curso, de escuela a escuela (realidad generalmente constatada, que recogen Stiggins et al., 1989). Estudios como los de Starch y Elliot (citados por Ebel y Frisbie, 1977) sobre la fiabilidad de las notas confirman la variabilidad de juicios basados en criterios presumiblemente absolutos. Dieron copias idénticas de un examen de Inglés a 142 profesores, con instrucciones para calificados sobre 100 para el examen
El proceso de la evaluación
perfecto. Las calificaciones asignadas al mismo examen se dispersaron entre el 50 Yel 98. Se obtuvieron resultados semejantes en exámenes de otras materias como Geometría e Historia. No se puede generalizar esta situación, pero existe campo considerable para mejorar la uniformidad de criterios y, por tanto, la fiabilidad de las calificaciones.
d) El sistema de codificación: La calificación no es sino una codificación de la valoración de los logros instruccionales alcanzados. Por tanto, se impone seleccionar la escala, los registros, las plantillas y hacer uso de unos mismos símbolos que han de ser claramente conocidos, valorados, definidos y comprendidos de igual modo por todos los miembros de una comunidad educativa. En general, las codificaciones numérica y no numérica de la calificación representan dos extremos en términos de precisión. Los defensores de un sistema de letras o similar quieren subrayar el contraste entre una valoración cualitativa y una supuesta medición rigurosa, señalando que las bases para determinar las calificaciones no son lo suficientemente fiables para justificar la aparente precisión de los números. Sin embargo, cuando es necesario tratar las calificaciones, como es el caso del cálculo de medias, las letras han de ser transformadas en números. Además, cuando se utiliza la misma letra para un rango de calificaciones, algunas más altas que otras, se pierde realmente información; dado que a un S, por ejemplo, sea alto o bajo según el logro en que se base, se le da siempre el mismo valor (5, por ejemplo) cuando se reconvierte a número. Lo dicho para el sistema de letras sirve, obviamente, para calificaciones registradas como Apto, Progresa adecuadamente, etc. Otros se inclinan por las calificaciones numéricas porque contribuyen a una mayor precisión y a la larga ahorran tiempo. Unos y otros sostienen generalmente que basta con distribuir los logros en 10 números o 5 letras desde 10/NSB a O;E/MD(cap. 13). Sin embargo, de vez en cuando aumenta el interés por refinar la escala de calificaciones añadiendo signos de + y- a las letras básicas (por ejemplo: Apto+, SF- PA+, PA-), o fracciones decimales a los números básicos (por ejemplo: 4,5, 3,5). Y otras veces, por el contrario, toma fuerza la noción de que el problema de calificar se puede simplificar usando menos categorías; sin advertir que la restricción del número de categorías reduce la información que conlleva la nota.
e) Notas únicas o múltiples: El logro, en la mayoría de los programas, supone la conjunción de varios factores: conocimientos, capacidades y procedimientos desarrollados, actitudes fomentadas, etc. Del mismo modo, son también varios los indicadores de logro que sirven para determinar la nota, como se mencionó al hablar de sus componentes. Por ello, es lógico preguntarse si un solo símbolo puede servir y hacer justicia a tantos y tan variados aspectos. De hecho, hay profesores que estiman que no es posible y consideran la nota como una especie de composición incierta y variable; por ello, especialmente en los primeros niveles de la Educación Primaria, se inclinan por unas calificaciones más
279
280
La evaluación de aprendizajes
analíticas y descriptivas en forma de informes escritos, cuadros, tablas, etc. Obviamente, un informe escrito es mucho más explícito y sirve mejor para comunicar los progresos escolares que un simple número, una letra o una palabra; pero también mucho más laborioso. Otra posibilidad para lograr mayor información es utilizar un sistema múltiple: una nota para indicar el nivel académico alcanzado y otra, u otras, para expresar aspectos tales como actitud, esfuerzo, etc. No obstante, las notas múltiples requieren no sólo una clara distinción de los aspectos que cada una representa, también la seguridad de que el profesor dispone de información válida y suficiente de todos ellos. No es difícil pensar, sin embargo, que las notas múltiples pueden quedar influidas por el efecto halo: un SB en conocimientos predetermina una nota alta en actitudes.
6.
TOMA DE DECISIONES Una vez obtenidos los resultados y valorados con una calificación, procede tomar las decisiones oportunas, individual o grupalmente, siguiendo las observaciones que se recogen en el capítulo 14.
7.
REVISiÓN Es práctica habitual el ofrecer una última oportunidad al alumno para que revise las valoraciones y decisiones que el profesor hizo de sus ejercicios y, así, pueda aportar nuevos datos para alcanzar una mejor evaluación. Incluso algunos profesores dedican alguna clase a realizar esta revisión conjuntamente como un medio más de practicar una evaluación formativa, que, por un lado, corrija errores y, por otro, asegure un recuerdo más duradero. Para ello, es imprescindible planificar estas sesiones de revisión previamente con una información detallada sobre los errores detectados en las respuestas y sus posibles explicaciones; de lo contrario, se corre el peligro de desperdiciarlas con largas y estériles discusiones sobre los merecimientos de un punto arriba o abajo. Al mismo tiempo, si los resultados medios de los alumnos caen por debajo de lo esperado, las decisiones deben dirigirse hacia los métodos de enseñanza y de evaluación; en especial, si los exámenes proporcionan información sobre el fin para el que se proponen, si la formulación de las preguntas adolece de alguna ambiguedad, si el grado de dificultad de las preguntas sobrepasa el límite aconsejable, etc. (cap. 15). * * *
El proceso de la evaluación
Hasta aquí el largo camino que va desde planificar el examen hasta que se informa al alumno de sus logros y de las decisiones tomadas. Aunque a primera vista puede parecer muy complicado, la verdad es que la mayoría de los profesores llegan fácilmente a automatizado. El peligro es más bien que el proceso de la evaluación se convierta en una rutina que no tenga en cuenta las precisiones que intentamos recoger en este y en los anteriores capítulos.
281
Glosario
Abstracto: Se entiende, en contraposición a Concreto, como grado de universalidad; de ahí que las definiciones se consideren abstractas y los ejemplos, concretos. Actitudes: Se tiene una actitud cuando aparecen pensamientos y sentimientos hacia cosas y personas que nos gustan o disgustan, atraen o repelen, por lo que una actitud implica componentes cognitivos (conocimientos), afectivos (sentimientos) y conductuales (acciones). Activación de la Información: Proceso mediante el cual se recuperan aquellos Inclusores necesarios para manejar nuevas Informaciones. Adaptación de Acceso: Véase Adaptación Estratégica. Adaptación Curricular Individual: Cuando el grado de aprender del alumno es muy bajo, es decir, no tiene suficiente Capacidad, estamos ante un perfil de «necesidades educativas especiales» (n.e.e.), cuya medida de intervención más adecuada es la Adaptación Curricular Individual (ACr), en la que los alumnos siguen una programación adaptada a su competencia. Para concretar esta medida, a partir de un análisis de su programación de referencia, se eliminan aquellos Objetivos de Aprendizaje para los que el alumno no tiene capacidad, se modifican a la baja aquellos otros para los que su capacidad es limitada y, por último, se incorporan Objetivos de Aprendizaje de cursos anteriores que necesite repasar y reasimilar porque son Prerrequisitos para nuevos aprendizajes. Estos objetivos que se incorporan constituyen el núcleo de la programación del «aula de apoyo». En el caso de alumnos con n.e.e., asociadas a altas capacidades, la intervención más adecuada es también la Adaptación Curricular Individual pero eliminando Objetivos de Aprendizaje muy repetitivos, modificando al alza los que están dentro de sus posibilidades e incorporando Objetivos de Aprendizaje de cursos posteriores que estos alumnos puedan ya abordar.
284
La evaluación
de aprendizajes
Adaptación Estratégica: Se la conoce también como Adaptación de Acceso y, a veces impropiamente, como No significativa. De ahí que hablemos de Estrategias para desarrollar no sólo Habilidades cognitivas, sino también habilidades de apoyo al aprendizaje y habilidades de autorregulación y control. Por este motivo, las Adaptaciones Estratégicas van desde medidas de adaptación cognitiva y afectiva (entrenamiento en habilidades yestrategias) hasta medidas de adaptación material (eliminación de barreras arquitectónicas, comunicación alternativa, lenguaje Braille, etc.). Con las medidas de adaptación cognitiva y afectiva, se tratará de ayudar a que el alumno llegue en las mejores condiciones posibles a los Objetivos de Aprendizaje mediante el entrenamiento estratégico oportuno. Adaptación Grupal: Es una adaptación con un carácter más abierto, que trata de ajustar el currículo según diferentes criterios, como son la inteligencia predominante del alumno o sus conocimientos previos. Adaptación Individual: Es el ajuste entre los grados y las formas de aprender de un estudiante y la propuesta educativa elaborada para su curso y nivel. El grado equivale a las Capacidades del alumno, concretadas tanto en sus Habilidades cognitivas como de apoyo al aprendizaje, y la forma, por su parte, equivale al Estilo de Aprendizaje del alumno, es decir, a su manera peculiar de abordar el conocimiento. Las formas y grados de aprender van a ser, pues, los que definan el perfil de los estudiantes, dando lugar a que éstos puedan tener mayores o menores dificultades en su aprendizaje y, en consecuencia, a que puedan precisar propuestas curriculares más o menos adaptadas. Adaptación Curricular Grupal: Se conoce también como Diversificación Curricular. Cuando en los últimos cursos de la educación obligatoria, el desfase de conocimientos es muy importante en un grupo considerable de alumnos, la medida de intervención más ajustada es plantear una adaptación general del Proyecto Curricular, eliminando temas en algún área y formulando Objetivos de Aprendizaje con carácter más procedimental. Ajuste Social: Capacidad de un sujeto para interaccionar con fluidez en la relación con los demás. Ajuste Emocional: Capacidad de un sujeto para autorregular y controlar de manera adecuada los estímulos del medio. Aprender: Es ampliar las ideas previas, para lo que se necesita que el sujeto pueda recibir la Información en buenas condiciones, pueda manejada e integrada en sus estructuras de conocimiento para, así, aumentadas y hacedas crecer. Aprendizaje Memorístico: Información que está poco o nada relacionada con los «conceptos previos» existentes en la Estructura Cognitiva del aprendiz. En este sentido, como no se produce interacción entre la información nueva y la ya adquirida, cada fragmento o unidad de información
Glosario
tiene que almacenarse arbitrariamente en la estructura cognitiva. De todas maneras, debe distinguirse entre aprender memorísticamente (no significativamente) y aprender de memoria. Se aprende de memoria algo que hay que recordar de la misma forma que en el mensaje original, por ejemplo, unas siglas como LOGSE,LRU,etc. Se puede aprender algo de memoria con algún grado de significatividad. Aprendizaje Significativo: Información que está relacionada con los Conceptos Base o Inclusores que han sido convenientemente activados y que, por tanto, está integrada y forma parte de la Estructura Cognitiva del aprendiz, dispuesta para ser aplicada en nuevos procesos de aprendizaje. Como es natural, el aprendizaje significativo admite grados, ya que los nuevos conocimientos pueden estar más o menos relacionados con más o menos conceptos inclusores y su aplicación puede llegar a hacerse de manera más o menos independiente. Aptitudes: Perfil de Capacidades que presenta un sujeto y que configura su nivel intelectual. Atención a la Diversidad: Es el modelo educativo fundamentado en una concepción plural de la educación que pretende que los Proyectos de Centro, en especial en las etapas de educación obligatoria, «pasen, como afirma Reigeluth, de la noción darwinista de la supervivencia del más apto, a la noción más humanamente defendible de la supervivencia de todos» y así adquieran un carácter más inclusivo. Atención Selectiva: Habilidad para discriminar sin error. Está muy condicionada por variables perceptivas que dificultan la fijación. Atención Sostenida: Habilidad para mantener la concentración todo el tiempo que exija la tarea. Está muy condicionada por variables emocionales que dificultan la autorregulación y el control. Autocontrol: Es la Capacidad para regular, sobre todo, aquellas situaciones que presentan algún condicionante desde el punto de vista emocional. Mejora cuando uno mismo es capaz de planificarse, dominarse y reforzarse. Axiología: Análisis y valoración de la conducta desde el punto de vista de los Valores. Banco de Actividades: Es un conjunto de actividades y tareas ordenadas por habilidades y niveles de dificultad, con el fin de alcanzar unos Objetivos de Aprendizaje. Banco de Pruebas: Es un archivo de preguntas, o ítems, válidas para comprobar con fiabilidad la consecución de un repertorio de Objetivos de Aprendizaje. Calidad Educativa: La calidad referida a la educación alude al modo de ser de un Sistema que reúna las tres características siguientes: • Descripción y diseño claro de lo que se pretende conseguir.
285
286
La evaluación
de aprendizajes
• Proceso a seguir para alcanzar los Objetivos propuestos. • Operaciones necesarias para introducir las modificaciones oportunas, tanto en los procesos como en los resultados. La eficacia de los procesos y de los resultados educativos se manifiesta en la integridad de su planteamiento, en la coherencia de su realización y en la eficacia de los resultados.
Capacidades: Son el conjunto de disposiciones desarrolladas lectuales.
a través de la experiencia,
de tipo gen ético que, una vez dan lugar a las Habilidades inte-
Se han propuesto diversas clasificaciones o taxonomías de capacidades de los ámbitos afectivo, psicomotriz y cognoscitivo; de estas últimas, la más completa es la propuesta por Bloom, cuyas principales categorías son: Reconocer (memorizar): Reproducir una información viamente almacenada en la Estructura Cognitiva. Comprender:
Traducir o interpretar
Aplicar: Usar una abstracción resolver un caso concreto. Analizar: Fragmentar
la Información recibida.
(principio,
una información
tal y como fue pre-
regla, generalización,
etc.) para
para hacerla más clara y explícita.
Sintetizar: Deducir o «inventar» algo; en sentido estricto, una abstracción. Valorar: Formular juicios de Valor.
Carácter Propio: Recoge la inspiración un centro y de sus opciones
Competencia
peculiar de la tradición pedagógicas.
Curricular: Conjunto de conocimientos
nar la programación
necesarios
educativa
de
para domi-
de un curso o nivel.
Comunicación
Educativa: Supone un proceso formal intencionalmente perfectivo que requiere, por parte del receptor, el acto de comprender el mensaje transmitido y, por parte del comunicante, la emisión del mismo. La bilateralidad de la comunicación es una necesidad del proceso educativo que se sustenta en una acción recíproca que presupone la alternancia de emisor y receptor de modo que uno participa, de algún modo, en la vida del otro. La comunicación educativa va más allá de los límites impuestos por la simple instrucción (comunicar para enseñar) y llega a lo más profundo de la personalidad humana (comunicar para formar y educar).
Conceptos: Son representaciones
Abstractas y universales, almacenadas en la mente y que gozan de cierta estabilidad, que posibilitan tratar cognoscitivamente a distintos ejemplares como miembros de una misma clase de objetos, acciones, sucesos y símbolos. Desde un punto de vista clásico asociativo, los conceptos, por ejemplo, soneto, energía, circunferencia, ofrecen una representación única, válida para todas las especies y casos particulares de sonetos, energías y circunfe-
287
Glosario
rencias, de tal manera que todos los ejemplos del concepto tienen esos atributos y ningún «no-ejemplo» los posee. Al conjunto de estas características necesarias y suficientes de un concepto, se le conoce como rasgos definitorios. Según esta concepción clásica, los conceptos se aprenden por discriminación entre los diversos elementos del objeto o fenómeno y la posterior abstracción de sus elementos comunes. Los hay más o menos semejantes al «prototipo», por lo que el hecho de que algo encaje dentro de una categoría no es una cuestión de todo o nada, sino más bien de grado. Dicho de otra forma, no todos los ejemplos de un concepto son buenos «prototipos» del mismo, por lo que, para presentar un concepto, deben tenerse en cuenta estos diferentes niveles de «bondad» de los ejemplos. Así, se podría discutir si la piedra en el borde de una mesa es mejor «prototipo» de energía potencial que un muelle comprimido. En la bibliografía se encuentra a veces el término conceptos con el significado de «contenidos conceptuales», sinónimo de Objetivos de Aprendizaje cuya capacidad es la memorización o la comprensión. Conceptos Base: Conceptos previos científicamente correctos, válidos y valiosos que, una vez activados y convertidos en Inclusores, sirven como punto de apoyo para organizar los nuevos conocimientos. Concreto: Véase Abstracto. Contenido: En la acepción de contenido científico, son los datos (términos y hechos), métodos (convencionalismos, clasificaciones, criterios, etc.) y generalizaciones (conceptos, principios y teorías) propios de una materia o área del saber. A veces, se utiliza también para significar los contenidos de la enseñanza, cuando se habla de «bloques de contenido», «contenidos conceptuales, procedimentales yactitudinales». Control Estimular: Habilidad para discriminar los elementos básicos de un conjunto. Esta habilidad está muy condicionada por aspectos perceptivos. Creatividad: Es la Capacidad de la persona para realizar «innovaciones valiosas». No es un don excepcional poseído por unos pocos talentos, sino una cualidad que todos los hombres poseen en uno u otro grado. Criterios de Promoción: Son las normas que condicionan el paso de un curso, de un ciclo o de una etapa a la siguiente. Diversificación
Curricular: Véase Adaptación Curricular Grupal.
Diferenciación Progresiva: Expresión usada por Ausubel para referirse a la organización j~rárquica de las estructuras de conocimiento. No coincide con la deducción, puesto que inducción y deducción se refieren a la secuencia de adquisición de conocimientos, y aquí se postula que, independientemente del método, la Información queda estructurada jerárquicamente.
288
La evaluación
de aprendizajes
Educación a Distancia: Es un Sistema de comunicación bidireccional o multi. direccional, basado en la acción sistemática y conjunta de recursos didácticos con el apoyo de una organización y una tutoría, que, separados físicamente del estudiante, propician en éstos un aprendizaje cooperativo. Educación Formal: Es todo Sistema Educativo institucionalizado, jerárquicamente estructurado, que se extiende desde los primeros años de vida hasta la Universidad y que tiene por objeto la consolidación de las destrezas básicas, así como los Contenidos culturales fundamentales. Educación Informal: Es el influjo perfectivo que recibe la persona caracterizado por su carencia de intencionalidad, su asistematicidad, inconsciencia y procedencia de diversos agentes sociales. Educación no Formal: Se refiere a toda aquella actividad organizada, sistemática, educativa, realizada fuera del Sistema oficial, que atiende necesidades formativas específicas a grupos particulares de población. Educación Personalizada: Alude explícitamente a la persona humana como sujeto de educación. Educación Reglada: Es aquel tipo de educación que surge de la reflexión racional y técnica a fin de organizar las actividades proyectadas al perfeccionamiento de los educandos desde instituciones formalmente orientadas a esa finalidad. Enseñanza Expositiva: Método por el que el profesor presenta un Contenido informativo de tipo conceptual, organizado en su forma final, a través de unas «Formas Primarias y Secundarias», para que el alumno lo relacione con sus Conceptos Base. Responde a un aprendizaje inclusivo que suele provocar niveles de procesamiento con cierto grado de significatividad. Enseñanza por Descubrimiento: En la Enseñanza para el Aprendizaje por Descubrimiento, el alumno, en lugar de recibir la Información elaborada por el profesor, «descubre», en los materiales que se le proporcionan, una organización que no está explícitamente presente, produciendo así su propio conocimiento hasta llegar a integrado. Epítome: Es, según Reigheluth y Stein, la presentación de las ideas fundamentales que constituyen la parte más esencial de lo que se va a enseñar. Escuela Comprensiva: Conocida también como Escuela Inclusiva, es aquella que, sin educar en la igualdad, trata de ofrecer a todos «lasmismas oportunidades para ser diferentes». Escuela Inclusiva: Véase Escuela Comprensiva. Estilo de Aprendizaje: Es el conjunto de Estrategias Cognitivas y de estrategias de apoyo que utiliza individualmente cada alumno a la hora de aprender. Estrategias: Son una guía de acciones conscientes e intencionales dirigidas a la consecución de una meta. Debido a su intencionalidad, requieren cierto grado de actividad metacognitiva.
Glosario
289
Estrategias Cognitivas: Procesos conscientes (memorizar, comprender, aplicar, analizar, sintetizar, valorar críticamente) necesarios para poner en práctica una Habilidad cognitiva. Estrategias de Apoyo al Aprendizaje: Procesos conscientes (atender, motivar) necesarios para iniciar y mantener todo proceso de aprendizaje. Estrategias de Autorregulación: de los procesos cognitivos.
Son las que se ocupan del control personal
Estrategias Metacognitivas: Son las que favorecen el control consciente de la actividad mental. Estrategias Metodológicas: Se refieren a la ejecución planificada y deliberada de aquellas actividades que, seleccionadas por consideradas más apropiadas para conseguir ciertos objetivos o fines, llevan a cabo, respectivamente, el profesor o los alumnos. Estrategias Motivacionales: Son las que predisponen al estudiante a aprender. Se desarrollan cuando las tareas potencian el interés, la percepción de la competencia y las atribuciones internas. Estructura Cognitiva: Es aquella donde se produce el procesamiento, siempre que existan los esquemas previos apropiados. Consta de registros sensoriales, Memoria de Trabajo o memoria a corto plazo y Memoria Permanente o a largo plazo. Evaluación: La Evaluación Educativa es la medida o comprobación del grado de consecución de los Objetivos, lo que comporta una recogida de Información para emitir después un juicio de Valor codificado en una calificación, con vistas a una posterior toma de decisiones. Evaluación Formativa: Es una evaluación permanente para determinar el grado de adquisición de cada objetivo, y detectar tanto los aspectos no asimilados, como sus causas y, así, poder reajustar y «optimizar» los logros y el proceso de enseñanza-aprendizaje. Evaluación por Pares: Sinónimo de Arbitraje Científico, es un proceso de evaluación de los resultados de una investigación que emergen en campos concretos del conocimiento. Este proceso sanciona dicho conocimiento convirtiéndolo en conocimiento certificado, es decir, conocimiento que ha sido sometido a una crítica rigurosa por especialistas en el área, que determinan su originalidad y calidad, adquiriendo así un valor que se suma al de su publicación en una revista. Este valor corresponde, por un parte, a la mayor visibilidad que adquiere una investigación gracias a su circulación pública y, por la otra, a la percepción, por parte de los lectores, de la calidad sancionada por miembros calificados de la comunidad científica. Por lo general, la Evaluación por Pares es realizada por árbitros anónimos, cuyos juicios son transmitidos al editor; de manera semejante, en algunas ocasiones, los revisores no conocen el nombre de los autores, para así eliminar la subjetividad.
290
La evaluación
de aprendizajes
Evaluación Sumativa: Es la evaluación final que emite un juicio sobre el alumno ea veces, aunque menos frecuentemente, también sobre el profesor o el currículo) en relación con el resultado del aprendizaje, reflejado en una calificación globalizada de un repertorio de objetivos, y de la que se sigue una toma de decisiones ejecutiva, a veces implícita. Finalidades Educativas: Son los Objetivos Generales de un centro que concretan el Carácter ProPio en cuanto a lo que pretendemos en relación con toda la Comunidad Educativa. Las finalidades relativas a los alumnos tendrán continuidad en los Objetivos Generales del Proyecto Curricular de cada etapa. Formación: Significa cada uno de los pasos en el proceso de desarrollo y perfeccionamiento de la personalidad. También expresa el hecho de dar forma a lo informe o facilitar la adquisición de una nueva forma a lo ya formado. En ambos casos, se entiende que la forma proporcionada, tanto la incorporada de nuevo como la que se añade, son acciones perfectivas. Grafo: Como variante de «mapa conceptual», es la simbolización de un guión donde, además del orden lógico de la materia, se representan gráficamente las conexiones entre las distintas partes del guión, poniendo así de manifiesto una primera aproximación a la secuencia que se va a seguir en el proceso de instrucción. Habilidades: Son las Capacidades puestas en práctica, tanto de manera consciente como automática. Para conseguir ser hábil, es preciso contar con la capacidad potencial necesaria y con el dominio de ciertas Estrategias que lleven al éxito. Hypertexto: Herramienta didáctica que, además de utilizar de manera minuciosa las Estrategias de la Enseñanza Expositiva para transmitir la Información, presenta al alumno los Contenidos progresivamente diferenciados con el fin de que los encaje adecuadamente en sus estructuras de conocimiento previas. Ideas Previas: Conocimientos iniciales que poseen los alumnos antes de comenzar un proceso de instrucción o de enseñanza-aprendizaje para alcanzar unos determinados Objetivos de Aprendizaje. Inc1usor: Es un concepto previo que se activa en la Estructura Cognitiva del aprendiz, cuando accede a una nueva Información. Se distinguen varias clases de inclusión; a saber, subordinada derivativa o de ampliación, subordinada correlativa o de modificación, supraordinada y de simple relación. Información: Se entiende, en el contexto educativo, como todo Contenido científico considerado objeto de estudio. Este contenido se puede concretar en datos, métodos y generalizaciones. Instrumentos de Evaluación: Son todos aquellos recursos que, en diferentes situaciones, permiten medir el grado de consecución de los Objetivos de Aprendizaje.
Glosario
291
Jerarquía de Valores: Los Valores son múltiples. Hay valores útiles, económicos, vitales, intelectuales, religiosos, morales, estéticos, etc. Entre sí, mantienen relaciones de valor, es decir, establecen una jerarquía, un orden de prelación valioso, de modo que el cumplimento de uno debe prevalecer sobre el otro. Cada valor se rige por el grado de preferibilidad o de no indiferencia que le corresponde. Unos valores son terminales porque tienen sentido en sí mismos, y otros son instrumentales porque son medio para conseguir otros. La promoción personal de una sensibilidad axiológica y de una clara conciencia valorativa es la culminación necesaria de una verdadera educación humana. Línea Base: Es la formada por el nivel de conocimientos que configuran el estado inicial del alumno. Memoria Permanente (MP): Es la parte de la Estructura Cognitiva donde se integra la Información a largo plazo para posteriormente poder recuperada. Memoria de Trabajo (MT): Es un elemento de la Estructura Cognítiva donde la Información se organiza en un breve plazo antes de integrada en la Memoria Permanente. Método: Plan que realiza el docente tras considerar el conjunto de decisiones tomadas respecto de la presentación y transmisión del conocimiento, por una parte, y en relación también con las tareas que los alumnos han de realizar para conseguir determinados objetivos. Cada método abarca, pues, las Estrategias de enseñanza-aprendizaje, consideradas más apropiadas para conseguir ciertos Objetivos o fines. Metodología: miento.
Trata los Métodos de Enseñanza
Expositiva y por Descubri-
Multicultural: Situación en la que coexisten diversas culturas en cuanto conjunto de ideas, Valores, sistemas de creencias y aspiraciones de una comunidad que constituyen, en cada una de ellas, las bases culturales de su educación. Objetivo: Es una Capacidad sobre un Contenido; esto es, una acción cognoscitiva, psicomotriz o afectiva sobre una realidad concreta. Objetivo de Aprendizaje: Es un Objetivo que se puede evaluar directamente a través de algún indicador observable. Objetivos de Área: Son los Objetivos Generales, de carácter disciplinar, en donde se reflejan las metas a alcanzar en cada materia del currículo. En algunos Sistemas Educativos, como el español, se formulan en primera instancia en el currículo oficial vigente, aunque los centros tienen la facultad de matizados. Objetivo de Ciclo: Es el período de toma de decisiones, en orden a la promoción; por ejemplo, en la Educación Primaria del actual Sistema Educativo español, es de dos cursos escolares.
292
La evaluación
de aprendizajes
Objetivos de Etapa: Son los Objetivos Generales, de carácter interdisciplinar, en donde se reflejan las metas a alcanzar a través de las diferentes materias de cada Etapa. En el Sistema Educativo español, se formulan primero en el currículo oficial, aunque los centros tienen la facultad de matizados de acuerdo con sus Finalidades Educativas. Objetivo General: Es un Objetivo, es decir, una Capacidad que el individuo realiza sobre un Contenido, pero en el que la capacidad, al ser muy amplia o el contenido muy extenso, no se puede evaluar directamente, sino a través de Objetivos de Aprendizaje. Los Objetivos Generales se clasifican en Objetivos de Etapa, de Área y de Ciclo. Opcionalidad: Ésta se puede considerar como una variante más comprometida de la Optatividad y trata de dar respuesta a la inteligencia predominante de cada alumno y a su nivel intelectual. Supone una elección que, aunque no debiera impedir estudios futuros, los condiciona; de ahí la necesidad de una orientación adecuada. Se suele iniciar en los últimos cursos de la educación obligatoria, ofreciendo una enseñanza con materias comunes para todos, pero claramente diversificada con materias específicas para cada grupo de alumnos según sus intereses, Capacidades y nivel de competencia. Su concreción se puede hacer mediante la implantación de itinerarios rígidos, obviamente más económicos, o teniendo en cuenta un planteamiento más acorde con la propuesta de las «inteligencias múltiples», que requiere mayores recursos y se fundamenta en el principio de la personalización curricular, planteando las áreas configuradas por especialidades. Optatividad: Ésta, como respuesta a laAtención a la Diversidad en la Educación Secundaria Obligatoria y, por supuesto, en los bachilleratos, en la Formación Profesional yen los estudios superiores, permite enriquecer y equilibrar el currículo, dando cabida a las peculiaridades que presentan los alumnos; es decir, supone una serie de materias que se pueden ofrecer con distintos fines, tales como desarrollar alguna de las «inteligencias múltiples» que no aparecen en el currículo básico, alcanzar los Objetivos de Etapa por vías diferentes a las previstas en las materias básicas o realizar actividades que orienten la elección de los estudios posteriores y el paso a la vida activa. Organizadores: Son estructuras de conocimiento relacionadas entre sí a nivel interno, organizadores previos, y externo, organizadores secuenciales. Los organizadores secuenciales son en realidad organizadores previos para el resto del proceso de aprendizaje. Preconceptos: Son concepciones erróneas que distorsionan los nuevos aprendizajes y suelen estar en la base de no pocos fracasos académicos. Conviene detectados cuanto antes para sustituidos por los científicamente correctos a través del «cambio conceptual». Pregunta Problema: Estrategia motivacional que consiste en presentar un caso, un enigma, etc., cuya solución está en la explicación que se va a dar
Glosario
posteriormente Expositiva.
293
con alguna de las Estrategias propias de la Enseñanza
Prerrequisito: Es un Concepto previo teóricamente necesario para abordar una nueva Información. Principio: Es una relación entre Conceptos. Puede llamarse también hipótesis, proposición, regla, ley, etc. Generalmente los principios, y también las teorías (relación entre principios), describen causas o efectos, identificando lo que sucederá como resultado de un cambio dado (el efecto), o por qué sucede algo (la causa). Procedimientos: Son los Objetivos de Aprendizaje que tratan de desarrollar Capacidades de aplicación, análisis, síntesis y valoración crítica. Son sinónimos de contenidos procedimentales. Procesos Algorítmicos: Series de operaciones elementales que llevan, en un número finito de pasos, a la solución de un problema. Programación: Es el conjunto de metas y Objetivos de distinta consideración. Programación de Aula: Es donde se formulan, a partir del currículo oficialvigente, los Objetivos de Aprendizaje, de modo que posteriormente se secuencien e integren en una Unidad Didáctica. Para ello, se suelen proponer los siguientes pasos: Explicitación de Temas, Secuencia de los Temas en Cursos, Guión de los Contenidos Científicos, Relación de Contenidos y Capacidades y; finalmente, Formulación de los Objetivos de Aprendizaje. Proyecto Curricular: Se deriva de las Finalidades referentes a los alumnos y consta de los Objetivos de Etapa, Criterios de Promoción (entre etapas, ciclos y cursos), Objetivos de Área y Objetivos de Ciclo. Proyecto de Centro: Véase Proyecto Educativo. Proyecto Educativo: Es el marco general de referencia que vertebra un Centro Educativo y lo hace realidad organizada y culturalmente significativa explicitando sus opciones y aspiraciones de una manera clara, coherente y comunicable. Procesos Heurísticos: Operaciones de búsqueda no elementales, que no tienen por qué resolver íntegramente un problema. Prueba de Elección Múltiple: Son pruebas en las que el alumno debe seleccionar sólo una de entre un conjunto de posibilidades limitadas. Prueba Objetiva: Son aquellas pruebas en las que el alumno, previa elaboración mental acompañada a veces de una construcción material, elige la respuesta entre una serie de alternativas que se le proporcionan. Prueba Libre: Lo específico de estas pruebas es la libertad de expresión del alumno, que ha de organizar sus propios conocimientos, seleccionar lo más importante, manifestar su creatividad y originalidad, integrando en un todo armónico los elementos de su respuesta.
294
La evaluación
de aprendizajes
Prueba Verdadero/Falso: Se conocen también como «respuestas de dos alternativas»; en ellas el alumno califica la formulación de una proposición como verdadera o falsa. Recepción Activa: Supone mantener los receptores sensoriales bien dispuestos. Es, sobre todo, un esfuerzo por parte del sujeto por activar los Inclusores adecuados para poder manejar la nueva Información que se está procesando. Reconciliación Integradora: Es la secuencia expansiva de los Organizadores de conocimiento a través de los «conceptos-puente» y de las oportunas aplicaciones intermedias. En la práctica, supone una construcción dinámica del conocimiento. Reconocimiento de la Información: Capacidad de identificar correctamente un elemento informativo sin error. Se relaciona con la Habilidad para fijar estímulos en la Memoria Permanente. Registro Sensorial: Elemento de la Estructura Cognitiva que recoge los estímulos informativos que llegan del exterior y los traslada a la Memoria de Trabajo. Reglamento de Organización y Funciones (ROF): Conocido también como Reglamento de Régimen Interior (RRI), recoge la estructura organizativa de un centro. Reglamento de Régimen Interior (RRI): Véase Reglamento de Organización y Funciones. Respuesta Emocional: Se relaciona con la respuesta adaptativa o de evitación que muestra la persona ante estímulos externos estresantes, desagradables o nocivos. Resumen: Recopilación de todas las ideas que se han tratado a lo largo de una exposición. Se distingue del Sumario en que éste se refiere a las ideas que se van a tratar posteriormente. Este número de ideas suele ser considerablemente amplio, por lo que tendrá que hacerse superficialmente y en un nivel abstracto. El resumen puede ayudar a la organización final de la Información, previa a la integración en la Estructura Cognitiva. Secuencia Didáctica: A veces se habla de «secuencia elaborativa». Es la secuencia lógica de una Información (datos, métodos o generalizaciones) que va de lo simple a lo complejo (más partes y más relacionadas secuencialmente, lo que supone amplitud e inclusión). Sentido Crítico: Es, según Ibáñez-Martín, la «expresión madura de la específica cualidad del hombre de ser principio de sus acciones, lo que repercute tanto en su actividad intelectual como en el ejercicio de su voluntad». Singularidad: Es una cualidad de la persona que implica distinción, separación, diferencia, cuantitativa y cualitativa, en virtud de la cual, cada ser personal es diferente a los demás. Se opone a la universalidad.
Glosario
Síntesis: Estrategia para relacionar e integrar ideas. Hay que distinguir entre síntesis de proceso o periódicas y síntesis de conjunto o final (efecto «zoom» de la Teoría de la Elaboración). A través de las síntesis periódicas, el alumno es consciente en todo momento de la estructura informativa y de la importancia de cada parte individual de conocimiento respecto a otras partes relacionadas. La síntesis final es una especie de recapitulación o repaso rápido en el que se muestra cómo la explicación del tema responde a la pregunta o problema inicial. Es hacer una interpretación de los conflictos suscitados en la Pregunta Problema, consolidando así los objetivos propuestos. Se entiende también por síntesis la Capacidad de deducir y crear, propia de la taxonomía de Bloom. Sistema: Es una realidad compleja en la que sus partes y elementos, diferenciados, se relacionan entre sí para alcanzar una finalidad común. Sistema Educativo: Es no sólo el ordenamiento legal, determinado por las leyes, órdenes y reglamentos de distinto orden que establecen las autoridades académicas, sino también la concepción educativa que conlleva, entre otras, la selección de Estrategias de enseñanza y de aprendizaje. Un Sistema Educativo se caracteriza por la coherencia entre sus fines, contenidos (conocimientos, Actitudes, Valores), ambiente, estrategias didácticas y organización, que se ponen en práctica en función de lograr las metas deseadas. Sobreaprendizaje: Es el proceso por el que, una vez que el material se aprende de memoria y se recuerda sin error, se vuelve a estudiar repetidamente. Sumario: Es la presentación previa de todas las ideas que se van a tratar posteriormente en una exposición. Se distingue del Resumen en que éste se refiere a las ideas que ya se han tratado. El número de ideas del sumario suele ser considerablemente amplio, por lo que tendrá que hacerse superficialmente y en un nivel Abstracto. Team Teaching: Es una manera de organización que afecta a los alumnos, dividiéndolos, según las exigencias de las actividades de enseñanza-aprendizaje, en grupos (grandes, medianos, pequeños); y a los profesores quienes se responsabilizan, en equipo, de determinadas tareas que facilitan la evaluación mutua, por ejemplo observación en el aula. Técnica Didáctica: Conjunto estructurado y secuenciado de pasos derivados de una selección de Estrategias suficientemente validada en la práctica. Teorías del Aprendizaje: Son los modelos o paradigmas que sustentan cada modo peculiar de entender el aprendizaje. Básicamente son el Conductismo, el Cognitivismo y el Constructivismo. Para el Conductismo, el aprendizaje se da a través de asociaciones simultáneas (contiguidad), o de asociaciones de la conducta con sus consecuencias (contingencia). Para el
295
296
La evaluación
de aprendizajes
Cognitivismo, el aprendizaje es un proceso de modificación interno, con cambios no sólo cuantitativos, también cualitativos; y que se produce como resultado de otro proceso interactivo, con un carácter claramente intencional, entre la información que procede del medio y un sujeto activo. Por último, el Constructivismo subraya un aspecto del «Cognitivismo», es decir, la continua reconstrucción de los aprendizajes mediante una interna actividad por parte del alumno con el fin de poder atribuir nuevos significados a las ideas previas. Se produce cuando un aprendizaje determinado sirve y favorece a otro u otros aprendizajes.
Tranfer:
Unidad Didáctica: Es una fórmula para organizar la práctica de la enseñanza y el aprendizaje incluyendo las distintas partes del proceso de enseñanzaaprendizaje; a saber: Programación, Metodología y Evaluación. Valor: Es el carácter de preferible que tienen unas cosas sobre otras. Los valo-
res, en este sentido, constituyen «el orden de lo preferible».
Referencias bibliográficas
Referencias biliográficas
AM:ERI(::AN FEDERATION OF TEACHERS, NATIONALCOUNCIL ON MEASUREMENTIN EDlJCA:TION& NATIONALEDUCATION ASSOCIATION (1990). Standards for teachers competence in educational assessment of students. Washington, De: AFT. AMERICAN PSYCHOLOGICAL ASSOCIATION (1992). «Ethical principIes of psychologists and code of conduct». American Psychologist,51, 644-648. ANGUERA, M. T. (1981). «La Observación (I): Problemas metodológicos». En R. Fernández Ballesteros y J. A. 1. Carrobles (eds.): Evaluación conductual: Metodología y Aplicaciones (págs. 292-333). Madrid: Pirámide. ANGUERA,M. T. (1983). Manual de prácticas de observación. México: 'lIillas. ANGUERA, M. T. (1985). Metodología de la observación en las Ciencias Humanas. Madrid: Cátedra (3' ed.). ANGUERA,M. T. (1987). Observación en el aula. Barcelona: Guix. ANGUERA, M. T. (ed.) (1991a). Metodología observacional en la investigación psi-
cológica, Vol.1, Fundamentación (1). Barcelona: PPD. ANGUERA, M. T. (1991b). «La observación como metodología básica de investigación en el aula». En O. Sáenz (ed.): Prácticas escolares. Propuestas de Proyectos Curriculares y de investigación-acción. Alicante: Marfll. ANTUNES, C. (1975). Técnicas pedagógicas de la dinámica de grupo. Buenos Aires: Kapelusz. ANZIEU, D. y MARTÍN, J. Y (1975). La dinámica de los grupos pequeños. Buenos Aires: Kapelusz.
297
298
La evaluación
y LATORRE,A.(l992). Psicología educativa.
Investigación
de aprendizajes
educatilla.Barcelo-
Un punto de vista cognitivo.
Barcelona: Pai-
los procesos recherche action dans l'institution
México:
educative.
Paris: Gaut-
1. Y OLAIZOLA, S. (1994). «Modelos de Pruebas para la EvaluaObietivos en el Área de Geología y Biología en el Bachiller Científico». 203-242. comparison of clifficultyand discrimination values of BARKER,D. Y EBEL, R 1. (1981). <
rion-referencedtests».
research. NewYork: The
test construction.
Baltimore, MD:
consumer's guide to setting performance standards on criteReview of Educational Research, 56(1), 137-172.
«Standard setting: the next generation».
BLOOM, B. S. (ed.) de Examinadores Conocimiento. BLOOM, B. S., HASTING,]. T. Y MADAUS, G.(1975).Evaluación Buenos Aires: Troquel (orig. 1971).
del aprendizaje.
BOUvAR, A. (1992). Los contenidos actitudinales en el currículo de la Reforma. Problemas y preguntas. Madrid: Escuela Española. BONBOIR, A. (1974). La Docimología.
Madrid: Morata (orig. 1972).
299
Referencias bibliográficas
BRAVO,A. YFERNÁNDEZ DEL VALLE,J. (2000). «LaevaluaciónconvencionaJ los nuevos modelos de evaluación auténtica». Psicothema, 12(Supl.) BRINCONES, 1. (1990). «El (comp.): Lecciones Madrid: Universidad Autónoma. des en el aprendizaje
research: ten years».Journal 01Currículum Studies, 21 (1), 85-90. una ciencia crítica de la educación. CARRASCO,J. B. (1991). Técnicas
y recursos
Barcelona: Laertes.
para el desarrollo de las clases. Madrid:
CARRASCOSA,M. et al. (1991). «Evaluación 1. La evaluación curricular del alumno». En El alumno con retraso mental en la escuela ordinaria. Madrid: Centro Nacional de Recursos para la Educación Especial, MEC. CASANOVA,M. A. (1997). Manual de Evaluación
Educativa.
Madrid: La Muralla.
CBASE, C. 1. (1979). «The impact ofachievement expectations and handwriting quality on scoring essay tests».]ournal 01Educational Measurement, 16, 39-42. CIRIGLIANO, G. y VILLAVERDE,A.(1982). Dinámica Aires: Humanitas.
de grupos y educación.
ClZEK, G. J. (1996). «Setting passing scores». Educational practice, 15, 20-31. CUFFORD,
(1969). Los exámenes.
Measurement:
Buenos
Issues and
Barcelona: Oikos-Tau (orig. 1964).
COFFMAN,WE.(1971). «Essayexaminations». En R. L. Thorndike (ed.): Educational Measurement.Washington, DC: American Council on Education (2nd ed.). COHEN,L.yMANION, 1. (1990). Métodos de Investigación Muralla (orig. 1989). COLAS, M.P.Y BUENDIA, 1. (1992). Investigación
Educativa.
COLLlER,J. (1945). «United States Indian administration tions». Social Research, 12, 265-305.
Educativa. Sevilla: Alfar.
as a laboratory
CONTRERAS MUÑOZ, E. (1990). ElProfesor Universitario Alumnos. Madrid: ICE de la Univ. Politécnica.
Madrid: La
af ethnic
y la Evaluación
rela-
de los
300
La evaluación
de aprendizajes
E. (1969). Individual Differences in Learntng AfJUltv as Variables. Stanford, CA: Stanford University Análisis elemental de encuestas. México: 'frillas (orig. 1971). técnicas de medición de actitudes. México: Limu1972). A, VANDE VEN, A Y GUSTAFSON, D. (1975). Group Techniqueslor Planning. Flenview, ILL: Scott, Foreman and Co.
Prog-
NEIRA, A, ALGUERO, A, BRUGOS, J. A, GARCÍA,v., ÁLVAREZ,L. y SOLER, Integrado de Procesado de Tests». Aula Abierta, 74, 215-239. estudiar. Madrid: ICCE. y HERMAN,J. L. (1986). Assessing student achievement: A proCSE Monograph Series in Evaluation, n. 11. Los Angeof California-Los Angeles. DOWNEY, R. G. (1979). «Item-options weighting of achievement tests: Comparative study of methods». Applied Psychological Measurement, 3(4), 453-456. DUBOIS, P.H. (1970). A History 01Psychological Testing. Boston: Allyn Bacon. DUNN-RANKIN, P.,KNEZEK, G. A, WALLACE,S. y ZHANG, S. (2004). Scaling methods. London: LEA. EBEL, R. L. (1968). «Blind guessing on objective achievement cational Measurement, 5, 321-325.
tests». Journal
01 Edu-
EBEL, R. L. (1980). «Are true-false items useful?" En R. L. Ebel (ed.): Practical problems in educational
measurement.
Lexington, MA: D.C.Heath.
EBEL, nosR.Aires: L. YFRISBIE, Guadalupe D. A (orig. (1977). 1991). Fundamentos de la medición educacional. BueEDWARDS,AL. (1957). Techniques 01 Attitude Scale Construction. New York: Appleton-Century. EISNER, E. W (1988). The Art 01 Educational The Falmer Press. La investigación-acción
Evaluation. en educación.
A Personal View. London: Madrid: Morata.
El cambio educativo desde la investigación-acción.
Madrid: Morata.
301
Referencias bibliográficas
FERNÁNDEZ,A (1982). Historia del mundo contemporáneo. Barcelona: Vicens Vives. FERNÁNDEZ BALLESTEROS,R. (1983). Psicodiagnóstico. Madrid: UNED. FERNÁNDEZ-BALLESTEROS, R., CAMPLLONCH,]. M., CALERO, M. D. Y BELCH1, ].
(1991).EPA,Evaluación del Potencial del Aprendizaje. Madrid: MEPSA. FERNÁNDEZ DE CASTRO,]. (1973). La Enseñanza Programada. Madrid: Consejo Superior de Investigaciones Científicas. FERNÁNDEZ GARRIDO,]. (1980). La medida de la creatividad: Tipos de Instrumen-
tos, Problemática y Perspectivas. Valencia: INCIE-ICE. FlDALGO, A. (1996). «Funcionamiento Psicometría. Madrid: Uni
diferencial de los ítems». En]. Muñiz (coord.):
_ roblemas referentes a la medida de la creatividad>.
eral y Aplicada, 131(29),1033-1055 FREDERIKSEN, N., MISLEvy' R. y BEJAR, 1. (1993). Testtheoryfor .. Hillsdale, NY: LEA. . A. (1973). «Multiple-choice vs. true-false: A comparison of reliabilities and rrent validities».Joumal
ofEducationalMeasurement,
10,297-304.
'A, P.(1975). La dinámica de la entrevista enfunción del tutor. Madrid: INCIE. GAGNÉ, R. M. (1970). Las condiciones del aprendizaje. Madrid: Aguila (orig. 1985). GAGNÉ, R. M. Y BRIGGS, L.]. (1976). La planificación de la enseñanza. Sus principios. México: 'frillas (orig. 1973). GARCÍA-MENDOZA,A. y SOLER, E. (1994). Banco de Pruebas. Tomo 1. Física. Monografía núm. 23 de Aula Abierta. ICE de la Universidad de Oviedo. GARCÍAVIDAL,]. Y GONZÁLEZ MANJÓN, D. (1992). Evaluación e Informe Psicope-
dagógico. Madrid: Eos .. GICKLING, E. E. & THOMPSON, V (1985). «A personal
view of curriculum-based
assessment». Exceptional Children, 52, 205-218. GIL, E. (1992). El Sistema Educativo de la Compañía dejesús. La «Ratio studiorum». Madrid: UPCO.
GIMENO SACRISTÁN,]. (1981). Teoría de la Enseñanza y Desarrollo del Currículo. Madrid: Anaya. GIMENO Madrid:SACRISTÁN,]. Morata. (1988). El Currículo: Una Reflexión sobre la práctica. GLASER, R. 1. (1963). «Instructional Technology and the measurement of learning outcomes: some questions». American Psychologist,18,519-521. GÓMEZ, P. C. y GARCÍA, A. (1991). Manual TTl. Procedimientos para aprender a
aprender. Madrid: Eos. GONZÁLEZ-ROMÁ, V y ESPEJO, B. (2003). «Testing the midcl1e response
categories
not sure, in between, and? in polytomous items». Psicothema, 15,278-284. GORING, P. O. (1971). Manual de mediciones y evaluación del rendimiento en los estudios. Buenos Aires: Kapelusz.
302
La evaluación de aprendizajes
learning, 1960-1980. One participants .observa-
evaluación. en la enseñanza. México: 'frillas Aprovechamiento. México: 'lliIlas Valladolid: ICE
evdluatingalternatives to tradi-
subseql.Ú~l1tresponses
quality of preceding. responses on ta an essay question». Journal of
entre la physique du physicienet
la
Pedagogie,33,19-29. SWAMINATHAN,H. y ROGERS, H. J. (1991). Fundamentals of Newbury Park, CA: Sage. NARAYANA,P.YSETIADI, H. (1996). «Construcción conceptas básicos, avances técnicos y aplicaciones». En :Psicometría. Madrid: Universitas. «Correlates,
causes, effects, and treatment
of test anxiety».
ofEducationalResearch, 58(1), 47-77. Evaluación y Medición en Id Escueld. México: Kapelusz (orig. 1976). M. B. (1968). «Predicting grades from below chance test sco-
JournCfIofEducational Measurement, 5, 45-53. P. (1981). Relationship between free-response and choice-type tests of achievement: A review oJthe literature. ERrC Document Reproduction Service P. W y WAINER, H. (1993). Differential item functioning. Lawrence Erlbaum. HOOVER, K.. H. (1977). «values Education.
Developing
HilIsdale, NJ:
Values».EnL.
Rubin (ed.):
Currículum Handbook. The Disciplines, Current Movementand Methodology. Bastan: Allyn & Bacon.
lnstructional
HOWELL, K. y MOREHEAD, M. (1987). Curriculum-based(waluationfor remedial education. Columbus, OHIO: Merrill.
special and
HUBER, p. (1984). Toma de decisiones en la gerencia. México: Trillas (orig. 1980). HUGHES, D. c., KEELING, B. YruCK, B. (1983). «Effectsofachievement expectations and handwriting quality on scoring essays». Journal of Educational Measurement, 20, 65-70. HUNKINS, F. P. (1972). Questioning strategies and techniques. Bastan: Allyn & Bacon. ]OINT COMMITTEE ON TESTING PRACTICES (1988). Code offair testing practices in education. Washington, D. c.: APA.
303
Referencias bibliográficas
KEMMIS, S. (1988). El Currículo: más allá de la teoría de la reproducción. Madrid: Morata (orig. 1986).
~~'lr
TREGOE, B. (1983). El nuevo directivo KEP~;~. KRIPPENDORFF, K. (1980). Content analysis. An introttuc'tion Beverly Hills, CA: Sage Publications. LAFOURCADE, P.D. (1977). Evaluación de los aprendizajes. Madrid: CinceL LEFRANCOIS, G. R. (1988). Psychology for teaching. Belmont, CA: Wadsworth (6thed.). LEWIN, K (1946). <
tions, 1,147-153. LEWIN, K. (1952). «Group decision and Social change». En T. M. Newcomb y E. E. Hartley (eds.): Readings in Social Psychology. New York: Holt, Rinehart and Wmston. UKERT, R. (1932). «A Technique for measurement of attitudes». Archives of Psycholog)!, 140,44-53. UNN, R. 1. (1989). Educational measurement. New York: MacMillan. LORD, F. M. (1980). Applications of item response theory to practical testing prob-
lems. HilIsdale, NJ: Lawrence Erlbaum. LOREE, M. R. (1948). A study of a technique for improving tests. Tesis Doctoral no publicada, University of Chicago. LUNN,]. C. B. (1969). «The development
of scales to measure junior school children's
atittudes». Br.j.Educ.Psychol.,39, 64-71. MACKEACHIE,W J (1988). «The need for study strategy training». En C. E. Weinstein, E. T. Goetz y P. A. Alexander (eds.): Learning and study strategies. New York: Academic Press. MADDOX, H. (1970). Cómo estudiar. Barcelona: Oikos-Tau (6aed.) (orig. 1963). MAGER, R. F. (1977). Formulación Operativa de ObjetivosDidácticos. Madrid: Marova (orig. 1962). MANN, H. (1845). «Boston Grammar and Writing Schools». Common SchoolJoumal, 7,19,October. MANNING, S. A. y ROSENSTOCK, E. H. (1971). Elaboración de escalas de actitudes y
psicofisica clásica. México: liillas (orig. 1968). McCAll, W A. (1920). <
of Educational
Curriculum
McDONALD, B. (1973). Humanities Currículum Project, Evaluation in currículum development: twelve case studies, Schools Council Research Studies. London: MacMillan Education. McGUIRE, C. (1976). «Construction and use of written simulations». Cuadernos de Salud Pública, 61, The Psychological Corporation.
304
La evaluación
de aprendizajes
San Francisco: To11Ulde deci-
New
Bases teóricas de la Evaluación
Educativa.
(1988). Medición de Actitudes en Psicología y Educación.
Archidona, San Sebas-
MARTÍNEZ, R J. y MUÑIZ, J..(2004). «Directrices para la construcción Psicotbema, 16,490-497. R,MARTÍNEZ,R].y MUÑIZ,] (2006). «New Guide.lines Items».Metbodology, 2(2),65-77.
de
for Developing
MUEllER, D. J. YWASSER, V (1977). «Implications of changing answers on objective test items». ¡oumal oi Educational Measurement, 14, 9-14. MUÑIZ,]. (coord.) (1996). Psicometría. MUÑIZ, J. (l997a).lntroducción
Madrid: Universitas.
a la Teoría de Respuesta a los Ítems. Madrid: Pirámide.
MUÑIZ,j. (1997b). «Aspectos éticos y deontológicos de la Evaluación PSicológica». En ACordero (coord.):La Evaluación Psicológica en el año 2000. Madrid: TEA. MUÑIZ,]. (2003). Teoría Clásica de los Tests. Madrid: Pirámide. NERICI,I. G. (1970). Hacia una Didáctica lusz (2' ed.) (orig. 1966).
General Dinámica.
NOVAK,J,D. y GOWIN, D. B. (1988). Aprendiendo Roca (orig. 1984). OLEA,j.(1993).«La
a aprender.
Buenos Aires: KapeBarcelona: Martínez
evaluación de la creatividad: Revisiónycrítica».Tarbíya,
3,81-98.
OLEA,]., PONSODA, V y PRIETO, G. (eds.) (1998). Madrid: Pirámide. OLEA,]., PONSODA, V y PRIETO, G. (eds.) (1999). tos y aplicaciones. Madrid: Pirámide. ORDÓÑEZ,].]. (1995). Banco de Pruebas. Tomo 3. Aula Abierta. ICE de la Universidad de Oviedo.
infor11Ultizados. FundamenMonografía núm. 23 de
OSGOOD, C., SUCI. G. y TANNENBAUM, P. (1957). Tbe measurement Urbana, Ill: University of Illinois Press.
oi Meaning.
305
Referencias bibliográficas
OSTERIlND, S. J. (1998). Constructing test items: Multiple-Choice, Constructed-Re-
sponse, Performance, and otherformats. Baston: Kluwer Academic Publishers. OWENS, T R. (1971). «Application of adversary proceedings ta educational evaluatian and decision making». Anual Congress of American Educational Research Association, New York, AERA. OWENS, T. R. (1973). «Educational evaluatian
by adversary proceedings».
En
House (ed.): School evaluation: Thepolitics and process. Berkeley: McCutchan. PARLETT, M. R. (1972). «Evaluating innovatians in teaching». En H. J. Butcher yE. Reudd (eds.): Contemporary problems in Research in Higher Education. New York: McGraw-Hil 7). «Evaluatian as Illumination: A new appronovative programmes». En D. F. Hamilton et al. (eds.): me. London: MacMillan Education. , S. (2001). «Audio computer-based tests: An initial frame- . e use of sound in computerized tests». Educational Measurement:
'ractice,20(2), 5-15. ., DAVEY,T Y PASHLEY,P. (2000). «Innovative item types for campute,». En W J. van der Linden y C. Glass (eds.): Computer adaptive tes-
'eory and practice. Boston: Kluwer Academic Publishers. RSON, D. G. (1926). «Do new and ald type examinations measure
different
ental functions?» School and Society, 24, 246-248. DA, M. A. Y SOLER, E. (1994). Banco de Pruebas. Tomo 2, Química. Monografía núm. 23 de Aula Abierta. ICE de la Universidad de Oviedo. PÉREZ JUSTE, R. Y RAMOS,J. M. G. (1989). Diagnóstico, evaluación y toma de decisiones. Madrid: Rialp. PETERSON, D. E. (1968). The clinical study of social behavior. New York: Appleton
c.e., PHELPS, R. (ed.) (2005). Defending standardized testing. London: LEA. PHILUPS, R. e. (1974). Evaluación y Educación. Buenos Aires: Paidós (orig. 1974). PIDGEON, D. y YATES,A. (1976). Evaluación y medida del rendimiento escolar. Salamanca: Anaya. PIERON, H. (1968). Vocabulaire de la psychologie. París: PUF. PIERON, H. (1969). Examens et Docimologie. Paris: PUF. POKRAS, S. (1992). Cómo resolver problemas y tomar decisiones sistemáticamente. México: Grupo Editorial Iberoamérica (orig. 1989). POMES, J. y ARGUELLES,B. (1991). Análisis de Ítems de Opción Múltiple. Zaragoza: Servicio de Publicacianesde la Univ. de Zaragoza. POPHAM, W J. (1978). Evaluación basada en criterios. Madrid: Magisterio Español (orig. 1978). POPHAM, W J. (1984). «Specifying the damain of content or behaviors». En R. A Berk (ed.): Aguide to criterion-referenced test construction. Baltimore: Johns Hapkins. POPHAM, W J. y BAKER, E. 1. (1970). Systematic Instruction. Englewood Cliffs, NJ: Prentice Hall.
306
La evaluación de aprendizajes
POSNER, G. J. (1979). «Instrumentos para la investigación y desarrollo del currículo: Aportaciones potenciales a la ciencia cognoscitiva». PerfilesEducativos, 6, 17AO.
Performance assessment: Panacea or pandora 's box? Rockville, ítems». EnJ.Muñjz
(ed.): Psi-
aptitudes».
EnJ.
aplica«Análisis de un
(1980). «Effects of c1iscourse and response mode on the meas19,241-258.
competence».journalofEducationalMeasurement,
lnstitutio Studiorum (1598). «Nápoles: Tarquinio Longo», en edición Gil, E. (1992). El Sistema Educativo de la Compañía de jesús. La Studiorum». Madrid: UPCO. RENOM, J. (1993). Testsadaptativos computerizados: fundamentos y aplicaciones. Barcelona: PPU. RENOM,]. (1997). R«etos y Perspectivas de los Tests Adaptativos Informatizados». En A. Cordero (coord.): La Evaluación Psicológica en el año 2000. Madrid: TEA. RODRÍGUEZ DIÉGUEZ, J. 1. (1980). Didáctica General, 1. Objetivos y Evaluación. Madrid: CinceL RODRÍGUEZ NElRA, T. (1980). «Algunas consideraciones sobre la Evaluación en el "Proyecto para la Reforma de la Enseñanza"». Aula Abierta, 54, 3-14. RODRÍGUEZ NElRA, T. (1999). Teoríasy modelos de enseñanza. Posibilidadesy límites. Lérida: Milenio. RODRÍGUEZ NElRA, T. (2002). «Estructura y límites gnoseológicos acción crítica». Revista Española de Pedagogía, 50, 415-438. ROSALES,C. (1981). Criteriospara una evaluaciónformativa.
de la investigación-
Madrid: Narcea.
ROSS, C. C. (1947). Measurement in today's schools. Englewood Cliffs, NJ: Prentice Hall (2nd ed.). ROWE, M. B. (1969). «Science, Silence and Sanctions». Science and Children,March, 1113. ROWE, M. B. (1974). «Wait-tÍme and reward as instructional variables, their influence on language, logic and fate control: Part one-Wait time». joumal of Research on Science Teaching, 11,81-94. ROWNTREE, D. (1982). Aprende a estudiar. Barcelona: Herder ( 4a ed.) (orig. 1970). SABERS, D. 1. Y WHITE, G. W (1969). «The effect of differel1.tial weithing of individual item responses on the predictive validity and reliability of an aptitude test».journal of Educational Measurement, 6, 93-96. SABIRÓN, F. (dir.) (1999). El discurso y la práctica en Evaluación. Zaragoza: ICE de la Universidad de Zaragoza. SALVIA,J. y HUGHES, C. (1990). Curriculum-based taught. NewYork: MacMillan.
assessment: Testing what is
Referencias bibliográficas
307
SANDERS, N. (1966). Classroom Questions, SANTOS GUERRA,M. A. (1988). «Patología de la evaluación.educativa».lnfancia Aprendizaje, 41, 143-158. S.•(1967). «The methódology
(1942).Appraising and recording student progress. (1967). «The countenance 68, 523-540.
of educational
evaluation».Teachers
R. E. (1975). Program evallliltion: Particularly responsive evaluation.· Occasio-nal Paper,5, november. Kalamazoo, MI: Evaluations Center, Univ. Westem Michigan. STAKE,R. E. (1976). «Atheoreticalstatement ucational Evaluation, 2, 19-22.
of responsive evaluation». Studies in Ed-
STALNAKER, J. M. (1966). «The essaytype examination». En E. F. Linquist Educational Measurement. Washington, DC: American Council on Education. STENHOUSE,1. (1987). Investigación y desarrollo del Currículo. Madrid: Morata (2." ed.) (orig. 1981). STIGGINS, R. J. (1988). «Revitalizing classroom assessment: priority». Phi Delta Kappan, 69,363-368.
The highest instrUctional
STIGGIN5, R.]., FRISBIE, D. A. YGRISWOLD, P.A. (1989). <
3C
308
La evaluación de aprendizajes
TAYLOR,H. (1980). Contract grading. ERIC/TM Report No. 75. Princeton, NJ; ERIC Clearinghouse on Tests, Measurement and Evaluation, ERIC Document Reproduction,Service No. ED 198 152. TE~!::'~9;4~' (1981). Evaluación. Guía práctica para profesores. Madrid: Narcea. TERESA, C. y LUENGO, M. A. (1996). Banco de Pruebas. Tomo 4. Matemáticas . . Monografía núm. 23 de Aula Abierta. ICE de la Universidad de Oviedo. TERWILUGER, J. S. (1989). «Classroom standard setting and grading practices». Edu-
cational Measurements: lssues and Practice, 8(2), 15-19. ....THORNDIKE, E. L.-(1904). An lntroduction to the Tbeory of Mental and Social Measurements. NewYork: Teachers College Press, Columbia University: THORNDIKE, E. 1. YHAGEN, E. (1969). Measurement and Evaluation in Psychology and Education. NewYork: John WIley & Sons (3rd ed.). THURSTONE,1. 1. (1947). Vocationallnterest Schedule. NewYork: Psychological Corporation. Measz,.¡relnellt 'Attitti.de.Chicago: Uni-
THURSTONE, 1. 1. YCHAVE,E. J. versity of Chicago Press. TRYON, G. S. (1980). «The measurement Educational Research, 50, 343-372. TUCKER, J. A. (1985). «Curriculum-based
tre:Uelnellt assessment:
Review of introdlucl:iorl». Exceptional
Children,52,199-204. TYLER,R. W. (1973). Principios Básicos del Currículo. Madrid: Santillana (orig. 1950). TYLER, R. W. (1967). «Changing concepts of educational evaluation». En R. E. Stake (ed.): Perspectives of currículum evaluation (AERA Monograph Series Curriculum Evaluation, 1). Chicago: Rand McNally: VAN DER UNDEN, W.J. (1997). Handbook of Modern ltem Respanse Tbeory. New York: Springer. VANDER UNDEN, W.J. y GLASS, C. (eds.) (2000). Computer-adaptive testing, Tbeory ang practice. Baston: Kluwer Academic Publishers. VYGOSTSKY,1. (1964). Pensamiento y Lenguaje. Buenos Aires: Lanturo (orig. 1962). WAINER, H. (ed.) (1990). Computer adaptive testing. Hillsdale. NT: Lawrence Erlbaum. WARD, B. YTIKUNOFF, W. (1982). Colaborative Inst.of Educ. WOLF,R. 1.(1974). «The citizen as jurist: A new
izen Action in Education,
4,
DC: National evaluation». Cit-
december.
WOLF, R. 1. (1975). «frial by jury. A new evaluation method». Ph¡;Delta, Kappan, 57, november, 185-187. ZABAIZA, M. A. (1989). Diseño y Desarrollo Currícular. Madrid: Narcea (3a ed.). ZERILU,A. (1978). Fundamentos de organización y dirección general. Bilbao: Deusto. ZENISKY,A. 1. YSIRECI, S. G. (2000). «Technological innovations in large scale assessment». Applied Measurement in Education, 15,337-362.