EDUMETRIA, ANALISIS DE ITEMES, CONFIABILIDAD CONFIABILIDAD Y VALIDEZ VALIDEZ Jorge Manzi 2013
LA EDUMETRÍA VS LA PSICOMETRÍA
Origen del Enfoque. Enfoque. •
Se genera en el ámbito educacional como reacción a la teoría psicométrica psicométrica a mediados de la década del ’60. Reacción contra contra la distribución normal. normal. Como crítica al uso de grupos normativos en pruebas educacionales convencionales. convencionales. Como necesidad para obtener información más explícita explícita sobre los aprendizajes efectivos de los alumnos. –
–
–
3
Distribución Normal versus distribución esperada en educación 0.09 0.08 0.07 0.06 0.05
Normal Norm al
0.04
Esperada
0.03 0.02 0.01 0
4
Comparación entre el enfoque psicométrico y edumétrico. Instrumentos con enfoque psicométrico Interpretación Interpretación de resultados con respecto a un grupo de referencia.
Instrumentos con enfoque edumétrico Interpretación Interpretación de resultados con respecto a criterios o estándares.
Comparación entre el enfoque psicométrico y edumétrico. Instrumentos con enfoque psicométrico
Instrumentos con enfoque edumétrico
Amplio rango de dificultad de las preguntas.
Rango de dificultad estrecho.
Congruencia y cobertura curricular difusa, rango de conocimientos, conocimientos, destrezas destrezas amplio.
Congruencia y cobertura curricular alta, rango de conocimientos, destrezas destrezas claramente especificado.
Comparación entre el enfoque psicométrico y edumétrico. Instrumentos con enfoque psicométrico
Instrumentos con enfoque edumétrico
Se derivan diversos tipos de Se establecen categorías normas (percentiles, estándar, descriptivas de los aprendizajes etc.). Las normas son relativas. logrados y no logrados. Las normas son absolutas. No permite un juicio acerca del Permite informar sobre el nivel nivel de logro de los de logro de los aprendizajes aprendizajes específicos. específicos.
Etapas del proceso de construcción de instrumentos edumétricos •
•
•
•
Determinación de propósitos y destinatarios Establecimiento de formato y longitud del test, tipo de itemes y recursos disponibles para el desarrollo del test. Preparación de especificaciones para orientar la redacción de itemes Producción de itemes
8
Etapas del proceso de construcción de instrumentos edumétricos •
•
•
•
Evaluación de la validez de contenido de los itemes Aplicación experimental (análisis de itemes) Establecimiento de estándares (si corresponde) Estudios complementarios de validez
9
Análisis de ítemes en pruebas edumétricas. •
•
El análisis de reactivos se realiza con muestras antes y después de la instrucción, o bien, muestras sin y con instrucción. Sobre grado de dificultad y capacidad discriminativa de los itemes: –
–
–
La proporción de respuestas correctas sea baja para la muestra sin instrucción o antes de la misma y, La proporción de respuestas correctas sea alta para la muestra con instrucción o después de la misma. Cuando se cumplen ambas condiciones, ello también indica que el ítem es adecuadamente discriminativo 10
Análisis de ítemes en pruebas edumétricas. •
Sobre distractores: –
–
•
Cada distractor o respuesta errada debe ser elegido con mayor frecuencia por el grupo no instruido (o pretest) que por el grupo instruido (o postest). Ningún distractor es elegido con la misma frecuencia por ambos grupos o en ambas ocasiones.
Sobre omisión: –
Las omisiones deben ser mayores en el grupo no instruido (o pretest) que en el grupo instruido o (postest).
11
Especificación de dominios de aprendizaje para la construcción de itemes. 1. 2. 3. 4. 5.
Sector de aprendizaje. Subsector: subconjunto del sector. Objetivo o aprendizaje esperado. Tipo de item. Atributos del enunciado y de los distractores. 6. Ejemplo de item. 12
Taxonomía de Bloom revisada*. •
Presenta dos diferencias fundamentales respecto a la taxonomía original: –
–
–
–
Utiliza dos dimensiones en lugar de una que tenía la taxonomía original. Designa las categorías de los procesos cognitivos con verbos en lugar de sustantivos. Clarifica los contenidos de las categorías. Combina las dos dimensiones sólo en las categorías que tienen sentido sustantivo.
*Anderson, L. W: y Krathwohl, D. R. Eds..(2001) A taxonomy for Learning, Teaching, 13
Taxonomía de Bloom revisada. Dimensión Tipo de conocimiento
Dimensión de procesos cognitivos 1. Recordar
2.
3.
4.
5.
Compren- Aplicar Analizar Evaluar der
6. Crear
Conocimiento factual Conocimiento conceptual Conocimiento procedimental Conocimiento Metacognitivo 14
Taxonomía de Bloom revisada: Procesos cognitivos. •
Recordar: recuperar conocimiento relevante de la memoria a largo plazo. –
–
Reconocer. Ej.: Reconocer las partes del sistema circulatorio en un diagrama. Evocar. Ej.: Enunciar los principales períodos de la historia de Chile.
15
Taxonomía de Bloom revisada: Procesos cognitivos. •
Comprender: construir el significado a partir de diferentes mensajes, incluye la comunicación oral, escrita y gráfica. –
– –
–
–
–
Interpretar. Ej.: Parafrasear una definición de confiabilidad de un instrumento de medición educacional. Ejemplificar. Ej.: Proporcionar ejemplos de “trueque”.
Clasificar. Ej. Clasificar casos de trastornos de lenguaje observados o descritos. Resumir. Ej.: Redactar una síntesis de los principales hechos en una noticia. Comparar. Ej. Comparar democracia en la Grecia antigua con la democracia en Chile contemporáneo. Explicar. Ej.: Explicar los principales antecedentes de la Independencia en Chile. 16
Taxonomía de Bloom revisada: Procesos cognitivos. •
Aplicar: realizar o utilizar un procedimiento en una situación dada. –
–
Ejecutar. Ej.: Multiplicar dos números de 3 dígitos. Implementar. Ej.: Determinar en qué situaciones es aplicable la segunda ley de Newton.
17
Taxonomía de Bloom revisada: Procesos cognitivos. •
Analizar: dividir un contenido en sus partes constitutivas, determinar cómo se relacionan estas parte entre sí y con la estructura o propósito general. –
–
–
Diferenciar. Ej.: Distinguir entre los datos relevantes e irrelevantes en un problema matemático de enunciado verbal. Organizar. Ej.: Estructurar una argumentación a partir de evidencia contradictoria en un hecho policial. Atribuir. Ej.: Determinar el punto de vista del autor de un ensayo en términos de su perspectiva política. 18
Taxonomía de Bloom revisada: Procesos cognitivos. •
Evaluar: emitir juicios basados en criterios o estándares. –
–
Comprobar. Ej.: Determinar si las conclusiones en un artículo científico se desprenden de los datos aportados en el mismo. Criticar. Ej.: Juzgar cual de dos métodos es la mejor forma de resolver un problema.
19
Taxonomía de Bloom revisada: Procesos cognitivos. •
Crear: reunir elementos para formar un todo coherente o funcional; reorganizar elementos en una estructura o patrón nuevo. –
–
–
Generar. Ej.: Formular una hipótesis que dé cuenta de un fenómeno. Planificar. Ej.: Preparar un proyecto de investigación. Producir. Ej.: Escribir un cuento en la época actual, basándose en el argumento central de Edipo Rey. 20
Taxonomía de Bloom revisada: Tipos de Conocimiento. •
Conocimiento factual: elementos básicos que los alumnos deben conocer para estar familiarizados con una disciplina y(o) resolver problemas. –
–
Conocimiento de terminología. Ej.: Vocabulario técnico básico; símbología química. Conocimiento de detalles específicos y elementos. Ej. Fuentes de información confiables; principales recursos naturales.
21
Taxonomía de Bloom revisada: Tipos de Conocimiento. •
Conocimiento conceptual: relaciones entre los elementos básicos en una estructura de orden mayor que les permite funcionar en conjunto. –
–
–
Conocimiento de clasificaciones y categorías. Ej. Clasificación de los cuerpos geométricos; tipos de sociedades comerciales. Conocimiento de principios y generalizaciones. Ej.: La ley de la oferta y la demanda; los teoremas de semejanza; conocimiento de los modelos genéticos. Conocimiento de teorías, modelos y estructuras. Ej. La teoría celular; la teoría de sistemas. 22
Taxonomía de Bloom revisada: Tipos de Conocimiento. •
Conocimiento procedimental: forma de ejecución de algo; métodos de indagación y criterios para utilizar destrezas, algoritmos, técnicas y métodos. –
–
–
Conocimiento de destrezas específicas y algoritmos en una disciplina. Ej.: Las destrezas necesarias en la pintura al óleo; el algoritmo para calcular la sumatoria de una serie. Conocimiento de técnicas y métodos específicos en una disciplina. Ej.: Técnicas de entrevista; el método científico. Conocimiento de criterios para determinar cuándo emplear un procedimiento apropiado. Ej.; Uso de criterios para determinar el procedimiento más adecuado para determinar la confiabilidad de un test. 23
Taxonomía de Bloom revisada: Tipos de Conocimiento. •
Conocimiento metacognitivo: conocimiento de la cognición en general, así como del monitoreo, control y regulación de su propia cognición. –
–
–
Conocimiento estratégico: estrategias generales para aprender, pensar y resolver problemas. Ej.: Construcción de esquemas; heurística para resolver problemas. Conocimiento de herramientas para construir significados y comprensión. Ej. Conocimiento de que estrategias como sintetizar y parafrasear contribuyen a una comprensión más profunda. Autoconocimiento: de sus fortalezas y debilidades respecto al aprendizaje Ej. Identificación de los propósitos al realizar una tarea; conocimiento de sus intereses, utilidad de realizar la tarea. 24
Taxonomía de Bloom revisada Ejemplo de plan de combinación de dimensiones. Dimensión Tipo de conocimiento
Dimensión de procesos cognitivos 1. Recordar
2.
3.
4.
5.
Compren- Aplicar Analizar Evaluar der
Conocimiento factual
X
X
Conocimiento conceptual
X
X
Conocimiento procedimental
X
Conocimiento Metacognitivo
X
X X
6. Crear
X X
X
X 25
Tipos de modelos Modelos continuos
Modelos de estado
26
Modelos continuos •
Conjunto (relativamente homogéneo) de destrezas, habilidades referidas a un mismo dominio de aprendizaje, distribuido en forma continua.
No dominio
Dominio
27
Modelos continuos •
En el extremo superior de este continuo se identifica un segmento en el que se ubican los individuos que poseen dominio y que constituye una categoría de logros de aprendizaje. El puntaje de corte delimita a este segmento. No dominio
Dominio Puntaje de corte 28
Modelos continuos •
•
•
En algunos modelos es posible identificar una zona intermedia de dominio parcial. El objetivo de la medición es obtener información para tomar decisiones educacionales; en particular, sobre las acciones que siguen a la medición. El puntaje de corte representa un criterio para interpretar el logro de aprendizajes de un alumno.
29
Modelos de estado •
•
•
Consideran el dominio o logro de aprendizaje como un estado dicotómico. El puntaje de corte debiera proporcionar una clasificación con un mínimo de error. Por lo tanto, en ambas familias de modelos la determinación del puntaje de corte es fundamental. 30
Determinación de estándares
Estándares de Desempeño y Puntos de Corte •
•
Estándares de Desempeño: Descripción escrita del nivel de conocimientos, habilidades o actitudes que los estudiantes deben mostrar para cumplir con un determinado nivel de rendimiento (p.ej., insatisfactorio, básico, competente, destacado). Puntos de corte: Puntaje de un test que separa a quienes logran un estándar de rendimiento de aquellos que no lo logran.
Advertencias •
•
•
Los Estándares (normas, puntos de corte) son siempre parcialmente subjetivos. En consecuencia: Diferentes jueces pueden establecer distintos puntos de corte empleando el mismo método. Se debe poner cuidado en basar los puntos de corten en métodos académica y profesionalmente establecidos, de manera de acotar el grado de subjetividad.
Criterios para Standard Setting •
Objetividad / Transparencia / Reproducibilidad
•
Confiabilidad –
Invarianza a través de replicaciones.
•
Consistencia
•
Robustez –
•
Invarianza cuando hay cambios en el las condiciones o materiales usados, etc. (p. ej.: selección de itemes)
Factibilidad
Puntajes de corte •
Cualquiera sea el método para determinar el puntaje de corte, existe la posibilidad de dos tipos de decisiones erróneas: –
–
Un alumno que no haya logrado los aprendizaje puede obtener un puntaje superior al de corte y, un alumno que haya logrado los aprendizajes puede obtener un puntaje inferior al del puntaje de corte
35
Errores en la clasificación de los alumnos. Ubicación respecto al puntaje de
Por debajo
Por encima
Decisión correcta
Error
Corte Situación real de logro
No Domina
Domina
Error (falso negativo)
(Falso positivo) Decisión correcta 36
Procedimientos para la implementación •
•
•
•
•
•
Definición de propósitos Selección de participantes Entrenamiento de participantes Definición de Estándares de Rendimiento Procedimientos de Recolección de Datos Procedimientos para validación (interna – externa)
Principales Métodos •
Métodos basados en Tests –
–
•
basados en el contenido de los indicadores (suponen el juicio de expertos. Ej.: Angoff, Nedelsky, Jaeger, y Ebel); Generalmente son más apropiados para pruebas breves y de selección múltiple.
Métodos basados en los estudiantes / examinados –
–
Basados en los puntajes de los examinados (suponen aplicaciones empíricas. Ej.: método de grupos contrastantes y de grupos límítrofes); Generalmente son más apropiados para formatos de respuesta más extendidos.
Estudiante limítrofe •
Muchos métodos de Estándar Setting emplean el concepto de estudiante/examinado/candidato limítrofe, también denominado: –
–
•
Candidato Mínimamente Competente Candidato Apenas Certificado
Es un estudiante o examinado (o grupo) real o ficticio que posee los conocimientos / habilidades mínimos para aprobar el test (para ser certificado, para ser denominado competente, etc.).
Métodos Clásicos •
•
Desarrollados principalmente para pruebas que miden conocimiento. Rúbricas de puntuación dicotómicas (p.ej.: selección múltiple)
•
Pruebas típicamente unidimensionales.
•
Itemes independientes.
•
Alta generalizabilidad de los puntajes (buen rendimiento en algunos itemes implica buen rendimiento en otros).
Ejemplos de Métodos basados en Tests
•
Nedelsky (solo para pruebas con itemes de selección múltiple)
•
Angoff
•
Jaeger
•
Ebel
Método de Angoff (1971) •
•
•
•
Puede ser utilizado en cualquier tipo de prueba. Cada juez debe pensar en un estudiante limítrofe y su estimar la probabilidad de respuesta correcta para cada pregunta. El puntaje de corte es igual a la suma de probabilidades estimadas. Si hay más de un juez se debe calcular el promedio o mediana de ellos.
Método de Angoff ….% ….% ….% ….% ….% ….% ….% ….% ….%
S u m: ….
s i
p
Método de Angoff Item 1 2 3 4 5 Punto de corte
1 0.70 0.90 0.80 0.70 0.80 3.90
Juez 2 0.60 0.50 0.50 0.80 0.80 3.20
3 0.70 0.80 0.60 0.60 0.70 3.40
A menudo se emplea más de una vuelta de juicios: Método Delphi.
Promedio 0.67 0.73 0.63 0.70 0.77 3.50
Métodos Modernos •
•
•
•
•
Evaluaciones de rendimiento complejas. Multidimensionalidad . Se requiere que los examinados realicen tareas que poseen múltiples componentes, cada uno de los cuales es considerado importante para el éxito educacional o laboral Rúbricas de puntuación policotómicas. Interdependencias (p.ej.: el examinado no puede completar una tarea debido a que no ha realizado otras). Baja generalizabilidad de puntajes al nivel de las tareas / ejercicios. El rendimiento correcto en una determinada tarea no necesariamente implica un rendimiento alto en otras.
Estándares de Rendimiento para evaluaciones complejas •
•
•
Método de Angoff Extendido Método Bookmark (Item-Mapping) Método de Grupos Contrastados Cizek, G.J. (2001). Setting Performance Standards: Concepts, Methods and Perspectives. New York: Lawrence Erlbaum Associates, Inc.
Método de Bookmark (item mapping) •
•
•
•
Escalamiento de itemes Entrenamiento de Jueces Familiarización con los itemes (ordenados según su grado de dificultad) Jueces juzgan primero individualmente y luego colectivamente los itemes hasta alcanzar un consenso.
Bookmark: mapa de itemes Más Difíciles
I34
I15 I4
I21 I19
I11
I9 I18 I25
Más Fáciles
I30
Escala de Puntajes IRT
Bookmark: Ronda 1 •
Los participantes revisan, en forma personal, el cuadernillo con los itemes previamente ordenados según su grado de dificultad. Se les pide que al analizar cada item respondan dos preguntas: ¿qué conocimientos, habilidades y destrezas deben ser aplicados correctamente para responder un item dado? ¿qué hace a cada item progresivamente más difícil que el anterior? En esta etapa se evita que los participantes discutan los itemes en términos de qué contenido debe ser dominado en cada nivel de desempeño (esto es propio de la 2ª y 3ª ronda). Con ello se pretende –
–
•
•
evitar que los juicios personales se contaminen con las opiniones de los otros o con la de algún miembro del grupo cuya opinión sea dominante. Al término de esta fase, los participantes expresan su juicio sobre los puntos de corte, poniendo una señal o marca entre los ítemes que representan el punto de corte
Bookmark: Ronda 2 •
•
En esta fase, se realiza la discusión en grupos pequeños. En esta fase, el encargado de grupo solicita a cada participante que exponga y justifique los puntos de corte establecidos en la primera ronda. Mientras, el encargado del grupo anota esta información en una pizarra, de manera que todos puedan ver los puntos de corte de los otros. En este momento se discute qué tipo de contenidos debe dominar un profesor en cada una de las categorías de desempeño, identificando así, qué preguntas resultan críticas para situar a un sujeto dentro de un determinado nivel de logro. Luego de esta discusión, se les pide a los participantes que vuelvan a establecer sus puntos de corte, y si luego de esta segunda ronda no hay consenso, se calcula la mediana entre los puntos de corte propuestos (analizando el rango entre el cuál se sitúa el punto de corte).
Bookmark: Ronda 3 •
Se inicia con la presentación de los resultados de la ronda anterior en plenario. Las personas a cargo del proceso muestran los porcentajes de docentes que clasifican en cada categoría de desempeño, según los puntos de corte sugeridos en la ronda anterior. En esta etapa se intenta promover el consenso del plenario, pidiendo a un representante de cada grupo que explique y justifique las decisiones del grupo. Si el consenso no se produce, se hace una votación final de los panelistas. Finalmente, se tabulaban los juicios, se calculan las medianas y se presentan los puntos de corte finales y el impacto estimado.
ANÁLISIS DE ITEMES BASADO EN TEORÍA CLÁSICA DE LA MEDICIÓN
Plan de análisis de itemes en estudios de campo •
•
•
•
•
Definir el diseño muestral (tamaño y representatividad de la muestra) Identificar grupos que se desee contemplar en el plan muestral (sexo, condición socioeconómica, grupos étnicos, etc.). Esto es especialmente relevante para el análisis del sesgo de itemes. Establecer la longitud de las formas que se aplicarán Establecer el tiempo asignado para responder las formas Incorporar otros instrumentos si se desea incluirlos como criterio para evaluar los itemes.
10/8/2013
Aspectos que se evalúa en itemes •
•
•
•
•
Grado de Dificultad Capacidad Discriminativa Omisión Distractores Sesgo de itemes / DIF
10/8/2013
Grado de Dificultad •
•
•
•
•
Porcentaje de respuesta correcta Porcentaje ajustado de respuestas correctas (considerando respuestas correctas al azar) El rango de grado de dificultad deseable depende de la naturaleza y uso de la prueba (por ejemplo, ítemes de mayor grado de dificultad son deseables en pruebas de selección). Lo usual es, en todo caso, excluir ítemes muy fáciles o muy difíciles. El grado de dificultad es dependiente de la distribución de habilidades de la muestra en que se estima.
10/8/2013
Capacidad discriminativa •
•
Corresponde al grado en que cada pregunta del test permite diferenciar (“discriminar”) entre examinados con mayor o menor grado de habilidad. Se puede establecer con respecto a un criterio externo (otro instrumento) o interno (puntaje total en el test) – –
•
El primer caso maximiza la validez del instrumento El segundo maximiza la consistencia interna
Técnicas – –
Comparación de grupos extremos Correlación item-test • •
10/8/2013
Correlación biserial Correlación biserial-puntual (cuyo valor máximo depende del grado de dificultad)
Omisión •
•
•
Se analiza el porcentaje de casos que deja la pregunta sin responder, tratando de establecer las razones de la omisión. Considerar las instrucciones antes de resolver el grado de omisión tolerable. Mayor grado de omisión es esperable cuando se penalizan respuestas incorrectas. Comparar el patrón de omisiones entre grupos de alta y baja habilidad. –
–
•
Si la omisión es equivale entre ambos grupos, se puede sospechar ambigüedad en el item (descartar) Si la omisión es mayor en el grupo de menor habilidad, la omisión reflejaría el grado de dificultad del item (conservar el item)
Analizar la omisión según la posición del item en la prueba. Si se incrementa hacia el final, el tiempo asignado para la prueba puede haber sido insuficiente (por esto es deseable evaluar la omisión cuando un mismo item ocupa diversas posiciones en las formas)
Distractores •
•
Se refiere a la distribución de las respuestas entre las opciones incorrectas. Criterios para seleccionar itemes según la distribución de respuestas entre los distractores: –
–
–
–
Que ningún distractor presente proporciones demasiado bajas de frecuencia (salvo en itemes muy fáciles). Que presenten una distribución relativamente homogénea Que todos presenten una correlación nula o negativa con el puntaje total Que la media de quienes los eligen sea inferior a la media de quienes eligen la opción correcta
Sesgo de item •
•
Un item es sesgado cuando antecedentes ajenos a la habilidad de los examinados inciden en el desempeño en los itemes. Los antecedentes más estudiados han sido la pertenencia a grupos (según género, origen social o étnico).
Espacio para selección de itemes Capacidad Discriminativa
r bis > 0.4 0.3 a o.4 0.2 a 0.3 0.1 a 0.2 0 a 0.1 10/8/2013
Grado de Dificultad de los itemes 0a 0.1
0.1 a 0.2
0.2 a 0.4
0.4 a 0.6
0.6 a 0.8
0.8 a 0.9
0.9 a 1.0
ILUSTRACIÓN CON ITEMES DE PRUEBAS DE ADMISIÓN A LAS UNIVERSIDADES EN CHILE
Ejemplo de item de Lenguaje 12. “La lengua es también una fiel representante de la calidad de ser humano en la que
queremos convertirnos y hay síntomas que delatan un deterioro, como el predominio del lenguaje periodístico por sobre un lenguaje de expresión. Se perdió el matiz, la metáfora, la hipérbole. La gente ahora habla de flujo vehicular y de vacacionar, copiándoles a los periodistas y a la publicidad”.
Marta Blanco, El Mercurio La consistencia de la argumentación contenida en el texto leído se manifiesta en que la autora A) utiliza el deterioro de la lengua como argumento y lo valida a través de ejemplos. B) emplea una fórmula narrativa para presentar una crítica. C) explica que la pérdida del uso de figuras literarias empobrece la lengua. D) presenta una opinión sólida sobre el deterioro del lenguaje periodístico. E) realiza una valiosa argumentación basada en el lenguaje periodístico y publicitario.
Ejemplo de resultados del item anterior Item i12
12: * is keyed
A*
B
C
D
E
Omit Invalid
Responses
34.5%
10.3%
17.0%
7.5%
6.3%
24.4%
0.0%
Upper 27%
56.7%
5.5%
15.6%
2.3%
4.5%
15.3%
0.0%
Lower 27%
15.3%
12.5%
15.4%
11.9%
9.8%
34.9%
0.0%
Mean Score 45.459
35.074
38.773
32.016
34.496
Item-Total:
Point Bis
0.345
-0.091
-0.002
-0.139
-0.080
Biserial
0.445
-0.154
-0.003
-0.259
-0.158
Distribución del grado de dificultad y capacidad discriminativa total de itemes 1
) s 0.8 i b r ( a v i t 0.6 a n i m i r 0.4 c s i D d a 0.2 d i c a p a 0 C
0
0.1
0.2
0.3
0.4
0.5
0.6
-0.2
Grado de Dificultad
0.7
0.8
0.9
1
Tasa de Omisión según la posición de los itemes 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 1 i
i 4
7 1 3 4 3 1 0 1 3 1 6 1 9 2 2 2 5 2 8 3 7 4 0 4 3 4 6 4 9 5 2 5 5 5 8 6 4 7 7 0 7 3 7 6 7 9 i i 1 i i i i i i i i 6 i 6 i i i i i i i i i i i i i i
Relación entre Omisión y Dificultad
0.8
0.7
0.6
n ó i 0.5 s i m O0.4 e d a s 0.3 a T 0.2
0.1
0 0
0.1
0.2
0.3
0.4
0.5
0.6
Grado de Dificultad
0.7
0.8
0.9
1
Grado de dificultad de itemes de formas paralelas prueba de Matemática 0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
ILUSTRACIÓN CON SOFTWARE IATA
Validez
Consistente (Confiable)
Consistente y Certero (Válido)
Definiciones prevalecientes de Validez •
Hasta los 80: “¿Mide este test lo que intenta medir?
•
Desde los 80 (Messick): ¿Qué me dice un puntaje X acerca de la persona? ¿Qué tipo de inferencias puedo hacer acerca de la persona a partir de sus resultados? ¿Cuán confiado estoy acerca de estas evidencia?
La visión de Messick: “Validity is not a property of the test or assessment
as such, but rather of the meaning of the test scores. These scores are a function not only of the items or stimulus conditions, but also of the persons responding as well as the context of the assessment. In particular, what needs to be valid is the meaning or interpretation of the score; as well as any implications for action that this meaning entails.” Messick, 1995
Antecedentes acerca de la validez: La noción de “tipos” de validez •
La distinción entre 3 ó 4 “tipos” de validez fue
predominante hasta la publicación de los Standards for Educational & Psychological Testing de 1999 (producidos por un comité conjunto de la APA, AERA y NCME) •
Los “tipos” clásicos Validez de contenido Validez concurrente Validez predictiva –
–
–
La revolución en la validez: la Validez de Constructo •
La aparición del concepto de Validez de Constructo en los años 50 transformó radicalmente la visión tradicional. –
–
–
–
La validez comenzó a ser comprendida como un proceso de acumulación de evidencias en torno al significado de los puntajes de un test. La validación debiera fundarse en los avances del conocimiento y las teorías en torno a los constructos medidos La validación debiera entenderse como un proceso de contrastación de hipótesis La validación debiera recurrir a todas las metodologías científicas pertinentes (no experimentales y experimentales)
Los cambios que introdujo la Validez de Constructo •
•
•
•
•
La validez dejó de entenderse como una pregunta con una respuesta definitiva. Es una cuestión permanentemente abierta a nueva evidencia La validez dejó de entenderse como la obtención de un indicador clave (como la correlación con otro test), en favor de la acumulación de múltiples evidencias La validez dejó de ser un índice, en favor de una configuración de resultados esperados La validez dejo de considerar sólo evidencia convergente, considerando también evidencia discriminante (ejemplo más acabado: uso de matrices multirasgo-multimétodo) Se privilegió la acumulación de diverso tipo de evidencia (de distinta naturaleza, obtenida con metodologías alternativas).
Los cambios de la conceptualización de 1999 •
•
Desaparecen los “tipos” de validez Se promueve la acumulación de distinto tipo de evidencias acerca de un test
“Validity … is the degree to which all of the accumulated evidence supports the intended interpretation of the test scores for the intended purposes .” AERA, APA, & NCME, 1999, p. 11
En consecuencia: •
•
•
No validamos un test Validamos el uso que se da a un test La Validez depende del test, personas evaluadas y las circunstancias en que se lleva a cabo la medición. –
Por tanto, un test puede ser válido para un grupo o para un contexto determinado, pero inválido en otros grupos o contextos.
Tipos de evidencia acerca de la validez (Standards for Educational & Psychological Testing 1999) •
•
•
•
•
Evidencia basada en el contenido del test Evidencia basada en Procesos de Respuesta Evidencia basada en la Estructura Interna Evidencia basada en relaciones con otras variables Evidencia basada en las consecuencias de la medición
Evidencia basada en el contenido del test •
Análisis lógico y evaluación experta acerca del contenido del test. El juicio apunta a establecer si el contenido del test es representativo del dominio al que apunta –
–
–
–
–
•
Ítemes Tareas Formatos Fraseo Procedimientos requeridos
Juicio basado en –
–
Revisión de la literatura Opinión de expertos
Evidencia basada en procesos de respuesta •
•
En qué medida las tareas o tipos de respuesta requeridas activan procesos psicológicos relacionados con el constructo que se pretende medir Evidencia: –
–
–
Entrevista o cuestionarios a participantes, indagando su comprensión de las preguntas estrategias empleadas, etc. Observación de examinados Análisis del sesgo de medición
Evidencia basada en la estructura interna del test •
•
•
En qué medida los componentes de un test (itemes, tareas, etc.) se relacionan en la forma esperada para el constructo medido. Por ejemplo, si una teoría afirma que un constructo es unidimensional, ello debiera verificarse en las interrelaciones entre los componentes del test Evidencias principales: –
–
–
Análisis factorial exploratorio exploratorio de los itemes Análisis factorial confirmatorio de los itemes Análisis de la invarianza invarianza factorial entre grupos
Evidencia basada en la relación con otras variables •
•
El grado en que un test se relaciona con diversas variables aporta evidencia crucial para su validez Evidencias principales: –
–
–
–
–
Validez concurrente: concurrente: correlación con otros tests que miden el mismo constructo Validez convergente y discriminante: para verificar si correlaciona según lo esperado con constructos similares, y para demostrar que el test no se asocia con constructos diferentes (evaluada principalmente mediante matrices multirasgo-multimétodo) multirasgo-multimétodo) Validez predictiva Comparación entre grupos Estudios experimentales
Evidencia basada en las consecuencias de un test •
•
•
•
Análisis de las consecuencias esperadas y no esperadas de las mediciones. Esto es especialmente útil para informar la validez de las decisiones basadas en un test. Especialmente útil cuando se pueden identificar diferentes diferentes consecuencias para diversos tipos de usuarios. Esta evidencia sirve para verificar si se producen las consecuencias positivas que normalmente han motivado la creación o aplicación de un test Evidencia: –
Estudio de las consecuencias a partir de entrevistas, observaciones o registros disponibles en bases de datos
Ejemplo con datos nacionales •
Validez predictiva de la PSU
Correlaciones Factores de Selección y Notas universitarias
Año Ingreso
N carreras
Lenguaje
Matemática
NEM
PSEL
2003 (PAA)
766
0.02
0.13
0.25
0.30
2004
777
0.08
0.29
0.27
0.39
2005
824
0.11
0.25
0.26
0.38
2006
851
0.10
0.24
0.24
0.36
2007
918
0.10
0.25
0.25
0.36
Resumen de Correlaciones Factores Optativos
Carreras Ciencias
Ciencias
Carreras Historia
Historia
2003 (PCE)
93*
0,09
29**
0,01
2004
475
0,26
342
0,08
2005
508
0,27
430
0,08
2006
554
0,24
447
0,06
* PCE Biología ** PCE Ciencias Sociales
SESGO DE MEDICIÓN
¿Cómo evaluar sesgo de medición? (métodos externos) •
Un test es sesgado para los miembros de un grupo, cuando la predicción de un criterio a partir del test se aparta sistemáticamente de la predicción común para todos los grupos. En otras palabras, es sesgado cuando la línea de regresión común resulta muy alta o muy baja para ese grupo.
Caso 1: Diferencias entre grupos, pero test no sesgado
alto
Criterio
Grupo de referencia
Grupo focal bajo bajo
alto
Predictor
Caso 2: Diferencias entre grupos, test sesgado Línea de regresión común alto Grupo focal
Criterio Grupo de referencia
bajo bajo
alto
Predictor
Métodos para estudiar sesgo •
•
Validez diferencial: análisis comparativo de la validez predictiva según subgrupos. Usualmente se estudia comparando las correlaciones o coeficientes de regresión entre grupos Predicción diferencial: comparación de los residuos de distintos grupos una vez que se ha ajustado una ecuación de regresión común. Si los residuos son diferentes, se produce subpredicción o sobrepredicción para ciertos grupos
Predicción diferencial del SAT Sobrepredicción: -; Subpredicción: + (Fuente: Mattern et al, 2008)
SAT-CR
SAT-M
SAT-W
NEM
Hombres
-.14
-.20
-.11
-.08
Mujeres
.12
.17
.10
.07
Blancos
.04
.05
.04
.06
Negros
-.30
-.26
-.26
-.32
Hispánicos
-.17
-.16
-.16
-.27
PSUM 0.15 0.11
0.10
0.10
0.10
0.09
0.10
0.05
0.00 2003
2004
2005
2006
2007
-0.05
-0.10
-0.09
-0.09
-0.09
-0.10
-0.15
Hombre
Mujer
-0.10
PSUL 0.15
0.10
0.09 0.06
0.07
0.07
0.07
0.05
0.00 2003
2004
2005
2006
2007
-0.05 -0.06 -0.10
-0.06
-0.08
-0.07
-0.15
Hombre
Mujer
-0.07
NEM 0.15
0.10
0.05 0.02 0.01
0.00 0.00
0.00
-0.01 -0.02
0.02
0.02
-0.02
-0.02
-0.05 2003
2004
2005
2006
-0.10
-0.15
Hombre
Mujer
2007
ESTÁNDARES DE MEDICIÓN
Estándares sobre Validez 1. Se debe presentar una justificación para cada interpretación recomendada y el uso de los puntajes del test, junto con un resumen comprensivo de la evidencia y teoría que subyace a estos usos interpretativos. 2. Quienes desarrollen el test deben establecer claramente cómo se deben interpretar y usar los puntajes. La población para la cual el test es apropiado debe estar claramente delimitada y se debe describir claramente el constructo que el test pretende medir 3. Si la validez de algún tipo de interpretación no está estudiada o si dicha interpretación es inconsistente con la evidencia recabada, esto debe ser comunicado a los potenciales usuarios para que sean cautelosos respecto de interpretaciones sin fundamento. 4. Si un test es usado en alguna forma que no ha sido validada, es responsabilidad del usuario justificar este nuevo uso y recabar nueva evidencia en caso de ser necesario. 5. La composición de cualquier muestra de examinados a partir de la cual se obtenga evidencia de validación debe ser descrita en detalle, incluyendo los principales aspectos sociodemográficos y características de desarrollo.
Estándares sobre Validez 6. Cuando la validación descanse en parte en la adecuación del contenido del test, los procedimientos que se sigan para especificar y generar dichos contenidos deben ser descritos y justificados en función del constructo que el test busca medir o el dominio que busca representar. 7. Cuando la validación descanse en parte en la opinión de jueces expertos u observadores, los procedimientos para seleccionar dichos expertos y para elicitar sus juicios deben ser descritos exhaustivamente. Se deben presentar también las calificaciones y experiencia de dichos jueces, así como el entrenamiento que recibieron y el nivel de acuerdo en sus juicios. 8. Si la justificación para el uso de un test o para la interpretación de sus puntajes depende de premisas acerca de procesos psicológicos u operaciones cognitivas que usan los examinados, entonces se debe entregar evidencia empírica o teórica que apoye dichas premisas. 9. Si se señala que un test no se ve afectado por la práctica y el entrenamiento, entonces esta condición debe ser documentada. 10. Cuando se sugieran interpretaciones acerca del desempeño en itemes específicos, o de un pequeño subgrupo de ellos, se debe entregar evidencia relevante para sustentar la adecuación de dicha interpretación
Estándares sobre Validez 11. Si la justificación para el uso de un test o su interpretación depende de premisas acerca de las relaciones entre partes del test, debe haber evidencia disponible acerca de la estructura interna del test. 12. Cuando se sugiera la interpretación de subpuntajes o diferencias de puntajes, se debe entregar evidencia que lo sustente. Cuando se desarrollen puntajes compuestos, se debe entregar la justificación de cómo se llegó a esta fórmula. 13. Cuando la evidencia de validez incluya análisis estadísticos de los resultados del test, ya sea que incluyan o no otras variables de interés, se debe entregar información respecto de las condiciones bajo las cuales se recabó la evidencia, describiéndolas con suficiente detalle como para que los usuarios puedan juzgar la relevancia de los hallazgos estadísticos a la luz de condiciones locales. 14. Cuando la evidencia de validez incluya análisis empíricos de las respuestas junto con otras variables de interés, se debe entregar la justificación de la selección de dichas variables. 15. Cuando se afirme que un determinado nivel de desempeño en el test predice un buen o mal desempeño en el constructo medido, se debe entregar información acerca de los niveles del constructo que se asocian con los niveles de puntaje en el test.
Estándares sobre Validez 16. Cuando la validación se basa en evidencia acerca de la relación entre puntajes en el test y otras variables criterio, se debe entregar información acerca de la adecuación y calidad técnica de dichas variables. 17. Si los puntajes de un test se usan en conjunto con otras variables cuantitativas para predecir alguna otra variable, se deben hacer análisis de regresión (u otra técnica equivalente) que incluyan estas otras variables. 18. Cuando se hagan ajustes estadísticos, tanto los coeficientes ajustados como los no ajustados, así como los procedimientos utilizados, deben ser reportados. 19. Cuando se recomienda el uso de un test para asignar personas a tratamientos alternativos, y si los resultados de esos tratamientos pueden ser razonablemente comparados en base a un criterio común, se debe entregar evidencia que sustente estos efectos diferenciales. 20. Cuando se use el metaanálisis como evidencia de la robustez de la relación entre los puntajes del test y variables criterio, las características de éstos deben ser comparables con aquellas que se reportan en el metaanálisis. Cualquier diferencia importante debe ser explicitada.