INFORME INSTRUMENTOS INSTRUMENTOS DE MEDIDA EN CONTEXTOS CONTEXTOS EDUCATIVOS. EDUCATIVOS.
1. Dificultad de los ítems: se obtiene con la media de cada ítem. Hacer el cálculo con la variable transformada (las acabadas en “R”) de Cantidad.
Procedimiento con con SPSS:
1- Sacar medias: medias: analizar--analizar--- frecuenc frecuencias---de ias---descript scriptivos--ivos--- las las variables variables “R”--media. 2- Observar Observar en la tabla tabla de medias los los resultado resultados. s. A más más cerca de 1 la media media significa que el ítem es más fácil.
Estadísticos descriptivos N M413Q01R 966 M413Q02R 960 M520Q01R 990 M484Q01R 967 M806Q01R 983 M413Q03R 923 M510Q01R 986 M520Q02R 986 M520Q03R 978 N válido (según lista) 846
Media ,24 ,22 ,25 ,16 ,20 ,12 ,12 ,13 ,16
Al observar las medias se cumple que los primeros ítems son los más fáciles (medias más cercanas a 1), aunque los ítems M484Q01R y M520Q03R no siguen esa “línea” de dificultad que deberían de seguir todos los ítems de la muestra.
2. Discriminación y Homogeneidad: Homogeneidad:
2.1 Correlación ítem-total. Calcular la discriminación para ver si los ítems discriminan igual, es decir, que midan todos lo mismo, en este ejemplo práctico sería que todos midiesen “cantidad”.
Procedimiento con SPSS:
1-Analizar--- escala--- análisis fiabilidad--- estadísticos (escala si se elimina el elemento y factor f). 2-Observar resultados de la tabla “Estadísticos total-elemento”. Estadísticos de fiabilidad Alfa de Cronbach ,591
N de elementos 9
El estadístico de Alfa de Cronbach, en este estudio, no es necesario, aunque si lo fuese observamos que da un valor menor a .75, por lo que no es adecuado.
Estadísticos total-elemento Media de la Varianza de la
M413Q01R M413Q02R M520Q01R M484Q01R M806Q01R M413Q03R M510Q01R M520Q02R M520Q03R
Alfa de
escala si se
escala si se
Correlación
Cronbach si se
elimina el
elimina el
elemento-total
elimina el
elemento 1,43 1,45 1,40 1,48 1,45 1,53 1,53 1,52 1,48
elemento 2,153 2,134 2,214 2,662 2,494 2,268 2,519 2,340 2,257
corregida ,393 ,432 ,314 ,006 ,122 ,427 ,172 ,335 ,360
elemento ,527 ,516 ,552 ,631 ,606 ,527 ,587 ,549 ,540
Lo primero que observamos es que en la columna de Correlación elemento-total corregido: en esta columna observamos las correlaciones de cada ítem con el resto de ítems. El máximo sería 9, ya que la correlación máxima entre dos ítems sería de 1; por lo tanto, si son 9 ítems el total de correlación de cada uno sería de 9.
Si tenemos en cuenta la explicación anterior, sería incorrecto haber obtenido valores negativos en estas correlaciones, ya que siempre debe de ser positiva y creciente por que aunque falles, el valor nunca es menor de 0. Como podemos observar ese no es nuestro caso, todas las correlaciones de nuestra prácticas son positivas, aunque, si nos fijamos
bien, vemos que el ítem
M484Q01.
Correlaciona .006 por lo que deberíamos investigar
que ha pasado con esa pregunta.
Al obtener los estadísticos, el SPSS también nos calcula el ANOVA, dato que más tarde necesitaremos. ANOVA Suma de cuadrados 264,288
Inter-personas Intra-personas
Media gl
F
845
cuadrática MCp = ,313
14,042
Inter-elementos Residual
14,378 865,178
8 6760
MCi = 1,797 MCpxi = ,128
Total
879,556
6768
,130
1143,843
7613
,150
Total
Sig. ,000
Media global = ,18
Podemos calcular el número de frecuencias de ese ítem para ver cuántos realmente lo han contestado, cuántos no, etc. y ver si eso ha condicionado sus correlaciones con el resto de ítems. Estadísticos M484Q01 N Válidos Perdidos
1000 0
Procedimiento con SPSS:
Analizar --- frecuencias de ese ítem.
M484Q01 Válidos
0 = FALLO 1 = ACIETO 8 9
n = LA LEE Y NO LA CONTESTA r Total
Frecuencia
99 158 10 27
700 6 1000
Gracias a la tabla de frecuencias del ítem M484Q01 podemos observar que de 1000 sujetos que tiene nuestra muestra, 700 de ellos leyeron el ítem pero no lo contestaron, esta sería una de las causas de tan baja correlación.
2.2 Concordancia entre dos ítems del mismo objetivo (chi cuadrado de harris) : calcular y observar la correlación por pares, en este caso la de menos valor con la de mayor valor para ver que pasa.
Pero como no tenemos el programa adecuado para ello (ConwerConquest), tendremos que hacer los cálculos a mano. Como se trata de una tarea ardua, solo calcularemos un par (ítems M413Q02 y M484Q01 ) como ejemplo.
Procedimiento con el SPSS:
Calcular frecuencias. Analizar---estadísticos---tabla contingencias (coger los ítems R) Tabla de contingencia M484Q01R * M413Q02R Recuento M413Q02R 0 1 Total M484Q01R 0 A= 594 B= 178 772 1 C= 128 D= 28 156 Total 722 206 928
A= especificidad B= falso positivo C= falso negativo D= sensibilidad
Calcular chi cuadrado a mano. (el chi cuadrado de 0,05 y 1 gl es de 3,84)
X 2= [ (B-C) -1 ] / B+C X2= [ (B-C) -1] / B+C = 7,846 Cuanto más alejado de 0 sea el valor de Chi Cuadrado, la diferencia entre ambos ítems será estadísticamente más significativa y, por lo tanto, más fiable. Además el valor obtenido es el doble al valor de chi cuadrado real ( 7,846 > 3,84); incluso si lo reducimos a 0,01, el valor obtenido sigue siendo más alto.
3. Fiabilidad: cálculo del Coeficiente de Generabilidad.
Con los valores de las medias cuadráticas de la tabla anteriormente citada del anova podríamos obtener el coeficiente de generabilidad, pero es realmente una operación larga por el número de ítems y sujetos que hay.
Cálculos numéricos:
Si2 = 0,001669 Sl = 0,00000031 SPl = 0,014 S^2 = 0,0142 G = 0,104
Si el cálculo de G sale cercano a 0 significa que no se puede generalizar a otras personas, es decir, lo que pasa en estos 1000 sujetos de la muestra no podría generalizarse a otros sujetos.
Ahora habría que valorar cuantas preguntas de anclaje (preguntas que tienen en común competencias de la educación mundial) pusieron en cada país.
4. Aplicación del modelo de Rasch:
1-Abrimos el programa rascal después de haber modificado el documento con el que hasta ahora hemos trabajado. 2-Analice y después le damos al icono de la mano.
Podemos observar que el programa Rascal ha eliminado dos ítems (el 6 y el 7) por que los sujetos, o bien no los han respondido o han respondido muy pocos, y no tienen suficientes datos para analizar ambos ítems.
3-Nos fijamos en chi cuadrado “Difficulty”: ver en que niveles de dificultad se encuentran los ítems de la muestra.
nivel de dificultad.
ítems de la muestra.
nivel de cada ítem según PISA.
nivel de cada ítem según Rascal.
Item ----
Difficulty ----------
Std. Error
----------
Chi Sq. -------
df ----
Diff ------
M413Q01 =1 1
-0.983 = 1
0.092
88.428
4
91
0.094
113.492
4
93
0.171
13.161
4
112
M413Q02=1 2
-0.810 =1
M520Q01 =1 3
1.348 =2
M484Q01=2 4
-0.409 =1
0.101
93.392
4
96
0.096
101.662
4
94
0.107
51.185
0.197
9.685
M806Q01 =2 5
-0.690 =1
M413Q03 =2 6
--Deleted—
M510Q01 =2 7
--Deleted—
M520Q02 =2 8
-0.156 =1
4
99
M520Q03 =2 9
1.702 =2
4
115
Nos fijamos en la dificultad de los ítems para comprobar si están bien colocados según los jueces.
-3
-2
n. 3
-1
n.2
0
n.1
1
n.1
2
n.2
3
n.3
Todos los ítems según PISA estaría entre el nivel 1 y el nivel 2, para ver si esto es así, utilizamos rascal (que aplica el modelo de Rasch). El programa nos clasifica los ítems entre el nivel 1 y el nivel 2, al igual que PISA.
4- Calculamos, mediante los datos que nos ha facilitado el programa, la sensibilidad y especificidad de los ítems, es decir, ver si los sujetos de la muestra están bien clasificados o no.
Number (Theta) Correct
Ability
Std. Error -------
Freq-
Cum
Scaled
uency
Freq
Percentile Score
------
----------
-------
-------
-------
-------
0
*****
*****
858
858
99
***
1
-2.18
1.144
290
1148
99
80
2
-1.21
0.898
191
1339
99
89
3
-0.46
0.836
59
1398
99
96
4
0.29
0.856
27
1425
99
103
5
1.15
0.948
4
1429
99
110
6
2.29
1.208
0
1429
99
121
7
*****
*****
0
1429
99
***
Para calcular la frecuencia de cada supuesto nivel sumamos el número de sujetos que se supone que han acertado ese nivel.
Nivel 1 (= han acertado 2 ítems):
290 +191 = 481 sujetos
Nivel 2 (= han acertado 5 ítems):
59 + 27 + 4 = 90 sujetos
Nivel 3 (=han acertado 7 ítems):
0 + 0 = 0 sujetos
Bien, después de sacar cuántos sujetos están en cada nivel según el número de aciertos, ahora tenemos que ver de cada nivel cuántos sujetos están bien clasificados y cuales no. Es decir, puede ser que un sujeto sí que haya acertado dos ítems pero no tiene porque haber acertado los dos primeros, puede haber acertado el primer ítem y el cuarto por ejemplo; si esto ocurriese así entonces el sujeto estaría mal clasificado porque lo pondríamos como nivel 1 (=poca capacidad) cuando en realidad no lo sabemos bien.
Nivel 1 = 481
Nivel 2= 90
+ Como en este documento el programa Rascal elimina dos ítems, tenemos poca información, por lo tanto utilizamos otro documento con el mismo número de ítems que miden lo mismo “cantidad”. Realizamos los mismos cálculos del programa Rascal con
este nuevo documento para poder sacar la sensibilidad, especificad y así ver si están o no bien clasificados.
Datos del nuevo documento.
Chi cuadrado: niveles de dificultad, columna “difficulty”
Podemos observar que todos los ítems se encuentran dentro del nivel 1 según el programa Rascal, mientras que PISA considera que se encuentran en el nivel 1 y otros en el nivel 2.
Calculamos el número de sujetos que se encuentra en cada nivel. Columna “frequency”
Nivel 1 (1,2,3)
Nivel 2 (4,5,6,7)
= 542 sujetos
= 91 sujetos
Después de calcular el número de sujetos de cada nivel, utilizamos el SPSS para obtener el número real de sujetos que se encuentra en cada nivel.
Procedimiento en el SPSS: utilizamos el documento anterior (Eguilaz.sav).
Vamos a datos---- seleccionar casos:
1º calcularemos los sujetos que solo han acertado los 3 primeros ítems y no han acertado ningún otro. 2º calcularemos los sujetos que han acertado los tres primeros ítems más el ítem 4, o el 5 o el 6 o el 7.
Ejemplo del 1º calculo:
Después de hacer ambos cálculos nos sale que:
94 sujetos de 542 estarían bien clasificados en el nivel 1.
50 sujetos de 91 estarían bien clasificados en el nivel 2. Nievel 2 N Válidos Perdidos
50 0
Tabla de clasificaciones reales por nivel:
+
REALES
_
Nivel 1 (1,2,3) 94
Nivel 2 (4,5,6,7) A B 50
542-94= 448
C
D
91-50= 41
NO REALES
Ahora que tenemos el número real, podemos calcular la sensibilidad de los ítems de nuestra muestra para clasificar a los sujetos por niveles de competencia.
Sensibilidad= A / (A+B)
94/ (94+50) = 0,653
El valor de sensibilidad es realmente bajo .65 cuando el valor mínimo para ser aceptada como válida o adecuada sería por encima de .85. Estos valores y cálculos nos indican que es realmente difícil estimar niveles de clasificación con solo 9 ítems.
Por último, una vez obtenido el índice de sensibilidad, utilizando para ello a los sujetos bien clasificados, lo hemos de comparar con el nivel de sensibilidad que nos da el programa.
El modelo de Rasch que hemos obtenido no se ajusta nada a la realidad, ya que la precisión del modelo es de .63. Por lo tanto, eso me informa de que tengo casi un 40% de errores de margen. Un 40% es un valor realmente alto que tener en cuenta para reafirmar que el modelo de Rasch no está ajustado, y la razón sigue siendo la misma, el número de ítems.
5. Conclusión:
Como bien se acaba de explicar, el modelo de Rasch no se ajusta a la realidad, esto es así porque como se ha podido observar a lo largo de esta práctica los ítems de la muestra no están muestreando bien el rasgo que se intenta medir, ya que todos ellos están dentro del mismo nivel, de 1 a -1, apelotonando a los sujetos en el mismo sitio.
Aun así, no podemos concluir que los niveles de PISA sean incorrectos ya que nosotros hemos trabajado solo con 9 ítems y todos ellos son los destapados.
Tendríamos que tener muchos ítems y bien repartidos por los distintos niveles, es decir que cada ítem tenga un grado de dificultad distinto pero que al mismo tiempo discrimen igual todos ellos para poder asignarlos después a distintas cajas o niveles y el modelo de Rasch se ajuste lo mejor posible.
Instrumentos de medida en contextos educativos 1º Cuatrimestre. Prof. Mª Dolores Sacerni CORAL EGUILAZ CASTILLO