c-
ESTADÍSTIC ESTADÍSTICA A APLICADA A LAS CIENCIAS SOCIALES
PUBLICACIONES DE LA UNIVERSIDAD PONTIFICIA COMILLAS PEDIDOS: Servicio de Publicaciones c/ Universidad Comillas, 3 Tel.: 91 734 39 50 - Fax: 91 734 45 70
Pedro Morales Vallejo Vallejo
ESTADÍSTI ESTADÍSTICA CA APLICAD APLI CADA AA LAS CIENCIAS SOCIALES
2008
© 2008 PEDRO MORALES V ALLEJO © 2008 UNIVERSIDAD PONTIFICIA COMILLAS Universidad Comillas, 3 28049 MADRID
Diseño de cubierta : Belén Recio Godoy ISBN: ISBN 978-84-8468-355-1 EDICIÓN DIGITAL
Reservados todos los derechos. Queda totalmente prohibida la reproducción total o parcial de este libro por cualquier procedimiento electrónico o mecánico, incluyendo fotocopia, grabación magnética o cualquier sistema de almacenamiento o recuperación de la información, sin permiso escrito
ÍNDICE
Págs.
INTRODUCC INTRODUCCIÓN IÓN ........ ............ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........
21
CAPÍTULO 1. ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS GRÁFICAS ........ ............ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ...... 23 1. ORGAN RGANIZ IZAC ACIÓ IÓN N DE LOS LOS DATOS TOS ........ ............ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ 1.1. 1.1. 1.2. 1.2. 1.3. 1.3. 1.4. 1.4. 1.5. 1.5.
23
La distri distribuc bución ión de frecue frecuenci ncias as ...... ......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ... Agrupac Agrupación ión en interva intervalos los ...... ............. ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ... Número Número de interva intervalos los ..... ........ ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ....... Valor alor del interva intervalo lo ...... ......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ..... Cómo Cómo come comenz nzar ar la agrup agrupac ació ión n en inte interva rvalo loss .... ..............................................................
24 25 25 26 26
2. R EPRESENT ............ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ........ ....... ... EPRESENTACI ACIONES ONES GRÁFICAS GRÁFICAS ........
26
2.1. 2.1. 2.2. 2.2. 2.3. 2.3. 2.4. 2.4.
Polígon olígono o de frecue frecuenci ncias as .... ....... ...... ...... ...... .......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ..... Polígon olígono o de frecue frecuenci ncias as relati relativas vas ... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ..... Histog Histogram ramaa ...... ......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ... Diagra Diagrama ma de caj cajas as .... ....... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... .......... ...... ...... ...... ...... ...... ...... ...... ...... .......
27 29 31 32
CAPÍTULO 2. MEDIDAS MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ................. ............................ ....................... ........................ ........................ ....................... ....................... ................. ..... 35 1. MEDID ......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ... EDIDAS AS DE TENDEN TENDENCIA CIA CENTRA CENTRALL ......
35
1.1. 1.1. La media media aritmé aritmétic ticaa ....... .......... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... ...... .....
35
7
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
1.2. La mediana ........................................................................................ 1.3. La moda ............................................................................................. 1.4. Comparación de las medidas de tendencia central .......................
36 36 36
2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD ..............................................................
39
2.1. La desviación media ......................................................................... 2.2. La desviación típica y la varianza ..................................................... 2.2.1. La desviación típica ............................................................ 2.2.2. La varianza .......................................................................... 2.2.3. Ventajas de la desviación típica y de la varianza como medidas de dispersión ............................................................ 2.2.4. Propiedades de la desviación típica y de la varianza ........ 2.2.5. Usos e interpretaciones de la desviación típica ............... 2.2.6. Media y desviación típica de los datos dicotómicos ........ 2.2.7. Combinación de medias y desviaciones típicas ............... 1º Para combinar dos o más medias ............................... 2º Para combinar dos o más desviaciones típicas o varianzas .......................................................................... a) Muestras de tamaño desigual ............................... b) Muestras de idéntico tamaño ...............................
40 42 42 44
2.3. 2.4. 2.5. 2.6.
El coeficiente de variación (V) ......................................................... La desviación semi-intercuartílica ................................................... La amplitud o recorrido ................................................................... Relación entre la amplitud y la desviación típica ...........................
57 58 60 60
3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN ..........................................................
61
CAPÍTULO 3. LA DISTRIBUCIÓN NORMAL ...................................................
65
1. A PROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL ........................................
65
2. C ARACTERÍSTICAS Y PROPIEDADES DE LA DISTRIBUCIÓN NORMAL ...........................
67
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIÓN NORMAL ..........................
68
4. CÓMO DIBUJAR LA CURVA ANORMAL ...................................................................
72
5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL ...................................
73
5.1. Puntuaciones típicas positivas (superiores a la media) ................. 5.2. Puntuaciones típicas negativas (inferiores a la media) ..................
73 75
8
45 46 47 50 53 53 54 55 55
ÍNDICE
Págs.
5.3. Puntuaciones típicas positivas o negativas (en términos absolutos) .................................................................................................
76
6. BREVE NOTA HISTÓRICA ...................................................................................
77
Anexo: La distribución normal en Internet ....................................................
78
CAPÍTULO 4. TIPOS DE PUNTUACIONES INDIVIDUALES ...........................
81
1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN ..........................................
81
2. PROPORCIÓN DE RESPUESTAS CORRECTAS ...........................................................
82
3. PUNTUACIONES DIFERENCIALES .........................................................................
83
4. PUNTUACIONES TÍPICAS ....................................................................................
83
4.1. 4.2. 4.3. 4.4.
Qué son las puntuaciones típicas .................................................... Propiedades de las puntuaciones típicas ........................................ Utilidad de las puntuaciones típicas ............................................... Puntuaciones tipificadas (puntuaciones típicas transformadas) ...
5. PERCENTILES ...................................................................................................
83 85 87 91 92
5.1. Concepto e interpretación .............................................................. 92 5.2. Cálculo de los percentiles ................................................................ 97 5.2.1. Cálculo directo ................................................................... 98 5.2.2. Cálculo por interpolación .................................................. 99 5.2.3. Cálculo de los percentiles mediante la representación gráfica de las frecuencias relativas acumuladas ................ 101 6. PUNTUACIONES NORMALIZADAS ......................................................................... 104 6.1. Puntuaciones típicas normalizadas ................................................. 6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y otras puntuaciones ........................................................................... 6.2.1. Los estaninos ...................................................................... 6.2.2. Las pentas ........................................................................... 6.2.3. Otras puntuaciones normalizadas .................................... 6.3. Percentiles normalizados: cálculo de los percentiles a partir de la media y de la desviación típica .................................................... 6.4. Equivalencias de diversos tipos de puntuaciones en la distribución normal ...............................................................................................
9
104 106 107 109 110 113 115
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
7. PUNTUACIONES TÍPICAS Y SUS PUNTUACIONES DERIVADAS: RESUMEN ...................... 116 8. R ESUMEN DEL CÁLCULO DE LAS PUNTUACIONES DERIVADAS ................................... 117 CAPÍTULO 5. CORRELACIÓN Y COVARIANZA .............................................. 119 1. CONCEPTO DE CORRELACIÓN Y COVARIANZA ....................................................... 119 Relación y variación conjunta ....................................................... Los diagramas de dispersión ........................................................... Otras maneras de visualizar la correlación ..................................... Correlación, covarianza y dispersión: importancia de las diferencias ......................................................................................................... 1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r de Pearson ........................................................................................ 1.6. Tipos de variables con las que se puede utilizar el coeficiente r de Pearson .............................................................................................. 1.1. 1.2. 1.3. 1.4.
119 120 121 122 123 123
2. L A MEDIDA DE LA RELACIÓN ............................................................................. 124 2.1. Cómo cuantificamos o medimos el grado de relación .................. 124 2.2. Otras fórmulas y procedimientos ................................................... 127 3. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON ..................... 128 3.1. 3.2. 3.3. 3.4. 3.5.
Interpretación básica ....................................................................... Correlación y causalidad .................................................................. Cómo calcular la media de varios coeficientes de correlación ..... El coeficiente de determinación ..................................................... La significación estadística de los coeficientes de correlación ... 3.5.1. Qué es un coeficiente de correlación estadísticamente significativo ......................................................................... 3.5.2. El modelo teórico ............................................................... 3.5.3. Interpretación de una correlación estadísticamente significativa ................................................................................. 3.5.4. Cómo comprobamos si un coeficiente de correlación es estadísticamente significativo .......................................... a) Con muestras de 100 sujetos o menos ...................... b) Con muestras de más de 100 sujetos .........................
10
128 131 132 133 134 134 135 137 138 139 140
ÍNDICE
Págs.
c) Cuando de los mismos sujetos tenemos varios coeficientes de correlación ................................................. 3.6. Los intervalos de confianza: magnitud de la correlación en la población .......................................................................................... 3.7. Cómo valorar la magnitud de la correlación .................................. 3.7.1. Orientaciones generales .................................................... 3.7.2. Sobre la interpretación y utilidad de los coeficientes de correlación bajos ................................................................ 3.7.3. Explicaciones posibles de coeficientes de correlación muy bajos .................................................................................... a) Poca fiabilidad, o poca precisión, en los instrumentos de medición ................................................... b) Homogeneidad de la muestra .................................... c) Instrumentos poco discriminantes ............................
141 142 146 146 147 150 150 151 151
3.8. Los coeficientes de correlación cuando unimos o separamos submuestras ............................................................................................ 151 3.9. Influjo en la correlación de las puntuaciones extremas ( outliers ) ... 156 4. COEFICIENTES DE CORRELACIÓN CORREGIDOS ..................................................... 158 4.1. Correlación y fiabilidad: los coeficientes de correlación corregidos por atenuación ................................................................................ 4.1.1. Fórmula de corrección por atenuación ............................ 4.1.2. Cuándo debe hacerse esta corrección por atenuación ... 4.1.3. Otras estimaciones de la correlación modificando la fiabilidad ............................................................................. 4.1.4. Relación entre longitud del test y fiabilidad y longitud del test y correlación ................................................................ 4.2. Los coeficientes de correlación corregidos por restricción de la amplitud ........................................................................................... 4.3. Corrección de las correlaciones de una parte con el todo ..........
159 159 160 162 163 164 166
5. CORRELACIONES PARCIALES ............................................................................... 168 5.1. Utilidad de las correlaciones parciales ............................................ 168 5.2. Fórmula de las correlaciones parciales de primer orden .............. 168 5.3. Cuándo una correlación parcial es estadísticamente significativa ... 170 6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES: EL CLUSTER ANALYSIS ............. 171
11
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
7. COEFICIENTES DE CORRELACIÓN MÁS IMPORTANTES ............................................. 1. Coeficiente de correlación r de Pearson ......................................... 2. Coeficiente de correlación biserial puntual ................................... 3. Coeficiente de correlación biserial ................................................. 4. Coeficiente de correlación tetracórica ............................................ 5. Coeficiente de correlación rho ( r ) de Spear man .......................... 6. Coeficiente de correlación tau ( t ) de Kendall ............................... 7. Coeficiente de correlación phi ( f ) .................................................. 8. Coeficiente de correlación phi ( f ) de Cramer ............................... 9. Coeficiente de Contingencia (C) ..................................................... 10. Coeficiente eta ( h ) ...........................................................................
176 177 177 178 179 179 179 179 180 180 180
8. COEFICIENTE DE CORRELACIÓN: RESUMEN .......................................................... 180 Anexo I: Tablas de la correlación ............................................................... 183 Anexo II: La correlación en Internet ......................................................... 184 CAPÍTULO 6. LA FIABILIDAD DE LOS TESTS Y ESCALAS ............................ 187 1. CONCEPTOS PRELIMINARES BÁSICOS .................................................................... 187 1.1. 1.2. 1.3. 1.4. 1.5. 1.6. 1.7. 1.8.
Equivocidad del concepto de fiabilidad ......................................... Fiabilidad y precisión de la medida ................................................. Fiabilidad y margen de error en al medida .................................... Fiabilidad y predictibilidad .............................................................. Fiabilidad y validez ........................................................................... Fiabilidad y validez: errores sistemáticos y errores aleatorios ...... La fiabilidad no es una característica de los instrumentos ............ Fiabilidad y diferencias: teoría clásica de la fiabilidad ....................
187 188 188 188 189 189 190 191
2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD .................................... 191 2.1. Método: Test-retest .......................................................................... 191 2.2. Método: Pruebas paralelas ............................................................... 192 2.3. Método: Coeficientes de consistencia interna ............................... 193 3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE LA FIABILIDAD ................................................................................................. 193 4. R EQUISITOS PARA UNA FIABILIDAD ALTA .............................................................. 196 5. L AS FÓRMULAS K UDER -R ICHARDSON 20 Y a DE CRONBACH ............................... 201 6. F ACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD ........... 203
12
ÍNDICE
Págs.
7. INTERPRETACIÓN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ....................... 204 8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO .................... 207 9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD .................................................. 208 9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación unidimensional del rasgo medido .......................................................... 9.1.1. Una fiabilidad alta no es prueba inequívoca de que todos los ítems miden lo mismo: necesidad de controles conceptuales ............................................................................. 9.1.2. Fiabilidad y número de ítems ............................................ 9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido .. 9.2. El error típico de la medida ............................................................. 9.2.1. Concepto y fórmula del error típico ................................. 9.2.2. Las puntuaciones verdaderas ........................................... 9.2.3. Los intervalos de confianza de las puntuaciones individuales .............................................................................. 9.3. Los coeficientes de correlación corregidos por atenuación .........
209
211 212 213 213 214 216 217 218
10.CUANDO TENEMOS UN COEFICIENTE DE FIABILIDAD BAJO ..................................... 219 10.1. 10.2. 10.3. 10.4.
Inadecuada formulación de los ítems ............................................. Homogeneidad de la muestra ......................................................... Definición compleja del rasgo medido ........................................... Utilidad del error típico cuando la fiabilidad es baja .....................
219 219 220 220
11.L A FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES ............................................ 221 11.1. Fiabilidad y validez ........................................................................... 221 11.2. Fiabilidad y diferencias entre los sujetos ........................................ 222 11.3. Fiabilidad y calificación .................................................................... 223 12.FÓRMULAS DE LOS COEFICIENTES DE CONSISTENCIA INTERNA ................................ 224 12.1. Fórmulas basadas en la partición del test en dos mitades ............ 12.1.1. Cómo dividir un test en dos mitades ................................ 12.1.2. Fórmulas ............................................................................. 12.2. Fórmulas de Kuder-Richardson y a de Cronbach .......................... 12.3. Fórmulas que ponen en relación la fiabilidad y el número de ítems ..................................................................................................
13
224 224 225 226 228
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
12.3.1. Cuánto aumenta la fiabilidad al aumentar el número de ítems .................................................................................... 229 12.3.2. En cuánto debemos aumentar el número de ítems para alcanzar una determinada fiabilidad ................................. 229 12.4. Estimación de la fiabilidad en una nueva muestra cuya varianza conocemos a partir de la varianza y fiabilidad calculadas en otra muestra ............................................................................................. 230 13. R ESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA ... 231 14. COMENTARIOS BIBLIOGRÁFICOS ........................................................................ 233 CAPÍTULO 7. ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA ............................................................................................................... 237 1. INTRODUCCIÓN : ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL: ESTADÍSTICOS Y PARÁMETROS , POBLACIONES Y MUESTRAS ........................................................... 237 2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO .......................................... 238 3. EL ERROR TÍPICO DE LA MEDIA .......................................................................... 240 4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA .......................................................... 241 4.1. Establecer entre qué limites (intervalos de confianza) se encuentra la media ( m ) de la población (establecer parámetros poblacionales) ................................................................................................. 242 4.2. Establecer los intervalos de confianza de una proporción ........... 245 4.3. Comparar la media de una muestra con la media de una población ............................................................................................... 247 4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población .................................................................................... 249 Anexo: Los intervalos de confianza de la media y de las proporciones en Internet ............................................................................................................. 251 CAPÍTULO 8. EL CONTRASTE DE MEDIAS .................................................... 253 1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS .......................................................................................................... 253 2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS ..................... 254 3. EL MODELO TEÓRICO DEL CONTRASTE DE MEDIAS: L A DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBLACIÓN .................... 256
14
ÍNDICE
Págs.
4. CÓMO
COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE
DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO
................................................... 259
4.1. Modelo y fórmula básica .................................................................. 4.2. Hipótesis Nula e Hipótesis Alterna ................................................. 1º Qué son las Hipótesis Nula y Alterna ..................................... 2º Por qué distinguimos entre estos dos tipos de hipótesis (nula y alterna) ....................................................................... 4.3. Contrastes unilaterales y bilaterales ................................................ 4.4. Esquema-resumen del proceso de verificación de hipótesis ........ 4.5. Interpretación del significado de aceptar o no aceptar la hipótesis nula: tipos de errores ....................................................................... 4.5.1. Cuando no aceptamos la Hipótesis Nula ......................... 4.5.2. Cuando aceptamos la Hipótesis Nula ............................... 4.5.3. Tipos de errores ................................................................. 4.6. Observaciones sobre el contraste de medias: limitaciones y requisitos previos ................................................................................ 4.6.1. Presupuestos teóricos para poder utilizar el contraste de medias ................................................................................. 4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente significativa? ........................................................................ 4.6.3. Cuando tenemos más de dos muestras en el mismo planteamiento: análisis de varianza .......................................... 4.7. Fórmulas del contraste de medias .................................................. 4.7.1. Diferencia entre la media de una muestra y la media de una población ..................................................................... 4.7.2. Diferencia entre dos medias de muestras independientes (sujetos físicamente distintos) .......................................... 1º Muestras grandes y de distinto tamaño ..................... 2º Muestras pequeñas y de distinto tamaño .................. 3º Diferencia entre dos medias de muestras independientes (grandes o pequeñas) y de idéntico tamaño ..... 4.7.3. Diferencia entre dos medias de muestras relacionadas (comprobación de un cambio ) ........................................ 4.8. Variables que influyen en el valor de t (z, Razón Crítica) ..............
259 261 261 262 264 266 267 267 268 269 271 271 272 272 273 274 275 275 276 276 277 278
5. CONTRASTE ENTRE PROPORCIONES ( MUESTRAS INDEPENDIENTES ) .......................... 281 6. A N ÁLISIS
COMPLEMENTARIOS AL CONTRASTE DE MEDIAS: CÓMO CUANTIFICAR LA
MAGNITUD DE LA DIFERENCIA
............................................................................ 282
15
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
6.1. Finalidad del tamaño del efecto ...................................................... 6.2. Procedimientos en el cálculo del tamaño del efecto ..................... 6.2.1. El coeficiente de correlación biserial puntual ................ 6.2.2. Tamaño del efecto (diferencia tipificada ): ..................... 6.2.2.1. Concepto y fórmula general ............................... 6.2.2.2. Interpretación del tamaño del efecto (diferencia tipificada) ............................................................ 1º Comparación de diferencias que provienen de medidas obtenidas con instrumentos distintos ......................................................... 2º Síntesis cuantitativas de resultados que provienen de estudios distintos .................. 3º Valoración de la relevancia y significación práctica de las diferencias ........................... 4º El tamaño del efecto cuando la diferencia no es estadísticamente significativa ............. 5º Tamaño del efecto y tamaño de la muestra .. 6.2.2.3. Fórmulas del tamaño del efecto: desviación típica del denominador ....................................... 1º Dos muestras independientes ..................... 2º Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la misma muestra) ... 3º Diferencia entre las medias de un grupo experimental y otro de control (diseño experimental) sin pre-test ............................ 4º Grupos experimental y de control cuando los dos han tenido pre y post-test ...............
282 283 283 286 286 287
287 287 288 291 292 294 294 298
298 299
6.3. Transformaciones de unos valores en otros ................................... 299 6.4. Utilidad del tamaño del efecto: resumen ....................................... 301 A NEXO 1: Modelo del contraste de medias, resumen ..................................... A NEXO 2: Conceptos básicos de estadística inferencial .................................. A NEXO 3: Tablas de la t de Student ................................................................... Anexo 4: El contraste de medias en Internet .................................................
302 304 306 307
CAPÍTULO 9. ANÁLISIS DE VARIABLES NOMINALES: L A PRUEBA DE JI CUADRADO ( c ) LA DISTRIBUCIÓN BINOMIAL, EL CONTRASTE DE PROPORCIONES .............................................................................................. 309
16
ÍNDICE
Págs.
1. PLANTEAMIENTO GENERAL ................................................................................ 309 2. QUÉ COMPROBAMOS MEDIANTE EL JI CUADRADO ................................................. 312 3. FRECUENCIAS OBSERVADAS ( O EMPÍRICAS ) Y FRECUENCIAS TEÓRICAS ( O ESPERADAS ) .. 314 4. CONDICIONES PARA UTILIZAR EL JI CUADRADO ..................................................... 315 5. C ÁLCULO DE LAS FRECUENCIAS TEÓRICAS ........................................................... 316 a) Cuando tenemos un solo criterio de clasificación dividido en varias categorías ............................................................................................... 316 b) Cuando hay dos criterios de clasificación (cuadros de doble entrada) .. 317 6. GRADOS DE LIBERTAD ...................................................................................... 318 a) Cuando hay un solo criterio de clasificación ....................................... 319 b) Cuando hay dos criterios de clasificación .......................................... 319 7. FÓRMULA GENERAL DEL JI CUADRADO ................................................................. 319 8. MÉTODOS
APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN
DIVIDIDO EN DOS NIVELES
................................................................................ 320
8.1. Ji cuadrado ........................................................................................ 8.2. Aplicación de la distribución binomial ......................................... 8.2.1. Cuando N < 25 .................................................................. 8.2.2. Cuando N > 25 .................................................................. 8.2.3. La prueba de los signos: aplicación de la distribución binomial para comprobar cambios ......................................
321 322 322 322 324
9. MÉTODOS APLICABLES CUANDO TENEMOS UN SOLO CRITERIO DE CLASIFICACIÓN dividido en más de dos niveles ( pruebas de bondad de ajuste ) ........... 326 9.1. Cuando las frecuencias esperadas son las mismas ........................ 326 9.2. Cuando las frecuencias esperadas son las de la distribución normal .............................................................................................. 327 10. T ABLAS 2 X 2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO ....... 10.1. Tablas 2x2 para muestras independientes ...................................... 10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos ....... a) Sujetos clasificados según dos grupos de pertenencia o dos características personales .................................
17
328 328 328 328
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Págs.
b) Sujetos clasificados según 1º grupo de pertenencia y 2º respuestas a una pregunta .................................. c) Prueba de la mediana ................................................ d) Un mismo grupo clasificado según sus respuestas a dos ítems .................................................................. 10.1.2. Cómo analizar los datos ..................................................... 1º Ji cuadrado .................................................................. a) Planteamiento y fórmulas ..................................... b) Observación sobre la corrección de Yates y el número de sujetos ................................................ c) Orientaciones prácticas para tablas 2x2 ............... d) Ejemplo resuelto ................................................... e) Cálculo complementario: coeficiente de correlación ......................................................................... 2º Prueba exacta de Fisher .............................................. 3º Contraste entre proporciones (muestras indepen dientes) ........................................................................ 10.2. Tablas 2x2 para muestras relacionadas ........................................... 10.2.1. Procedimientos .................................................................. a) Ji cuadrado (prueba de McNemar) ............................ b) Contraste entre proporciones relacionadas ............. 10.2.2. Aplicaciones específicas ..................................................... a) Para comprobar cambios ............................................ b) Para comprobar una diferencia entre proporciones relacionadas ................................................................ 10.2.3. Adaptación de la prueba de McNemar (muestras relacionadas) para tablas mayores (nxn) ....................................
329 330 331 332 333 333 333 334 335 335 336 336 337 337 337 338 338 338 339 340
11.DOS CRITERIOS DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES ( TABLAS NXN ) ................................................................................................. 341 12.COEFICIENTES DE RELACIÓN ASOCIADOS AL JI CUADRADO ..................................... Coeficiente de contingencia ........................................................... a) b) Coeficienteo f .................................................................................. Coeficiente f de Cramer ................................................................. c) d) Coeficiente T de Tschuprow ............................................................
344 345 345 346 346
13.V ALORACIÓN DEL JI CUADRADO .......................................................................... 347
18
ÍNDICE
Págs.
A NEXO I: TABLAS DEL J I CUADRADO .......................................................................... 348 A NEXO II: J I CUADRADO Y ANÁLISIS AFINES EN INTERNET: JI CUADRADO, PRUEBA EXACTA DE FISHER PRUEBA DE MCNEMAR , DISTRIBUCIÓN BINOMIAL, PRUEBA DE LOS SIGNOS .... 349 REFERENCIAS BIBLIOGRÁFICAS..................................................................... 351 Selección de direcciones de Internet con programas de análisis estadísticos XII .................................................................................................................... 356 TABLAS DE DISTRIBUCIÓN NORMAL ........................................................... 359
19
INTRODUCCIÓN
Esta publicación está pensada para un primer curso en carreras vinculadas al campo de la educación, de la psicología y de la intervención social, aunque se trata de análisis estadísticos comunes a otras muchas disciplinas; de hecho algunas de las direcciones de Internet citadas (y utilizadas con frecuencia) son de Facultades de Medicina. No se trata por lo tanto de cubrir todo el espectro temático que cabría en un texto o curso completo de metodología de la investigación sobre todo en Psicología y Educación. En cambio, y dada la importancia que tienen los tests e instrumentos de medición en general en la práctica profesional de la Psicología y de la Educación, hay dos capítulos más centrados en psicometría: uno corresponde a los tipos de puntuaciones y confección de baremos o normas de interpretación (cap. 4), y otro a la fiabilidad (cap. 6). El capítulo sobre la fiabilidad de tests y escalas viene a continuación del dedicado a la correlación (cap. 5) dada la proximidad conceptual y metodológica entre ambos temas. Los métodos de análisis estadístico y verificación de hipótesis tratados son básicamente tres: los coeficientes de correlación (cap. 5), el contraste de medias (cap. 8) y el ji cuadrado y métodos afines (cap. 9); con estos análisis se pueden abordar ya muchas preguntas de investigación. Al tratar sobre el contraste de medias damos especial importancia (y extensión) al denominado tamaño del efecto para cuantificar de manera más fácilmente interpretable la diferencia entre dos medias; se trata de un punto importante (y sencillo) que no lo vemos tratado en muchos textos. Si la selección de contenidos es limitada y orientada a un curso básico, el tratamiento dado a algunos temas puede parecer excesivamente amplio para un primer curso. Como profesor nunca he pretendido que mis alumnos supieran todo lo que en un principio fueron apuntes de clase, pero sí que pudieran disponer de un texto de referencia para aclarar dudas, poder justificar
21
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
si llega el caso algunas fórmulas y procedimientos de uso común, ampliar algún punto de especial interés, ver qué más se puede hacer con unos datos o resultados de unos análisis, y quizás sobre todo contar con una ayuda tanto para escoger un procedimiento adecuado de análisis como para interpretar correctamente lo que con el paso del tiempo se va olvidando. Con esta finalidad hay apartados referidos directamente a la interpretación de determinados resultados estadísticos; además abundan en algunos capítulos notas a pie de página y se van citando autores que puede venir bien consultar en un momento dado, incluso para disponer de justificaciones y fuentes de autoridad a las que poder acudir en algunos puntos controvertidos o que simplemente pueden no estar tan claros. La terminología y estilo se apartan con frecuencia del lenguaje convencional de corte más académico o se utilizan simultáneamente expresiones equivalentes más informales. No hay en esta publicación una distinción nítida entre estadística descriptiva y estadística inferencial aunque la estadística inferencial se trata de manera más formal a partir del capítulo dedicado a los intervalos de confianza de la media (cap. 7). Los conceptos básicos se van repitiendo en diversos contextos sin dar por hecho que en cada momento se recuerda y entiende todo lo visto en los capítulos precedentes. Al tratar de la correlación ya se introduce la significación estadística de estos coeficientes, para no presentar por separado lo que lógicamente va unido cuando se hace un análisis de este tipo o cuando posteriormente es necesario repasarlo. En varios capítulos hay un anexo dedicado a programas de análisis estadísticos de diverso tipo localizables en Internet y al final un listado de direcciones con más recursos. Se trata en cada caso de una breve selección porque estos programas son muy abundantes. Aunque hojas de cálculo como EXCEL son ya un recurso común y programas informáticos como el SPSS están fácilmente disponibles (tampoco siempre y en todas las situaciones), son muchas las instituciones, departamentos de Universidades y otras de diverso carácter, que tienen en Internet programas de uso muy sencillo y que además pueden ser muy útiles en la misma clase con una finalidad meramente didáctica. Para muchos análisis los programas de Internet pueden ser la opción de cálculo más cómoda. Estos programas suelen estar pensados para alumnos que trabajan en su casa o para profesionales no expertos; no suplen la versatilidad del SPSS pero son indudablemente útiles. Como las fuentes de Internet son con frecuencia inestables, procuramos dar más de una dirección para cada tipo de análisis; además a partir de las direcciones reseñadas es fácil buscar otras. El índice general está hecho pretendidamente de manera muy detallada, con muchos apartados y subapartados, para que de alguna manera cumpla la función de un índice de materias y se pueda localizar con facilidad lo que interese. PEDRO MORALES VALLEJO
22
CAPÍTULO 1
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
1. ORGANIZACIÓN DE LOS DATOS Organizar los datos, e incluso hacer alguna representación gráfica como las que iremos viendo, es muy importante porque: a) Nos hacemos una idea preliminar de la situación, nos da una visión de conjunto muy útil, b) Se facilitan cálculos posteriores, y, aunque los hagamos con un programa informático, una buena sistematización de los datos puede sugerirnos posibles cálculos y análisis; c) Se facilita la presentación y comunicación de todo tipo de resultados. Tanto la distribución de frecuencias (cuántos sujetos han obtenido cada puntuación) como las representaciones gráficas que vamos a exponer (y muchas otras) las tenemos ya programadas en programas de ordenador y hojas de cálculo, pero aun así conviene saber cómo se hacen por varias razones: a) No siempre tenemos todos los datos individuales introducidos en un ordenador o en una hoja de cálculo; b) A veces partimos de una distribución de frecuencias ya hecha previamente (o que encontramos publicada); c) En cualquier caso es útil ver paso a paso y entender cómo se hacen estas distribuciones de frecuencias y representaciones gráficas.
23
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
1.1. La distribución de frecuencias El primer paso es siempre organizar la distribución de frecuencias. La frecuencia es el número de casos o sujetos que ha obtenido cada puntuación. Para hacer esta distribución ponemos en dos columnas la puntuación directa (X) y la frecuencia (f) o número de casos. En el ejemplo de la tabla 1 tenemos la distribución de frecuencias de 40 sujetos que han respondido a una escala de actitudes1. Tabla 1. X 77 76 75 74 73 72 71 70 69 68 67 66 65 64 63 62 61 60 59 58
X
f | | | || | || || ||| || ||| || | | ||
57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38
1 0 1 1 2 1 0 2 0 2 0 0 3 2 3 2 1 1 2 0
f | ||| || | | | | || |
| | |
1 3 2 1 1 1 0 0 1 2 0 1 0 0 0 1 0 0 1 1
El número de intervalos se calcula por tanteo. El primer paso es calcular el recorrido o amplitud que es igual a la puntuación más alta menos la puntuación más baja más uno.
Intuitivamente parece más natural comenzar por arriba con la puntación o intervalo mayor; en los programas informáticos (EXCEL, SPSS) se comienza por defecto con la puntuación más baja. 1
24
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
1.2. Agrupación en intervalos Cuando las posibles puntuaciones son muchas, podemos agruparlas en intervalos para simplificar su presentación e interpretación. Los datos de la tabla 1 están sin agrupar. Podemos agruparlas de dos en dos, de tres en tres, etc. Cada agrupación se denomina un intervalo. 1.3. Número de intervalos El criterio general es que no haya menos de 10 intervalos o agrupaciones, porque con menos de 10 intervalos se pierde mucha información; además algunos cálculos posteriores se hacen tomando como dato el punto medio del intervalo y resultan muy inexactos si los intervalos son muy pocos. Tampoco es aconsejable que haya más de 20 intervalos, porque se matiza más de lo que con frecuencia es necesario y los gráficos resultantes pueden quedar poco claros, sin resumir bien la información. Sumamos una unidad a la diferencia entre las puntuaciones más alta y más baja porque el recorrido o amplitud se calcula a partir de los límites extremos; por esto sumamos .5 a la puntuación más alta y restamos .5 a la puntuación más baja: suponemos que la puntuación mayor no es en este caso 77, sino 77.5, y que la más baja no es 38, sino 37.5 Tabla 2. (sobre la amplitud o recorrido tratare X f mos en el contexto de las medidas de dis persión). 75-77 || 2 En los datos de la tabla 1 la amplitud 72-74 |||| 4 es 77.5 - 37.5 (ó 77 - 38 + 1) = 40. Tene69-71 || 2 mos en principio 40 intervalos, que son 66-68 || 2 demasiados. Si agrupamos las puntua63-65 |||||||| 8 ciones de dos en dos tendríamos 20 in60-62 |||| 4 tervalos, también demasiados quizás en este caso, con sólo 40 sujetos; si las 57-59 ||| 3 agrupamos de tres en tres tenemos 14 54-56 |||||| 6 intervalos, que es lo que hemos hecho 51-53 || 2 en la agrupación que figura en la tabla 2. 48-50 ||| 3 45-47 | 1 42-44 | 1 39-41 | 1 36-38 | 1
25
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
1.4. Valor del intervalo El valor del intervalo (simbolizado por la letra i) es el número de puntuaciones que entran en cada intervalo (y que no hay que confundir con el número de intervalos ). En la tabla 1, el valor del intervalo es i = 1 (datos sin agrupar); en los datos de la tabla 2 en cada intervalo hay tres puntuaciones, por lo que i = 3. El valor del intervalo se debe indicar siempre (como información y también porque entra en algunos cálculos, como el de los percentiles por interpolación, como se verá en su lugar). Es más cómodo que el valor del intervalo (i) sea un número impar, porque de esta manera el punto central del intervalo será un número entero, sin decimales. Esto resulta más cómodo porque el punto central del inter valo se utiliza en operaciones hechas a partir de datos agrupados. De hecho no puede hablarse de ninguna norma o regla; los valores de i más frecuentes son 2, 3, 5, 10 y 20. Por otra parte el hacer cálculos (como la media y otros) a partir de puntuaciones agrupadas y utilizando el punto medio del intervalo está menos justificado dada la facilidad de cálculo que nos dan las calculadoras programadas y los programas de ordenador. Estos cálculos pueden hacerse siempre a partir de las puntuaciones sin agrupar. 1.5. Cómo comenzar la agrupación en intervalos Para comenzar la agrupación suele empezarse por las puntuaciones más bajas, las correspondientes al intervalo inferior. No se suele comenzar a partir de la puntuación más baja de hecho, sino por la inmediatamente inferior que sea múltiplo del valor del intervalo (i). Esta norma (que la puntuación más baja sea múltiplo del intervalo) responde a lo que suele proponerse y hacerse; se trata de una convención que no se sigue siempre. En nuestro ejemplo (tabla 1) la puntuación más baja es 38, que no es múltiplo de 3 (en este caso i = 3, tabla 2), y tampoco lo es 37; por eso comenzamos a partir de 36, que sí es múltiplo de 3 (36/3 = 12, número entero). El último intervalo, el superior, se completa hasta incluir tres puntuaciones (pues 3 es el valor de i en este caso). Como la puntuación más alta es 77, no ha habido que añadir puntuaciones que de hecho nadie ha obtenido. 2. R EPRESENTACIONES GRÁFICAS A partir de la distribución de frecuencias podemos hacer diversos tipos de representaciones gráficas. Estas representaciones gráficas son especialmente útiles:
26
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
a) Para disponer de una visión de conjunto que sin más cálculos nos permite hacernos una idea de la situación, comparar de manera intuitiva varios grupos, etc. b) Para comunicar resultados de manera intuitiva y fácilmente comprensible. La mera distribución de frecuencias ya puede cumplir con estos propósitos, pero los distintos tipos de gráficos son una ayuda importante. Aquí nos limitamos a exponer tres de los tipos de representaciones gráficas más comunes, polígonos de frecuencias, histogramas y diagrama de ca jas. Estas y otras representaciones gráficas también se encuentran ya programadas en hojas de cálculo como EXCEL. 2.1. Polígono de frecuencias Es una representación gráfica sencilla y clara; en la figura I tenemos el polígono de frecuencias hecho a par tir de las frecuencias agrupadas de la tabla 2 Eje vertical (Y, o eje de las ordenadas): corresponde a las frecuencias o número de casos; Eje horizontal (X, o eje de las abscisas): corresponde a las puntuaciones. Para mayor claridad en la presentación del gráfico, el eje horizontal suele ser un 50% más largo que el eje vertical; si el eje Y (vertical) mide 10, el eje X (horizontal) medirá 15 aproximadamente. Pasos que seguimos para construir un polígono de frecuencias: 1º En el eje de las abscisas (horizontal) se señalan los puntos inferiores de cada intervalo, añadiendo un intervalo más en cada extremo para mayor claridad. En la figura I el primer punto señalado es el 33: es el punto inferior del intervalo añadido al comienzo (intervalo 33-35), con una frecuencia de 0. En el extremo superior la última puntuación señalada es 78, ya que es el límite inferior del intervalo siguiente (78-80), también con frecuencia 0. Añadiendo dos intervalos extremos con frecuencia 0 se consigue que el polígono llegue hasta la línea horizontal de las abscisas; la figura queda cerrada y clara; ésta es la razón por la que se añade un intervalo más en cada extremo.
27
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Fig. I POLÍGONO DE FRECUENCIAS X
7 6
X
Figura I 5 4 Y
X X
3
X
X
2 X
1 0
X
X
33
36
X
X
39
42
X
X
X
45
48
51
54
57
60
63
66
69
72
75
78
X
2º Sobre el punto medio de cada intervalo señalamos la frecuencia, a la altura que corresponda del eje vertical de las ordenadas (que representa las frecuencias). Si unimos los puntos con líneas rectas, tenemos un polígono de frecuencias, si los unimos con un trazo curvo, tendremos una curva. En la tabla 3 y figura II hemos reducido el número de intervalos, agrupando las puntuaciones de 5 en 5 (i = 5). En este caso el intervalo más bajo comienza con 35 (múltiplo de 5). Nos quedan 9 intervalos. Tabla 3 X
i=5 X 75-79 70-74 65-69 60-64
f || |||||| ||||| |||||||||
55-59 50-54 45-49 40-44 35-39
2 6 5 9
28
f |||||||| ||| |||| | ||
8 3 4 1 2
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
Fig. II X
9 8 7 6 5 4 3 2 1 0
Figura II
X
X X
X X X
X X
X
30
X
35
40
45
50
55
60
65
70
75
80
85
Al reducir el número de intervalos el polígono queda simplificado y tiene menos picos; la figura queda suavizada y tenderá a parecerse más a la distribución normal. Es importante caer en la cuenta de que a menor número de intervalos se pierde información aunque se puede ganar en claridad. En la figura I hay dos picos centrales que sugieren una distribución bimodal; y que han quedado reducidos a uno solo en la figura II. La figura queda más clara y suavizada. El hacer esto o no hacerlo (reducir el número de inter valos, simplificar la infor mación) dependerá del tipo de información que se quiere dar. Para dar una impresión gráfica general, y sin pretender mucho matiz, es preferible en principio reducir el número de intervalos. 2.2. Polígono de frecuencias relativas Los polígonos de frecuencias son especialmente útiles para comparar gráficamente dos o más grupos. Los polígonos se superponen en el mismo gráfico y queda una representación clara de los grupos. Cuando los grupos son de distinto tamaño, el incluir más de un polígono de frecuencias en el mismo gráfico se presta a confusión. En este caso, para comparar gráficamente dos o más grupos, lo correcto no es utilizar frecuencias absolutas (el simple número de sujetos que hay en cada intervalo) sino frecuencias relativas: el tanto por ciento de sujetos que hay en cada intervalo. Estos tantos por ciento son las frecuencias relativas. El cálculo de las frecuencias relativas es muy sencillo: el número de sujetos (o frecuencia, f) de cada intervalo se divide por el número total de sujetos (N) y se multiplica por cien:
29
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
100f frecuencias relativas (%) = –––– N En la tabla 4 y figura III tenemos un ejemplo de dos polígonos de frecuencias relativas de dos grupos con distinto número de sujetos. Tabla 4 X i=6
grupo A f %
grupo B f %
75-79 69-74 63-68 57-62 51-56 45-50 39-44
1 2 4 5 3
1 6 5 2 4 2
7 13 27 33 20 N = 15
5 30 25 10 20 10 N = 20
Figura III. POLÍGONOS DE FRECUENCIAS RELATIVAS DE DOS GRUPOS CON DISTINTO NÚMERO DE SUJETOS
40% 35%
Grupo A
30% 25% 20% 15% 10% 5% 0% 35.5
42.5
47.5
53.5 59.5 65.5 71.5 77.5 Punto medio de cada intervalo
30
82.5
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
El utilizar frecuencia relativas ( tanto por ciento de sujetos en cada intervalo) permite hacer gráficos comparativos cuando los grupos tienen un número distinto de sujetos (comparamos tantos por ciento, no números absolutos). 2.3. Histograma Otra representación gráfica sencilla y de frecuente uso es el histograma. En el histograma cada intervalo de frecuencias está representado por una barra. Cómo hacer un histograma puede verse fácilmente en la figura IV, donde aparece un histograma hecho a partir de los mismos datos de la tabla 3. En el eje de las abscisas (la base horizontal) se señalan los valores inferiores de cada intervalo. En el eje de ordenadas (eje vertical) se señalan las frecuencias o número de casos. En el histograma de la figura IV se ha superpuesto un polígono de frecuencias para facilitar la comparación y ver las diferencias entre el histograma y el polígono de frecuencias.
Figura IV HISTOGRAMA CON POLÍGONO DE FRECUENCIAS SUPERPUESTO
9 8 7
Figura IV
6 5 4 3 2 1 0
30
35
40
45
50
55
31
60
65
70
75
80
85
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
2.4. Diagrama de cajas Para construir un diagrama de cajas se toman como referencia las puntuaciones que dividen al grupo en cuatro partes iguales en número de sujetos; un 25 % en cada parte. En la figura V tenemos las puntuaciones de corte para dividir al grupo. Figura V Puntuación más alta
25% Percentil 75 (Q3 )
25% Mediana (Percentil 50)
25% Percentil 25 (Q1 )
25% Puntuación más baja
La figura V no es un diagrama de cajas, simplemente nos dice qué puntuaciones debemos calcular para hacer el diagrama. La mediana (o percentil 50) divide al grupo en dos mitades con idéntico número de sujetos, entre el percentil 75 (o cuartil 3, Q3 ) y la puntuación más alta tenemos un 25 % de sujetos y entre el percentil 25 (o cuartil 2, Q2 ) y la puntuación más baja tenemos otro 25 %. Los percentiles y su cálculo se entenderán mejor al ver los distintos tipos de puntuaciones, pero el concepto de percentil ( tanto por ciento de su jetos que caen debajo de una puntuación ) se capta con facilidad. En los diagramas de cajas se visualiza el espacio que ocupa cada 25% del grupo en términos de puntuaciones directas (columna de la izquierda). Estos diagramas de cajas son especialmente útiles para hacer una comparación visual en dos tipos de situaciones: a) Cuando tenemos dos o más grupos medidos en la misma variable; éste es probablemente el caso más frecuente.
32
ORGANIZACIÓN DE LOS DATOS Y REPRESENTACIONES GRÁFICAS
En la figura VI tenemos el gráfico que corresponde a tres grupos de alumnos universitarios (Psicología, N = 65; Derecho, N = 65; Ingeniería N = 69) medidos con una escala de autoeficacia académica. La línea que divide el recuadro corresponde a la mediana. De un golpe de vista vemos dónde están las puntuaciones más altas y más bajas y encerrado en un recuadro dónde se sitúa el 50% central del grupo (entre los percentiles 75 y 25). La línea doble dentro del recuadro indica dónde está la mediana, que divide al grupo en dos mitades iguales. Figura VI Psic. 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27
Derch.
Ing. Puntaje más alto
25% Percentil 75
50%
25%
Mediana
Percentil 25
Puntaje más bajo
b) Cuando tenemos un mismo grupo medido en varias variables, como sucede en el ejemplo de la figura VII. Cada variable está medida por un idéntico número de ítems, por lo que son comparables las puntuaciones absolutas de cada subescala. En la figura VII tenemos el gráfico correspondiente a un único grupo de 283 sujetos que han respondido a un sencillo test que mide cinco variables propias del Análisis Transaccional. Cada variable está medida por ocho ítems con respuestas de 1 ( nada ) a 6 ( mucho ), por lo que las puntuaciones máxima y mínima posibles son 48 y 8.
33
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Figura VII Psic. 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 31 30 29 28 27
Derch.
Ing. Puntaje más alto
25% Percentil 75
50%
25%
Mediana
Percentil 25
Puntaje más bajo
De un golpe de vista vemos que en Padre Nutricio el 50% central está concentrado en unas pocas puntuaciones (aproximadamente entre 35 y 40) y que son además las más altas en términos comparativos. Vemos también que el límite inferior del 50% central en Adulto coincide con el límite superior del 50% central en Padre Punitivo (entre 28 y 29), etc.
34
CAPÍTULO 2
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
1. MEDIDAS DE TENDENCIA CENTRAL 1.1. La media aritmética Todos estamos familiarizados con la media aritmética como valor representativo de un conjunto de puntuaciones; con frecuencia describimos un grupo de manera sintética diciendo cuál es su media; si estamos hablando de una clase no es lo mismo decir esta clase tiene una media de 7, que decir en esta clase la media es 5… La fórmula de la media no necesita demostración porque expresa el mismo concepto de media: cuánto correspondería a cada sujeto (u objeto) si todos tuvieran el mismo valor: sumamos todos los valores y dividimos esta suma por el número de sujetos. X Media aritmética: X= –––– [1] N El símbolo habitual de la media es el mismo utilizado en las puntuaciones directas (generalmente una X mayúscula) con una raya horizontal encima (pero también se utilizan otros símbolos como la letra M). De la media podemos enunciar dos propiedades que también nos podrían ser vir para definirla. a) Si a cada sujeto le calculamos su diferencia con respecto a la media (X X), la suma de estas diferencias es igual a cero: la suma de las diferencias positivas es igual a la suma de las diferencias negativas.
35
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
b) Si estas diferencias con respecto a la media las elevamos al cuadrado (y todas serán positivas) y las sumamos, esta suma será menor que la suma de las diferencias, también elevadas al cuadrado, con respecto a cualquier otro valor distinto de la media. Esta propiedad de la media nos permite definirla como el valor central que hace que la suma de los cuadrados de las desviaciones con respecto a este valor sea el mínimo posible. El método de localizar la media buscando el valor mínimo de la suma de cuadrados (de las diferencias con respecto a la media elevadas al cuadrado) recibe el nombre de método de los cuadrados mínimos; no tiene especial importancia ahora, pero sí lo tiene en otras aplicaciones de la estadística (como en la recta de regresión ) y es útil estar ya familiarizados con este término. 1.2. La mediana La mediana es el valor que divide las frecuencias en dos mitades iguales: por encima de la mediana y por debajo de la mediana encontramos el mismo número de sujetos. La mediana es otro valor de tendencia central muy útil. La mediana podemos buscarla, al menos de manera aproximada, por simple inspección de los datos en una distribución de frecuencias; el cálculo preciso lo veremos en el contexto de los percentiles (la mediana corresponde al percentil 50: el valor que deja por debajo a la mitad de la muestra). 1.3. La moda La moda es simplemente la puntuación que tiene una mayor frecuencia (donde encontramos un mayor número de casos). Como medida de tendencia central es muy poco rigurosa. Además podemos encontrarnos con que puede haber más de una puntuación con idéntico número de casos, o al menos dos o más puntuaciones con una frecuencia que superan notablemente al resto de los valores de la distribución (y por eso hablamos de distribuciones bimodales, o plurimodales; si dibujamos la curva o un polí gono de frecuencias, nos encontraremos con dos o más picos pronunciados). 1.4. Comparación de las medidas de tendencia central Los conceptos de media, mediana y moda son sencillos; lo que más nos interesa ahora es apreciar sus diferencias y características; sobre todo nos interesa comparar la media y la mediana.
36
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
1. Cuando la distribución no es normal (no es simétrica) y hay más sujetos por encima o por debajo de la media, la mediana es arrastrada hacia la zona de la distribución donde hay un mayor número de sujetos (ejemplos en la tabla 1). Tabla 1 Moda = 2 (puntuación con mayor número de casos
Moda = 7
Me diana = 2.5 (idéntico número de sujetos por encima y por debajo
Media = 4.5 Me diana = 5.5
Media = 3.42
1
2
3
4
5
6
7
1
Cuando hay más sujetos por debajo de la media que por encima (como en este ejemplo, 8 por debajo y 4 por encima) la mediana es menor que la media
2
3
4
5
6
7
Cuando hay menos sujetos por debajo de la media que por encima (como en este ejemplo, 5 por debajo y 7 por encima) la mediana es mayor que la media
Cuando la mediana es distinta de la media (la distribución no es simétrica, está sesgada hacia un lado de la distribución), el valor de la mediana nos indica el sesgo de la distribución: si la mediana es mayor que la media, hay más sujetos en la parta alta de la distribución, y si la mediana es menor que la media, hay más sujetos en la parte baja de la distribución. Precisamente en esta diferencia entre la media y la mediana se basan algunas medidas de asimetría de la distribución. 2. La mediana no se ve afectada por las puntuaciones extremas de la distribución. Esta característica de la mediana es la que hay que tener en cuenta para valorar cuándo nos puede interesar más la mediana que la media (o además de la media) como medida de tendencia central. Lo vemos fácilmente en estos dos ejemplos ficticios (tabla 2): Tabla 2 Caso 1º 6 5 4 3 2 1
Caso 2º
|||||||||| (10) La mediana es 5,5; es la ||||| (5) puntuación que divide a la nuestra en dos ||||| (5) mitades iguales (10 sujetos por encima y 10 sujetos por debajo); la media es 5.25
6 5 4 3 2 1
37
|||||||||| (10) La mediana sigue ||||| (5) siendo 5,5 (10 sujetos por encima y 10 sujetos por debajo), aunque la media baja a 4,5 |||||
(5)
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Nos interesará utilizar la mediana cuando creamos que los sujetos con puntuaciones extremas desvirtúan la media en cuanto medida representativa de dónde está un grupo; las puntuaciones muy extremas (y que pueden ser atípicas) influyen en la media (en el cálculo de la media entran to das las puntuaciones), pero no en la mediana. Éste puede ser el caso de los ítems de evaluación del profesorado; un pequeño número de alumnos poco representativos puede sesgar la media en una dirección (positiva o negativa) que no refleja el sentir o la opinión claramente mayoritaria de un gr upo. En cualquier caso siempre es posible aportar ambos datos, la media y la mediana. La moda (en los dos casos de la tabla 2 corresponde a la puntuación 6) tampoco se ve afectada por puntuaciones muy extremas, pero la alternativa de interés a la media suele ser la mediana, no la moda. En general nos interesará la mediana en vez de la media cuando los datos sean claramente ordinales y siempre que interese no tener en cuenta puntuaciones muy extremas. La mediana es el valor utilizado en algunos análisis específicos1. 3. La media se presta a muchos más análisis estadísticos de interés. Esta es una ventaja clara, y frecuentemente decisiva, de la media sobre las otras medidas de tendencia central, y es la que utilizaremos r utinariamente; además en el cálculo de la media se utiliza toda la información disponible. Esta razón tiene más peso en estadística inferencial, cuando pretendemos inferir la media de una población (al menos ver entre qué limites probables se encuentra) a partir de los datos de una muestra; con este planteamiento (y en otros semejantes) solemos utilizar la media; con un propósito meramente descriptivo utilizaremos la medida que más nos convenga (o más de una). 4. En la distribución normal coinciden los valores de la media, la me diana y la moda. En los ejemplos puestos hasta ahora, la media, la mediana y la moda tienen valores distintos; cuando la distribución es normal (simétrica, acampanada) los tres valores de tendencia central son idénticos: la media es también el valor con un mayor número de sujetos y divide a la muestra en dos mitades iguales, como podemos ver en la distribución de frecuencias de la tabla 3
La mediana se utiliza en el análisis de ítems en las escalas de Thurstone y para determinar las puntuaciones de corte ( apto/no apto ) cuando varios jueces examinan los ítems de una prueba objetiva (métodos de Angoff y Nedelsky); en ambos casos se pretende prescindir de los juicios extremos; son temas que no tratamos aquí pero que ejemplifican la utilidad de la mediana. 1
38
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Tabla 3 9 8 7 6 5 4 3 2 1
| ||| |||| |||||||| |||||||||| 5 = |||||||| |||| ||| |
{
media mediana moda
Como veremos a continuación, cada medida de tendencia central se utiliza junto con otra medida de dispersión o de variabilidad, que completa el tipo de información o resumen aportado por estas medidas de tendencia central. 2. MEDIDAS DE DISPERSIÓN: SU UTILIDAD Todos estamos familiarizados con las medidas de tendencia central, como lo es la media aritmética. Es muy normal describir grupos o resultados calculando la media. Hemos visto otras medidas de tendencia central, como son la mediana (la puntuación que divide al grupo en dos mitades iguales) y la mo da o puntuación más frecuente. Sin embargo la medida más utilizada como dato descriptivo que resume dónde está un grupo es la media aritmética. La limitación de la media aritmética (y de otras medidas semejantes) como dato que describe adecuadamente los resultados obtenidos en un grupo, podemos verlo con un sencillo ejemplo. Imaginemos que a dos clases (de cuatro alumnos cada una, para simplificar el ejemplo) les ponemos un examen de 20 preguntas objetivas. Cada pregunta puede estar bien (y vale 1) o mal (y vale 0). Obtenemos los resultados puestos en la tabla 4 y vemos que los dos gr upos tienen idéntica media. Tabla 4 Grupo A 20 20 0 0 media = 10
Grupo B 10 10 10 10 media = 10
39
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
¿Podemos decir que se trata de dos grupos muy parecidos porque tienen la misma media? No, son grupos muy distintos. El grupo A es muy heterogéneo, en este grupo A se puede decir que hay dos subgrupos muy diferenciados; el grupo B en cambio es muy homogéneo, todos tienen idéntica puntuación. Las medidas de dispersión complementan la información que nos da tanto la media (aquí vamos a poner el énfasis por ser la medida más útil y utilizada) como la mediana o la moda; estas medidas de dispersión expresan en qué grado los grupos son más bien homogéneos, con los sujetos muy parecidos unos a otros (como en el grupo B), o más bien se trata de grupos heterogéneos, con mayores diferencias entre los sujetos (como en el grupo A). La medida de dispersión más útil y utilizada es la desviación tí pica, que se utiliza siempre que se calcula la media como la medida de tendencia central. Las medidas de dispersión que vamos a ver son las siguientes: a) En relación con la media: 1. La desviación media, que se utiliza poco pero es sencilla y nos sir ve de introducción para la desviación típica. 2. La desviación típica y la varianza (que es la desviación típica elevada al cuadrado), que son las más importantes; 3. El coeficiente de variación, que se calcula a partir de la media y de la desviación típica, y que tiene su utilidad específica en determinadas situaciones. b) En relación con la mediana La desviación semi-intercuartílica, que expresa la dispersión o heterogeneidad en el 50% central del grupo (y en la que, lo mismo que la mediana, se prescinde de las puntuaciones extremas). c) En relación con la moda: La amplitud o recorrido, de menor importancia que las otras medidas de dispersión. 2.1. La desviación media La medida de dispersión más sencilla y fácil de comprender es la desviación media; aunque apenas se utiliza es útil comprender el significado de la desviación media como punto de partida sobre todo para entender la desviación típica, que es la medida de dispersión más utilizada. La desviación me dia la entenderemos fácilmente comparando las dos representaciones puestas la figura 1.
40
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Fig. 1 media = 5
Grupo A
d = -2
media = 5
Grupo B
d = -2
d = -3
d = -1 d = -1
1
2
3
4
5
6
d = +3
d = -2 d = +2
7
8
9
1
Diferencia media con respecto a la media grupal = 1.5
2
3
4
5
6
7
8
9
Diferencia media con respecto a la media grupal = 2 .5
1. Tenemos dos grupos, A y B, cada uno con cuatro sujetos. Las puntuaciones del grupo A son 3, 4, 6 y 7. Las puntuaciones del grupo B son 2, 3, 7 y 8. 2. Ambos grupos tienen idéntica media, X= 5 3. Cada sujeto tiene una desviación (d) con respecto a la media (X) de su grupo: unos porque no llegan a la media y otros porque se pasan y tienen una puntuación superior a la media. Si un sujeto tuviera una puntuación idéntica a la media, su desviación valdría d = 0, pero sigue siendo válido el concepto de desviación con respecto a la media (cero en este caso). 4. Si dentro de cada grupo sumamos las desviaciones individuales (en valores absolutos, prescindiendo del signo) y dividimos esta suma por el número de sujetos, tendremos la desviación media del grupo (d)
|2+1+1+2| Desviación media del grupo A =––––––––––––= 1.5 4 |3+2+2+3| Desviación media del grupo B =––––––––––––= 2.5 4
5. Aunque ambos grupos tienen idéntica media, son grupos muy distintos. A simple vista se observa que el grupo A es más homogéneo que el grupo B; en el grupo B los sujetos se apartan más de la media. Aunque los dos grupos tienen idéntica media, la dispersión del grupo B es ma-
41
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
yor que la dispersión del grupo A (o, lo que es lo mismo, el grupo A es más homogéneo que el grupo B). Consecuentemente el grupo A tiene una desviación media más pequeña. La desviación media nos indica por lo tanto el grado de dispersión, de homogeneidad, de parecido de unos sujetos a otros. Una misma media de 5 puede proceder de un grupo en el que todos tienen un 5 (dispersión = 0, grupo muy homogéneo, todos los sujetos son iguales), y una media de 5 también puede proceder de un grupo en el que la mitad de los sujetos tuvieran un 0 y la otra mitad un 10: una misma media puede corresponder a grupos muy distintos y dar por lo tanto una información descriptiva incompleta que se presta a conclusiones falsas o equívocas (por ejemplo, una renta media per capita muy elevada es compatible con importantes bolsas de pobreza en la población). 2.2. La desviación típica y la varianza 2.2.1. L a desviación típica 1. En la práctica, y como medida de dispersión, no se usa la desviación media (aunque inicialmente se entiende con mayor facilidad) sino preferentemente la desviación típica, que es otra medida que indica igualmente el grado de dispersión o de heterogeneidad de las puntuaciones individuales. 2. Para calcular la desviación típica las desviaciones individuales se elevan al cuadrado antes de sumarlas (y con esta operación desaparecen los signos negativos), y después de dividir esta suma por el número de sujetos, se extrae la raíz cuadrada. El símbolo habitual de la desviación típica es la letra ese grie ga minúscula ( sigma: s; también es común denominar la desviación típica por el nombre del símbolo, sigma, o desviación estándar, del inglés stan dard deviation).2 Sobre el símbolo de la desviación típica hacemos una observación para evitar confusiones. Aquí utilizamos siempre la letra ese griega minúscula ( s ) como símbolo de la desviación típica de la muestra, que es la que vamos a utilizar habitualmente, incluso es frecuente designar a la desviación típica por el nombre del símbolo (sigma). Aunque no hay una práctica uniforme, sí conviene advertir que también es frecuente utilizar este símbolo ( s ) para expresar la desviación típica estimada de la población (N-1 en el denominador), y reservar la letra s, ese latina, para expresar la desviación típica de la muestra (N en el denominador). En algunas calculadoras se distinguen bien los dos símbolos con subíndices: sn y sn-1. En el programa EXCEL la desviación típica de la muestra (dividiendo por N) se denomina desvestp y la desviación típica de la población (dividiendo por N-1) se denomina desvest. 2
42
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Fórmulas Distinguimos dos fórmulas según se trate de la desviación típica de la muestra o de una estimación de la desviación típica de la población representada por esa muestra. 1º Cuando se trata de la desviación típica que describe la dispersión de una muestra (que es lo que hacemos normalmente) utilizamos la fórmula [3]: s = desviación típica de la muestra S = sumatorio, suma de (letra ese
[3]
griega
mayúscula) X = cada una de las puntuaciones individuales (X mayúscula), X = media aritmética N = número de sujetos
La fórmula de la desviación típica también suele expresarse así: (d = desviaciones con respecto a la media) o también
La letra x (equis minúscula) es un símbolo habitual de la puntuación di ferencial de cada sujeto, que es simplemente la desviación o diferencia de cada sujeto con respecto a la media, d = x = X 2º Cuando se trata de la estimación de la desviación típica de la población representada por una muestra se utiliza la fórmula [4]. La fórmula es casi idéntica; dividimos por N-1 (en [4] vez de por N) con lo que el valor de la desviación típica será algo mayor. En este caso se trata de la estimación de la desviación típica de una población calculada a partir de los datos de una muestra. Al dividir por N-1 (y disminuir el denominador) aumenta el cociente: la desviación típica de una población suele ser mayor que la desviación típica de una muestra, porque al aumentar el número de sujetos es más probable que haya sujetos con puntuaciones muy extremas (o muy altas o muy bajas) y consecuentemente aumenta-
43
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
rá la desviación típica. Con números grandes apenas hay diferencia (a efectos prácticos da lo mismo dividir por 100 que dividir por 99), pero con números muy pequeños la diferencia puede ser importante3. De la fórmula [3] (dividiendo por N) a la [4] (dividiendo por N-1) y vice versa se pasa con facilidad. La desviación típica [3] la simbolizamos ahora como sn y la desviación típica de la fórmula [4] la simbolizamos como sn-1 para evitar confusiones. El paso de [3] a [4] se capta con facilidad. Si despejamos S(X - X)2 en la fórmula [3] tenemos que
y substituyendo S(X - X)2 por
en la fórmula [4] tendremos que: [5] y de manera análoga tenemos que
[6]
Podemos ver estas transformaciones en un sencillo ejemplo: Tenemos estas tres puntuaciones 8, 12 y 14 (N = 3) cuyas desviaciones son: sn = 2.494 sn-1 = 3.055 sn a partir de sn-1:
sn-1 a partir de sn
De estas fórmulas es de especial utilidad la [6] porque algunos programas de ordenador dan rutinariamente la desviación típica de la población ( sn-1 ) cuando la que con frecuencia interesa es la desviación típica que describe la dispersión de la muestra ( sn ). 2.2.2. La varianza 1. La varianza es simplemente la desviación típica elevada al cuadrado:
En EXCEL ( herramientas ) en análisis de datos ( estadística descriptiva ) calcula la desviación típica de la población (dividiendo por N-1) lo mismo que en el SPSS ( por defecto ). 3
44
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Ya hemos visto que el numerador de la varianza (la suma de las desviaciones individuales elevadas previamente al cuadrado) puede expresarse así:
De esta manera se simplifican bastante algunas operaciones del análisis de varianza que no vemos en este momento. Este numerador de la varianza se denomina también suma de cuadrados. 2. La varianza se interpreta de la misma manera que la desviación típica: cuantifica la dispersión de una serie de puntuaciones. La interpretación de la desviación típica y de la varianza es la misma, aunque obviamente las magnitudes serán distintas. La varianza es mayor que la desviación típica cuando la desviación típica es > 1, La varianza es menor que la desviación típica cuando la desviación típica es <1 Como dato descriptivo es más frecuente el uso de la desviación típica que el de la varianza (aunque se utilizan los dos). 2.2.3. Ventajas de la desviación típica y de la varianza como medidas de dispersión La razón de utilizar la desviación típica (o la varianza) en vez de la desviación media (u otras medidas de dispersión como son la amplitud o la desviación semi-intercuartílica) son varias: 1. El cálculo de la desviación típica se basa en todas las puntuaciones. Otras medidas de dispersión, como la amplitud y la desviación semi-intercuar tílica, utilizan menos datos y dicen meno s, aportan una información más limitada. La amplitud (o recorri do) se basa solamente en las dos puntuaciones extremas y la desviación semi-intercuartílica (Q) expresa la dispersión en el 50% central del grupo. Estas medidas de dispersión también tienen su utilidad, pero la medida que en principio es preferible utilizar la desviación típica. La desviación típica y la varianza tienen mucha estabilidad, al menos en términos comparativos, cuando la utilizamos para estimar la variabilidad de una población; cuando se calcula en varias muestras aleatorias varía relativamente poco. 2. De la relación existente entre la desviación típica y la distribución normal se derivan numerosas aplicaciones muy útiles: si conocemos en cuántas desviaciones típicas se aparta un sujeto de la media, conoce-
45
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
mos las probabilidades de que se dé por azar esa puntuación; así podemos detectar qué resultados, por ser muy altos o muy bajos, son muy improbables por azar. Este cálculo de probabilidades es especialmente útil en estadística inferencial, ya más en planteamientos de investigación. Estos puntos se tratan en extensión en el lugar apropiado, al tratar más adelante de la distribución normal. 3. La desviación típica y la varianza se calculan con facilidad con sencillas calculadoras con programación estadística y en los programas informáticos como EXCEL. Existen además varios métodos simplificados para calcular la desviación típica, pero estos métodos sólo dan aproximaciones y dada la facilidad con que pueden utilizarse las calculadoras y programas de ordenador, estos métodos son ya menos útiles y justificables. 2.2.4. Propiedades de la desviación típica y de la varianza La desviación típica y la varianza tienen además propiedades matemáticas que las hacen más útiles. 1. Si a las puntuaciones directas les sumamos una constante, la desviación típica y la varianza no varían. Esto es obvio porque no varían las distancias inter -individuales. Lo podemos ver con un ejemplo (dos muestras de tres sujetos, tabla 5.). Tabla 5
Caso A
media desviación típica
1 5 9 5 3.266
Caso B (= A+2) 3 7 11 7 3.266
En el caso B hemos sumado dos puntos a cada sujeto del caso A; las medias son distintas (sube en dos puntos en el caso B), pero la desviación típica es la misma porque las diferencias interindividuales son las mismas. 2. Si multiplicamos las puntuaciones directas por una constante, la desviación típica queda multiplicada por esa misma constante y la varianza queda multiplicada por el cuadrado de esa constante. Lo vemos también con un ejemplo: las puntuaciones del caso A las multiplicamos por 2 (tabla 6).
46
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Tabla 6
Caso A
media desviación típica varianza
1 5 9 5 3.266 10.67
Caso B (= A x 2) 2 10 18 10 6.53 ( = 3.266 x 2) 42.67 ( = 10.67 x 22 )
3. La varianza en particular tiene una propiedad que la hace sumamente útil en algunos análisis: la varianza se puede descomponer según diversos orí genes de la variación. Estas aplicaciones se ven en las técnicas de análisis de varianza. 2.2.5. Usos e interpretaciones de la desviación típica 1. En principio, y como ya hemos visto, la desviación típica describe el grado de homogeneidad de los datos: será más baja en la medida en que los datos estén más próximos a la media, aumentará si hay puntuaciones extremas muy alejadas de la media, etc. Como dato puramente descriptivo suele utilizarse la desviación típica con preferencia a la varianza (que también puede utilizarse). La media y la desviación típica apor tan datos descriptivos complementarios. Si se trata de datos escolares (y lo mismo con otros tipos de datos) permiten hacer diagnósticos rápidos de un grupo. Media baja y desviación típica pequeña: examen difícil para todos, o el profesor califica muy bajo a todos, etc.; media baja y desviación típica grande puede indicar que hay un subgrupo demasiado bajo, etc.; se trata al menos de pistas razonables, pues para hacerse una idea más cabal de la situación habrá que inspeccionar los datos (la distribución de frecuencias). 2. Al valorar e interpretar la desviación típica hay que tener en cuanta de dónde vienen los datos: no es lo mismo el número respuestas correctas en un examen que calificaciones puestas por un profesor. Más en concreto es interesante pensar por qué podemos encontrar desviaciones pequeñas donde cabría esperar que fueran mayores. Así una desviación típica muy pequeña puede indicar: a ) El grupo (el conjunto de datos) es muy homogéneo, todos los sujetos (u objetos) se parecen mucho entre sí. En un test de inteligencia pues-
47
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
to a una muestra de sujetos muy inteligentes tendremos una desviación típica más pequeña que la que podemos encontrar en una muestra normal, donde hay de todo. Ésta es la interpretación en principio más obvia porque es lo que expresa directamente la desviación típica, pero, sobre todo cuando tenemos una desviación mucho menor de lo esperado o de lo que es usual encontrar en otras situaciones, cabe siempre el buscar alguna explicación, como indicamos en los apartados siguientes. b) Los sujetos pueden ser potencialmente muy distintos, pero pueden también estar igualados por la facilidad o dificultad de la prueba (examen, test, etc.). El test o instrumento, del tipo que sea, puede ser poco discriminante y consecuentemente no detecta diferencias que de hecho hay. El grupo puede ser muy homogéneo pero sólo tal como lo mide un instrumento determinado. Por ejemplo, no es lo mismo poner como respuestas de un cuestionario sí o no (a lo mejor todos responden sí) que poner sí, más bien sí, más bien no y no: puede suceder que los que responden sí (si sólo pueden escoger entre sí y no) se dividan entre el sí y el más bien sí. De manera semejante una desviación típica muy pequeña en un test de conocimientos puede indicar no que el grupo es realmente muy homogéneo (sujetos muy iguales) sino que el examen es muy fácil (todos o casi todos saben todo) o muy difícil (casi nadie sabe nada…): puede haber diferencias en esos conocimientos que no se detectan con ese test; el grupo es más heterogéneo de lo que manifiesta esa desviación típica pequeña. c) Si se trata de calificaciones, una desviación típica pequeña puede indicar que el profesor matiza poco, pone notas muy iguales. En general una desviación típica pequeña puede indicar que el proce dimiento o instrumento utilizado para recoger los datos no recoge suficientemente diferencias que de hecho existen. El no detectar diferencias repercute por otra parte en otros análisis estadísticos (por ejemplo en el cálculo de coeficientes de correlación: no se detectan relaciones si no hay diferencias claras entre los sujetos). 3. No hay un valor ideal de la desviación típica que pueda servir de referencia; cuándo es grande o pequeña se aprecia comparando unas con otras. Dos desviaciones típicas pueden compararse entre sí directamente (lo mismo que dos varianzas) si provienen de datos comparables (unidades comparables, la misma escala métrica). En ocasiones puede ser de utilidad conocer cuál es el valor máximo po sible de la desviación típica; este valor máximo posible es igual a:
48
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
puntuación máxima posible - puntuación más baja posible –––––––––––––––––––––––––––––––––––––––––––––––––– [8] 2 Por ejemplo hacemos un pregunta con cinco respuestas (5 = totalmente de acuerdo, 4 = de acuerdo, 3 = indiferente, 2 = en desacuerdo y 1 = en total desacuerdo), la puntuación máxima posible es 5 y la puntuación más baja po sible es 1; en este caso la desviación típica mayor posible es (5 - 1)/2 = 2. Esta referencia suele ser poco útil porque este valor máximo es difícilmente alcanzable en la mayoría de las situaciones. Cuando los valores son 1 y 0 ( sí o no, bien o mal, etc.), la desviación típica mayor posible es (1 - 0)/2 = .50. Esta referencia con este tipo de datos es especialmente útil, porque en estos casos (respuesta 1 ó 0) sí es más frecuente que la desviación típica obtenida sea la mayor posible o se aproxime mucho a la mayor posible (ampliamos estos comentarios al tratar después de las puntuaciones dicotómicas). 4. La desviación típica indica qué puntuación parcial pesa más en una media final; a mayor desviación típica, mayor peso en la media final. En determinadas situaciones esta información puede ser muy útil. El que la puntuación parcial con una mayor desviación típica pese más en una media final es por otra parte lógico: si todos reciben la misma o casi la misma puntuación (lo que supone una desviación típica muy pequeña), no se establecen diferencias; si por el contrario se asignan puntuaciones muy distintas a los sujetos (desviación típica grande) en una puntuación parcial, las diferencias en la media final dependerán más de esas ocasiones en las que se asignaron puntuaciones (o notas) muy distintas. Lo podemos ver intuitivamente con un ejemplo ficticio (tabla 7). Supongamos que tres examinadores (A, B y C) califican a tres sujetos en lo mismo (entre paréntesis el número de orden de cada sujeto con cada examinador y en la media final): Tabla 7
Podemos observar que el orden (entre paréntesis) de los alumnos en la media final coincide con el orden del examinador A, que es el que tiene una mayor desviación típica.
49
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El sujeto nº 1, el de media final más alta, es el mismo que el del examinador A, a pesar de que este examinador A está en minoría ya que para los examinadores B y C el sujeto nº 1 es el que tiene una calificación más baja. Pero como el examinador A ha diferenciado más sus calificaciones, está influyendo más en quién queda en el primer o en el último lugar. El que la puntuación parcial con una mayor desviación típica tenga también un peso mayor en la media final puede ser de especial importancia en algunas ocasiones, como cuando del número de orden de los examinados se siguen consecuencias impor tantes (concesión de becas, procesos de admisión o cualquier otro tipo de ventaja). Los que califican de manera muy uniforme, sin diferenciar mucho, influ yen menos: sumar a todos una misma cantidad no establece diferencias. Lo mismo sucede si no se trata de examinadores distintos, sino del mismo examinador pero que ha calificado de manera muy distinta en distintas ocasiones o con distintos tipos de pruebas. Este peso distinto de las puntuaciones directas, según sea mayor o menor la desviación típica, se puede obviar de varias maneras; sobre todo utilizando puntuaciones típicas como veremos más adelante. 5. La desviación típica entra en otros muchos cálculos que iremos viendo (fiabilidad, error típico, error típico de la media, contraste de medias, etc.). 6. La desviación típica per mite el cálculo de las puntuaciones típicas indi viduales de las que tratamos más adelante. Además la relación entre la desviación típica, y las puntuaciones típicas, y la distribución normal nos abrirá la puer ta a la estadística inferencial. 2.2.6. Media y desviación típica de los datos dicotómicos Datos dicotómicos, o puntuaciones dicotómicas, son aquellos en los que solamente hay dos categorías de respuesta o de clasificación mutuamente excluyentes. Cuando hay más de dos posibilidades se trata de datos o puntuaciones continuas. En la figura 2 tenemos varios ejemplos frecuentes de puntuaciones (o datos, o variables) dicotómicas. Además de los datos propiamente dicotómicos (dos respuestas que se excluyen mutuamente) también podemos dicotomizar los datos continuos di vidiéndolos en dos categorías, por ejemplo por encima de la media y por debajo de la media (o de la mediana ), o apto (= 1) y no apto (= 0), etc., aunque en principio es preferible utilizar todas las respuestas sin reducirlas a dos categorías.
50
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Figura 2: EJEMPLOS DE DATOS DICOTÓMICOS
La media (X) de los datos dicotómicos es igual a la proporción de respuestas correctas o de unos, y el símbolo que suele utilizarse es p. El concepto de media es el mismo que cuando se trata de otros tipos de puntuaciones: calculamos la media sumando todas las puntuaciones individuales (que en este caso serán 1 ó 0) y dividimos esta suma por el número de sujetos. número de unos Por lo tanto la media es: p = proporción de unos =––––––––––––––– [9] N La proporción de ceros (de respuestas incorrectas, de noes, etc.) se simboliza como q, y es igual al número de ceros dividido por el número de sujetos, o más sencillamente, q = 1-p, ya que p + q = 1 (ó síes + noes o unos + ceros = el 100% de las respuestas). número de ceros q = proporción de ceros = ––––––––––––––– [10] N Si, por ejemplo, de 50 sujetos 30 responden sí (o bien en la pregunta de un examen) y 20 responden no (o mal a una pregunta): La media será:
30 p =–––––= .60 50
20 El valor de q será: q =–––––= .40 50 Si multiplicamos por cien la proporción de respuestas correctas (p), tenemos un tanto por ciento o un porcentaje: el 60% ha respondido correctamente (o ha respondido sí). Si los 50 sujetos responden sí (o correctamente),
51
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
la proporción de unos (la media) será 50/50 = 1 (ó el 100% de los sujetos ha respondido correctamente o ha respondido sí). La desviación típica y la varianza de los datos dicotómicos ( unos o ceros ) se puede calcular a partir de los valores de p y q: Desviación típica:
[11]
Varianza:
s2 = pq
[12]
Es habitual utilizar pq como símbolo de la varianza de los datos dicotómicos. En el mismo ejemplo anterior, la desviación típica será igual a = .489, y la varianza será igual a .489 2 = .239 (ó .24 redondeando los decimales). La varianza mayor posible se dará cuando el 50% responde correctamente (o responde sí) y el otro 50% responde incorrectamente (o responde no), es decir, cuando el 50% de las respuestas se codifica con un uno y el otro 50% con un cero. Es entonces cuando se da el mayor número de diferencias interindividuales. En este caso tenemos que p = q = .50; la media es p =.50, la desviación típica será igual a 2
la varianza será igual a .50 = .25, También se utilizan los símbolos convencionales (X, s ); sin embargo los símbolos p (media), pq (varianza) y (desviación típica) son muy utilizados con este tipo de datos; realmente tanto pq como son las fórmulas que también se utilizan como símbolos. En los ítems dicotómicos el valor máximo que puede alcanzar la desviación típica es .50 y el valor máximo de la varianza es .50 2 =.25. Como ya se indicó antes, el valor máximo que puede alcanzar la desviación típica (con cualquier tipo de puntuación) es igual a la diferencia entre la puntuación máxima posible y la puntuación más baja posible dividida por dos; en este caso (1-0)/2 = .50. El que la máxima varianza con estos datos (1 ó 0) es .25 podemos verlo de manera intuitiva en los datos simulados de la tabla 8, donde tenemos todos los posibles resultados que podemos obtener si cuatro sujetos (N = 4) responden a una pregunta (respuestas: sí = 1, no = 0). Si todos responden sí (1) o todos responden no (0), nadie se diferencia de nadie y la varianza es cero. Si la mitad (el 50%) responde sí y la otra mitad responde no es cuando tenemos el máximo número de diferencias y la máxima varianza. Si multiplicamos el número de los que responden sí por el número de los que responden no tenemos el número de diferencias entre los sujetos, y si multiplicamos las proporciones tenemos la varianza. La unanimidad (todos responden sí o todos responden no ) coincide con la varianza cero, y la máxima diversidad coincide con la varianza máxima, que es (.50)(.50) = .25.
52
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
Tabla 8
El entender que la varianza máxima (lo más lejano a la unanimidad en las respuestas) es .25 tiene su importancia, no sólo como referencia útil, sino porque se trata de un valor que entra en la fórmula para calcular el tamaño necesario de la muestra para extrapolar los resultados a la población (por ejemplo en las encuestas pre-electorales); en estos casos suponemos que la varianza de la población es la máxima posible e igual a .25. La razón está en que a mayor varianza hará falta una muestra mayor y para mayor seguridad nos ponemos en la situación de que la varianza es la mayor posible (si la varianza fuera = 0, nos bastaría preguntar a un solo sujeto, porque todos van a responder lo mismo) 4. La media y la desviación típica de los datos dicotómicos pueden calcularse con las calculadoras que tienen programación estadística y programas informático, de la misma manera que se calculan cuando las puntuaciones son continuas (las fórmulas son las mismas; si las puntuaciones son dicotómicas, nos limitaremos a introducir unos y ceros ). 2.2.7. Combinación de medias y desviaciones típicas Con frecuencia acumulamos datos y cálculos de diversos grupos. Las fórmulas que combinan medias de diversos grupos en una media común y diversas desviaciones típicas en una desviación típica común son muy útiles. 1º Para combinar dos o más medias: X total = media total, o común a varios grupos; S XN = en cada grupo multiplicamos la media por su N y sumamos estos productos (esta suma es igual a la suma de todas las puntuaciones); SN = suma de todos los N En la ficha técnica de las encuestas, que suele aparecer publicada en periódicos y revistas, se suele especificar que el tamaño de la muestra se ha calculado suponiendo que p = q = .50 (también se empelan letras mayúsculas, P y Q). 4
53
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La fórmula [13] es obvia (se trata de una media ponderada por el número de sujetos): tenemos que S X = XN; que es el numerador Si la media es de esta fórmula [13] (suma de todas las puntuaciones); el denominador ( SN) es la suma de todos los sujetos de todos los grupos. Cuando el número de sujetos es el mismo en todas las muestras, la media total es simplemente la media de las medias. Lo vemos en dos ejemplos (tabla 9), que utilizaremos también para ver cómo se combinan desviaciones típicas. Tabla 9
Cuando las muestras son de tamaño desigual:
Cuando las muestras son de idéntico tamaño calculamos la media de las medias:
2º Para combinar dos o más desviaciones típicas o varianzas: Lo que no se puede hacer es calcular la media de las desviaciones típicas; para combinar las desviaciones típicas de varios grupos como si se tratara de un solo grupo aplicamos las fórmulas [14] ( muestras desiguales ) y [15] ( muestras iguales ).
54
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
a) Muestras de tamaño desigual
= desviación típica total, de todos los grupos unidos en uno solo; X total = media del total, de todos los grupos unidos en uno solo. 1º En cada grupo multiplicamos cada N por la suma de la media y de la desviación típica elevadas al cuadrado [N(X 2 + s2 )], 2º sumamos estos productos; 3º dividimos esta suma por el número total de sujetos ( SN) y restamos la media total elevada al cuadrado (y que se supone calculada previamente). Si no extraemos la raíz cuadrada, lo que tenemos es la varianza común a todos los grupos. stotal
b) Muestras de idéntico tamaño Si las muestras son de idéntico tamaño, en la fórmula [14] tendríamos que el denominador será Nk, donde N es el número de sujetos que hay en cada grupo y k es el número de grupos, por lo que la fórmula [14] queda simplificada como se indica en [15].
En el numerador nos limitamos a sumar todas las medias y todas las desviaciones previamente elevadas al cuadrado. Con los datos mismos datos de la tabla 9 calculamos las desviaciones típicas uniendo todas las muestras. Muestras de tamaño desigual [14]:
Muestras de idéntico tamaño [15]5:
El numerador se calcula fácilmente con una calculadora con programación estadística, introduciendo todas las medias y todas las desviaciones típicas, en la función S x 2. 5
55
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
¿De dónde vienen estas fórmulas para combinar desviaciones típicas a partir de los valores de las desviaciones, medias y número de sujetos de diversos grupos? La fórmula [14]6 es fácilmente demostrable, y no sobra conocer esta demostración porque nos introduce en otras fórmulas frecuentes de la desviación típica. La fórmula más directa de la desviación típica es Esta fórmula no se demuestra en sentido propio (lo mismo que la de la media aritmética), simplemente expresa el concepto. Hay otras fórmulas, que se derivan de [16], para calcular la desviación típica sin necesidad de calcular las puntuaciones diferenciales (X-X). Lo que sucede es que estas fórmulas que simplifican operaciones son menos útiles, ya que disponemos de programas informáticos y calculadoras con programación estadística. Una de estas fór mulas para calcular la desviación típica a partir de las puntuaciones directas y de la media, es la que nos interesa para poder demostrar la fórmula que nos permite combinar desviaciones típicas de varios grupos; es la fórmula [17] que viene en muchos textos; a partir de esta fórmula [17] llegamos con facilidad a la fórmula [14] para combinar desviaciones típicas o varianzas.
Vamos a ver cómo de la fórmula [17] llegamos a la fórmula [14], que es la propuesta para combinar desviaciones típicas; después veremos de dónde sale esta fórmula [17]. Para simplificar esta demostración utilizamos la varianza en vez de la des viación típica, así si elevamos al cuadrado la desviación típica expresada en [17] tendremos que la varianza será
Si en [18] despejamos S X 2 tendremos
S X 2 =N( s2+ X 2 )
[19]
La expresión que tenemos en [19] podemos verla ya en la fórmula [14]. Si de dos muestras conocemos los valores de N, X y s, podemos utilizar la fór6
Esta fórmula la tomamos de McNemar (1962, pág. 24).
56
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
mula [17] para calcular la desviación típica de las dos muestras combinadas en una única muestra. En esta fórmula [17] utilizada para combinar dos (o más) desviaciones típicas tenemos ahora que: N = N1 + N2; La media será la media total de las dos (o más) muestras 2 S X será la expresión [19] calculada en las dos (o más) muestras y sumadas. Es decir, substituyendo [19] en [18] tenemos la fórmula [14] para combinar desviaciones típicas. Podemos preguntarnos ahora de dónde viene la fórmula [17], que es la que estamos utilizando para llegar a la fórmula [14] y calcular la desviación típica de dos (o más) muestras combinadas en una sola. En la fórmula de la desviación típica tenemos en el numerador un binomio elevado al cuadrado. No hay más que aplicar la fórmula usual: (a - b) 2 = a2 2ab + b2, y así llegamos a [18] y [17]: Utilizando la varianza para simplificar, tenemos que:
Como en [17] tenemos que
y que
Tendremos que y [17]
y así llegamos a [18]
2.3. El coeficiente de variación (V) Otra medida de dispersión, menos utilizada, es el coeficiente de variación. En principio se utiliza para comparar dispersión cuando los instrumentos o unidades de medida son distintas, o cuando las medias de dos grupos son muy desiguales. La desviación típica viene expresada en las mismas unidades empleadas en la medición, por lo tanto dos desviaciones calculadas con instrumentos y unidades distintas no son comparables entre sí directamente. Lo mismo sucede cuando las medias son muy distintas (por ejemplo cuando las medias de dos exámenes son muy distintas porque el número de preguntas es distinto). En estos casos se utiliza el coeficiente de variación o de variabilidad relativa: consiste sencillamente en dividir la desviación típica por la media (es decir , se trata de la desviación relativa a la media); es habitual multiplicar por 100 este cociente.
57
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Coeficiente de variación:
[21]
Por ejemplo, en dos grupos, de chicos y chicas, tenemos estos datos (peso en Kg.) Aparentemente los chicos difieren más entre sí que las chicas entre sí (su media desviación desviación típica es mayor; los chicos chicos 66.87 6.99 tienen de manera natural más ámbito chicas 51.06 5.10 de variación), pero también es verdad que las medias son muy distintas. Si calculamos el coeficiente de variación (haciendo las desviaciones relati vas a la media) tenemos estos resultados: 6.69 V (chicos) =––––– (100) = 10.45 Teniendo en cuenta la diferencia en66.87 tre las medias, entre las chicas encontramos más variabilidad en peso (aun5.51 V (chicas) =––––– (100) = 10.79 que no mucha más). 51.06 El uso de este coeficiente de variación en medidas educacionales o psicológicas es muy cuestionable, porque su valor depende de la media, que a su vez depende de la facilidad o dificultad de las preguntas, test, etc. Su interpretación se presta a ambigüedades. Si por ejemplo a un test de 10 preguntas le añadimos otras 10 muy fáciles, subirá la media y bajará el valor de V. Este coeficiente puede utilizarse y es especialmente útil cuando se dan estas circunstancias: 1º Cuando las unidades lo son en sentido propio (como peso, altura, con una unidad clara); menos aconsejable es utilizarlo en las medidas educacionales y psicológicas habituales; 2º Cuando las medias son muy desiguales (como en el ejemplo anterior, peso en chicos y chicas). 3º Cuando las medidas son distintas (por ejemplo; ¿dónde hay más variabilidad, en peso o en altura?). En el campo de los tests en general, puede ser útil para comparar la variabilidad de un grupo en el mismo test aplicado en circunstancias distintas. 2.4. La desviación semi-intercuartílica Nos hemos centrado fundamentalmente en la desviación típica y en la varianza porque se trata de dos conceptos fundamentales para el resto de
58
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
los análisis estadísticos. Son medidas de dispersión que se utilizan cuando se utiliza la media aritmética como medida de tendencia central. Se utilizan también otros pares de medidas, tanto de tendencia central (que ya hemos visto, como la mediana y la moda) como de dispersión, que son ya de utilidad más limitada, aunque tienen su lugar como descriptores de un conjunto de puntuaciones. La desviación semi-intercuartílica es la medida de dispersión apropiada cuando la medida de tendencia central es la mediana, y expresa la disper sión del 50% central del gr upo, por lo que, lo mismo que la mediana, se prescinde también de las puntuaciones extremas. El concepto es claro y podemos verlo en la distribución de frecuencias de la tabla 10. Hemos dividido la muestra en cuatro partes con idéntico número de sujetos (el 25% en cada una); los límites de estas cuartas partes se denominan cuartiles: Límite superior del cuartil 3 (queda por debajo el 75 % del total) (Q3 ) = 12.5 Límite superior del cuartil 1 (queda por debajo el 25 % del total) (Q1 ) = 6.5 Tabla 10
Es decir, y dicho de manera más sencilla, entre 6.5 y 12.5 está el 50% central de los sujetos; la desviación semi-intercuartílica (Q) será: [22] en este ejemplo tendríamos Este ejemplo está puesto para explicar el concepto; lo normal es que los límites del 50% central no estén tan claros a simple vista; el cálculo exacto lo veremos al tratar de los percentiles, pues se trata simplemente de calcular por interpolación los percentiles 25 y 75, como se explica en su lugar.
59
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
2.5. La amplitud o recorrido La amplitud o recorrido (ambos términos son usuales)7 es la medida de dispersión que se utiliza cuando la moda es la medida de tendencia central. Su cálculo es muy simple: Amplitud = (puntuación más alta menos la puntuación más baja) + 1 [23] En el ejemplo de la tabla 10: amplitud = (15-4) + 1 =12 Observaciones sobre la amplitud: 1. Sumamos una unidad a la diferencia entre las puntuaciones extremas (se trata de una convención aceptada) porque nos situamos en los límites extremos de ambas puntuaciones: el límite superior de 15 sería 15.5 y el límite inferior de 4 sería 3.5; la amplitud será pues 15.5 - 3.5 = 12 (ó 15 - 4 + 1). 2. Como indicador de dispersión es una medida débil, pues se basa en sólo dos puntuaciones, que además pueden ser atípicas, poco representativas, y grupos semejantes pueden parecer muy distintos en dispersión, simplemente porque en algún grupo hay uno o dos sujetos con puntuaciones inusualmente altas o bajas. 2.6. Relación entre la amplitud y la desviación típica En muestras relativamente grandes (de 500 o 600 sujetos) la amplitud o recorrido suele comprender unas seis desviaciones típicas (entre -3 y +3), por lo que un cálculo aproximado de la desviación típica consiste en dividir la amplitud entre seis. Según va bajando N (número de sujetos, tamaño de la muestra) la amplitud comprende menos desviaciones típicas y si sube N la amplitud suele comprender más de seis desviaciones. Tabla 11
A veces, y de manera errónea, se denomina rango a la amplitud, por confusión con el inglés (amplitud o recorrido en inglés es range). El término rango significa propiamente número de orden (rank en inglés). 7
60
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
En la tabla 11 tenemos cuántas desviaciones típicas podemos esperar que comprenda la amplitud: dividiendo la amplitud por esa cantidad (x) tendríamos una aproximación del valor de la desviación típica 8. Esta tabla nos dice que, por ejemplo, con 10 sujetos podemos esperar que la amplitud o recorrido equivalga aproximadamente a 3.1 desviaciones, y con 1000 sujetos a 6.5 desviaciones. Esta tabla no es útil para calcular la desviación típica; en primer lugar porque es muy sencillo calcular el valor exacto de la desviación (utilizando un programa de ordenador o una calculadora con programación estadística) y porque, como ya hemos indicado, la amplitud es una medida muy pobre que depende solamente de dos puntuaciones que además pueden ser atípicamente altas o bajas. Sin embargo el hacer una estimación del valor de la desviación a par tir de la amplitud puede ser ocasionalmente útil por varias razones. Para hacernos una idea de por dónde puede ir el valor aproximado de la desviación típica si en un momento dado no disponemos de medios para calcularla directamente, Para ponernos sobre la pista de algún error de bulto en el cálculo, Para apreciar si la desviación típica exacta y bien calculada es mucho ma yor o menor de lo que cabría esperar en un grupo de un determinado tamaño. Si la desviación típica calculada es apreciablemente mayor de la esperada, podemos comprobar si se debe a unos pocos sujetos con puntuaciones extremas muy atípicas. 3. MEDIDAS DESCRIPTIVAS BÁSICAS: RESUMEN de tendencia central
de dispersión
La media es el centro de gravedad de La desviación típica será mayor en la la distribución: la suma de todas las medida en que las puntuaciones indidiferencias individuales con respecto viduales se aparten más de la media a la media es igual a cero. (X-X). La desviación típica elevada al cuadrado ( s2 ) se denomina varian za, también se utiliza como medida de dispersión y tiene propiedades específicas que la hacen muy útil. 8
La tabla está tomada de Guilford y Fruchter (1973, pág. 73).
61
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
de tendencia central
de dispersión
En el cálculo de la media y de la desviación típica intervienen todas las puntuaciones individuales; son las dos medidas más estables: si calculamos estas medidas en una serie de muestras de la misma población, fluctúan menos que las demás medidas. Permiten además otras muchas operaciones de gran interés y son en principio las medidas descriptivas preferibles.
La mediana es igual al Percentil 50; es la puntuación que divide la distribución en dos partes iguales: la mitad de los sujetos tiene una puntuación superior a la mediana y la otra mitad una puntuación inferior. En distribuciones asimétricas o con puntuaciones extremas muy atípicas (muy extremas) puede dar una idea mejor que la media ya que la media puede verse afectada por puntuaciones muy extremas y no representativas. La mediana en cambio no se ve alterada por las puntuaciones extremas. Ambas medidas, mediana y Q son las apropiadas:
La desviación semi-intercuartílica (Q) se calcula solamente con el 50% central de la distribución: es la media de dos puntuaciones: la que corresponde al percentil 75 (deja por arriba el 25% de los sujetos) y la que corresponde al percentil 25 (deja por debajo el 25% de los sujetos). Como quedan excluidos en el cálculo el 25% superior y el 25% inferior, tampoco se ve afectada por las puntuaciones extremas.
1º en principio cuando se trata de puntuaciones puramente ordinales; 2º siempre que se prefiera prescindir de los sujetos extremos porque distorsionan la información.
Ejemplos de uso de la mediana y Q: en el proceso de construcción de escalas de Thurstone; los ítems son evaluados por jueces y para evitar que pesen demasiado juicios extremos, se calculan la mediana y Q (en vez de la y ?) en cada ítem. También se utilizan a veces en los cuestionarios de evaluación del profesorado, cuando interesa la opinión del centro de la clase y prescindir de los extremos. La mediana y los percentiles 25 y 75 (Q 1 y Q3, o primer y tercer cuartil) permiten además hacer determinadas representaciones gráficas. Los percentiles se calculan en estos casos por interpolación.
62
MEDIDAS DESCRIPTIVAS BÁSICAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN
de tendencia central
de dispersión
Moda: puntuación con una frecuencia mayor
Amplitud = [valor más alto - valor más bajo] +1
La moda es simplemente la puntuación con la mayor frecuencia, la obtenida por el mayor número de sujetos. Puede haber varias puntuaciones con esta característica (distribuciones bimodales, plurimodales). Como medida de tendencia central es poco rigurosa, sobre todo en distribuciones asimétricas. Se basa en las puntuaciones de dos sujetos que si son muy extremas y atípicas desvirtúan la información. La moda y la amplitud son las medidas menos rigurosas aunque pueden tener su interés descriptivo.
La amplitud (o recorrido, y mal llamada a veces rango) es igual a la diferencia entre la puntuación más alta y la puntuación más baja. Habitualmente se suma una unidad a esta diferencia porque se calcula a par tir de los límites de los valores extremos (si las puntuaciones extremas son, por ejemplo, 20 y 5, la amplitud no es igual a 20 - 5 sino igual a 20.5 - 4.5 = [(20 - 5) + 1]. Es una medida muy inestable porque depende solamente de los dos valores extremos. En muestras semejantes la amplitud puede ser muy diferente; basta que haya sujetos muy atípicos en los extremos.
En la distribución normal (simétrica, acampanada) media, mediana y moda coinciden en un idéntico valor.
63
CAPÍTULO 3
LA DISTRIBUCIÓN NORMAL
1. A PROXIMACIÓN INTUITIVA A LA DISTRIBUCIÓN NORMAL Posiblemente ya estamos familiarizados con la denominada distribución normal (o curva normal): la distribución simétrica y de forma acampana da que nos indica que la mayoría de los sujetos (u objetos) de una población determinada no se aparta mucho de la media: en la medida en que los sujetos se van apartando más de la media (porque se pasan o porque no llegan) van siendo menos y menos. Si representamos esta distribución mediante un histograma simplificado, tendríamos algo parecido a lo que vemos en la figura 1. Figura 1 Los sujetos que se van apartando más y más de la media van siendo menos La mayoría de los sujetos se encuentran próximos a la media de su grupo
65
El apartarse mucho de la media va siendo ya muy raro…
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Lo primero que debemos captar es que la distribución normal nos remite a nuestra propia experiencia. Si nos fijamos en la estatura de la gente que nos encontramos por la calle, vemos que la mayoría de la gente es de estatura normal, y aquí llamamos normal a lo más frecuente; de hecho si vemos a alguien que se aparta mucho de la media (de lo habitual) no pasa desapercibido y nos llama la atención. En la experiencia de cada día, normal y frecuente, aplicado a cualquier rasgo , son expresiones casi sinónimas. Cuando decimos que alguien es muy abierto y sociable, lo que queremos decir es que es más abierto y sociable de lo que es normal, de lo que solemos encontrar habitualmente, de la misma manera que decimos que una persona es muy callada cuando habla mucho menos que la mayoría de la gente. Casi sin dar nos cuenta estamos haciendo juicios relativos a lo que es normal encontrar en la generalidad de las personas: el mucho y el poco, o el muy, sobre todo aplicados a las características de las personas, dependen de lo que es más frecuente encontrar en nuestro medio. Si el muy abunda mucho, deja de ser muy para pasar a ser normal o frecuente y ya no merece el muy que solemos reservar para lo excepcional que viene a ser lo raro o infrecuente. Estos juicios, y esta distribución normal, son relativos a cada población: un pigmeo de una estatura normal, cercana a la media de su población y muy frecuente en su propio grupo, pasa a ser muy bajito y excepcional si lo incluimos en una población de escandinavos: se apar ta mucho de la media de esa población y será muy difícil encontrar un escandinavo con esa estatura. Sin embargo ese pigmeo tiene una estatura normal, que no se aparta mucho de la estatura media de su grupo. En ambos grupos, escandinavos y pigmeos, encontraremos una distribución normal en estatura, aunque las medias de los dos grupos sean muy distintas. Esta consideración (la normalidad es relativa a cada población) nos lle vará más adelante a una serie de aplicaciones relevantes en la investigación psicológica y educacional, no solamente para poder valorar si un resultado o dato individual es atípico (si se aparta mucho de lo normal o esperado), sino, por ejemplo, para determinar si unos sujetos que han pasado por una determinada experiencia pueden considerarse normales en la población de los que no han pasado por esa experiencia (en ese caso es posible que esa experiencia haya sido inútil). La distribución normal que representamos mediante la curva normal, es un modelo matemático teórico al que de hecho tienden a aproximarse las distribuciones que encontramos en la práctica: estadísticas biológicas, datos antropométricos, sociales y económicos, mediciones psicológicas y educacionales, errores de observación, etc.; es un modelo muy útil por su relación con el cálculo de probabilidades que nos va a per mitir hacer inferencias y predicciones.
66
LA DISTRIBUCIÓN NORMAL
2. C ARACTERÍSTICAS Y PROPIEDADES DE LA DISTRIBUCIÓN NORMAL El hecho de que las magnitudes según se van apartando de la media (en cualquiera de las dos direcciones) van siendo mucho menos frecuentes lo expresamos gráficamente mediante la curva normal, que es la representación gráfica de una función matemática que nos indica la probabilidad de encontrar (de que se dé por azar, por factores aleatorios) cualquier magnitud (o puntuación) si conocemos en cuántas desviaciones típicas se aparta de la media de su distribución. La diferencia con respecto a la media, medida en des viaciones típicas, es lo que llamamos una puntuación típica (z = X - X/ s ): a cada puntuación típica le corresponde una probabilidad de ocurrencia y esta relación entre diferencia con respecto a la media y probabilidad nos va a ser de la máxima utilidad; ampliamos la explicación en el apartado siguiente. La distribución normal es simétrica, unimodal, de forma acampanada (figura 2); su altura máxima (que indica el mayor número de sujetos) se encuentra en la media, que coincide con la moda y la mediana (expresado en términos más académicos, la ordenada máxima (Y) corresponde a una abscisa (X) igual a la media ). Figura 2
La distribución normal es continua, válida para cualquier valor de X (para cualquier puntuación o magnitud, representada en el eje horizontal de las abscisas). En la figura 2 están señalados los puntos que corresponden a la media (0) y a tres desviaciones típicas por encima y por debajo de la media. La distribución normal es asintótica, es decir, los extremos de la curva se extienden indefinidamente en ambas direcciones; la curva no toca el eje (ho-
67
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
rizontal) de las abcisas (siempre cabe la posibilidad de una magnitud muy extrema)1. En la práctica se considera que todos los casos están comprendidos entre -3 y +3 desviaciones típicas; las probabilidades de que un valor exceda estos límites son del .0026% (2.6 por mil); la amplitud de la distribución es por lo tanto de unas 6 desviaciones típicas (a efectos prácticos, aunque esto no es exacto y depende del número de sujetos). Los puntos de inflexión de la curva (puntos A y B en la figura 2) están a una desviación típica de la media. Atendiendo al grado de apuntamiento o curtosis que presenta, decimos de la curva normal que es mesocúrtica (representada por la línea continua en la figura 3). Para determinar la curtosis de cualquier otra distribución la comparamos con este modelo (figura 3), y así calificamos a las distribuciones más apuntadas que la normal leptocúrticas y a las menos apuntadas platicúrticas2. Figura 3
Mesocúrtica
Leptocúrtica
Platicúrtica
3. PROPORCIONES Y PROBABILIDADES EN LA DISTRIBUCIÓN NORMAL Ya hemos indicado que si conocemos en cuántas desviaciones típicas se aparta un sujeto (o una observación cualquiera) de la media, podemos cono Asintótica viene del griego asímptotos, ( asumptwtos que quiere decir que no coincide, que no toca. 2 Curtosis ( kurtwsis ) significa en griego curvatura; los prefijos griegos leptos, me sos y platys significan respectivamente delgado, medio y ancho. 1
68
LA DISTRIBUCIÓN NORMAL
cer la probabilidad que tiene de ocurrir. La proporción (o porcentaje si multiplicamos por 100) de casos esperados entre dos puntuaciones típicas determinadas (o por encima o por debajo de cualquier puntuación típica) es siempre el mismo. V emos en la figura 4 que, por ejemplo, entre la media (z = 0) y una desviación típica (z = + ó - 1) se encuentra el 34.13% de los casos, o, dicho de otra manera, la probabilidad de que una observación se encuentre entre la media y una desviación típica es de .34 Figura 4
34.13%
34.13% 2.15%
-3
-2
2.15%
13.59%
13.59%
-1
0
+1
+2
+3
La distribución normal nos permite conocer la probabilidad de que se dé una determinada magnitud expresada en puntuaciones típicas. Si nos fijamos en la figura 4, vemos que la probabilidad de que se dé una puntuación superior a z = 2 es el 2.15% (y otro 2.15% de probabilidades de que se dé una puntuación inferior a z = -2); la probabilidad de encontrar una puntuación superior a z = 1 es del 15.74% (13.59 + 2.15), etc. Estas probabilidades las tenemos en las tablas de la distribución normal, donde podemos ver la proporción de casos que caen por encima o por debajo de cualquier puntuación típica (o, lo que es lo mismo, la probabilidad de obtener una puntuación cualquiera por encima o por debajo de cualquier puntuación típica o entre dos puntuaciones típicas). Antes de acercar nos a las tablas y aprender a manejarlas es útil observar las figuras 5 y 6. Los porcentajes puestos en estas figuras son sólo aproximados (eliminando decimales); para muchos usos estas aproximaciones son un dato suficiente; en cualquier caso estas figuras nos ayudan en un primer momento a comprender la utilidad de la distribución normal y a utilizar las tablas en las que encontraremos los valores exactos.
69
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Figura 5 PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS LÍMITES DE LA CURVA NORMAL
En la figura 5 tenemos: a) La base (el eje de las abscisas, X) la hemos dividido en segmentos que comprenden media desviación típica (.5s ). El punto central corresponde a la media y tiene obviamente un valor de cero (no se aparta de la media, coincide con la media, z = 0). b) Vemos una serie de filas divididas en segmentos con distintos criterios, pero utilizando la desviación típica como unidad; y en cada segmento encontramos el porcentaje (aproximado) de casos que podemos esperar. Por ejemplo, si nos fijamos en algunas de estas filas: En la primera fila (comenzando por debajo) vemos que entre la media y media desviación típica (entre 0 y ±.5 s; la tabla es simétrica) cae aproximadamente un 20% de los casos, entre 1s y 1.5 s tenemos el 9 % de los casos, y por encima o por debajo de 2 s el 2% de los casos (también podemos decir que la probabilidad de obtener una puntuación típica superior a 2 es el de 2%, etc.). En la segunda fila entre -.5 s y +.5 s tenemos el 38% de los casos, por encima o por debajo de 1.5 s cae el 7 % de los casos.
70
LA DISTRIBUCIÓN NORMAL
En la tercera fila tenemos las mismas proporciones (redondeadas) ya vistas en la figura 4 pues los segmentos son de 1 s En la quinta fila vemos otro criterio para dividir la distribución: entre -.25s y +.25 s (en el centro de la distribución) tenemos el 20% de los casos, entre .+25 s y +.75 s (lo mismo que entre -.25 s y -.75 s ) tenemos el 17% de los casos; etc. Cada segmento comprende .5 s (menos los dos extremos) y tenemos en total nueve agrupaciones; si numeramos estas agrupaciones de 1 (comenzando por la derecha) a 9, en su momento veremos que se trata de los estaninos o eneatipos, unas puntuaciones muy utilizadas. En la sexta fila (o cuarta por arriba) vemos que por debajo de 2 s tenemos el 2% de los casos, y por encima el 98% de los casos, etc. Esta figura 5 no es de gran utilidad práctica, pero nos ayuda a entender la distribución normal y las tablas correspondientes que encontraremos en los textos. Figura 6 PORCENTAJES APROXIMADOS COMPRENDIDOS ENTRE DIVERSOS LÍMITES DE LA CURVA NORMAL
15%
70%
15%
5%
90%
5%
2.5%
95%
-1.96 -1.65
-1.04
2.5%
+1.04
+1.65 +1.96
La figura 6 es análoga a la figura 5 aunque está hecha con otros criterios; si nos fijamos con un poco de atención podemos ver: • El 70% central de los casos cae entre ± 1.04 s; y las probabilidades de obtener unas puntuaciones mayores que +1.04 s ó –1.04 s son del 15%.
71
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
• El 90% central de los casos caen entre ± s 1.65 s; y las probabilidades de obtener unas puntuaciones mayores que +1.65 s o –1.65 s son del 5%; naturalmente las probabilidades de encontrar una puntuación que supere 1.65 s independientemente del signo son del 10% (un 5% en cada extremo de la distribución). • El 95% central de los casos caen entre ± 1.96 s (1.957 con más exactitud); y las probabilidades de obtener unas puntuaciones mayores que +1.96 s o –1.96 s son del 2.5%; y las probabilidades de encontrar una puntuación que supere 1.96 s independientemente del signo son del 5% (un 2.5% en cada extremo de la distribución). • El 99% de los casos los tenemos entre ± 2.57 s y solamente un 1% de los casos supera este valor (.5% en cada extremo de la distribución). De todos estos valores hay dos que encontraremos con frecuencia en el estudio de los análisis estadísticos; son 1.96 y 2.57; la probabilidad de encontrar valores superiores (independientemente del signo) son respectivamente el 5% y el 1%, que son probabilidades aceptadas como límite convencional de lo probable. 4. CÓMO DIBUJAR LA CURVA NORMAL La altura (Y, y que representa la frecuencia o número de casos) en cualquier curva normal y en cualquiera de sus puntos (los valores de X, que representan la magnitud) guarda siempre una determinada proporción con la altura máxima (que corresponde a la media). Esos puntos están determinados en puntuaciones típicas (z): conocida una z, sabemos qué altura tiene la cur va en ese punto con respecto a la altura máxima (o mayor frecuencia) que cor responde a de la media (z = 0). Figura 7
% 0 0 1 % 2 , 8 8
% 1 , 1
-3
% 4 , 4
-2,5
% 5 , 3 1 % 5 , 2 3
-2
-1,5
% 2 , 8 8
% 7 , 0 6
-1
% 7 , 0 6
-0,5
0
72
0,5
1
% 5 , 3 1 % 5 , 2 3
1,5
2
% 4 , 4
2,5
% 1 , 1
3
LA DISTRIBUCIÓN NORMAL
En la figura 7 se dan las alturas de algunos puntos concretos; son unos puntos de referencia suficientes para dibujar la curva. Si por ejemplo la altura máxima es de 8 cm (la altura absoluta se escoge arbitrariamente), la altura correspondiente a +1 y -1 desviaciones típicas (los puntos de inflexión) será el 60.7% de 8cm, que es igual a 4.85 cm ([8/100]x 60.7). 5. CÓMO UTILIZAR LAS TABLAS DE LA DISTRIBUCIÓN NORMAL Las tablas de la distribución se pueden presentar de maneras distintas y hay que examinarlas en cada caso, pero la información es siempre la misma. Lo que habitualmente interesa conocer es la probabilidad de obtener una puntuación mayor o menor que una determinada puntuación típica. Recordamos que una puntuación típica indica la distancia o diferencia de una puntuación (u obser vación) con respecto a la media expresada en desviaciones típicas. La media corresponde siempre a z = 0; las puntuaciones típicas superiores a la media tienen el signo más y las puntuaciones típicas inferiores a la media tienen el signo menos. Cómo se utilizan las tablas de la distribución nor mal lo veremos con unos ejemplos3. 5.1. Puntuaciones típicas positivas (superiores a la media) Por ejemplo z = +1.64 1. Lo primero que tenemos que hacer es imaginar o dibujar una curva normal (figura 8) en la que la media (z = 0) divide la distribución en dos áreas de idéntico tamaño; por encima de la media cae el 50% de los casos y por debajo tenemos el otro 50% de los casos. Figura 8
3
Las tablas de la distribución normal se encuentran al final de esta publicación.
73
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
2. Como z = +1.64 es superior a la media, trazamos una línea por dónde más o menos cae z = +1.64, lo que importa es dibujarla a la derecha de la media (figura 9) que es donde están todos los valores positivos (figura 9). Figura 9
Observamos que el área total de la distribución queda dividida en dos partes, área mayor y área menor . Al menos estas áreas mayor y menor suelen figurar en todas las tablas. Vamos a las tablas para ver los valores que corresponden a z = 1.64: Puntuación típica 1.64
Área de la parte mayor .9495
Área de la parte menor .0505
Cómo se interpreta: Área de la parte mayor. a) La proporción de casos que caen por debajo de + 1.64 es de .9495 o (multiplicando por 100) el 94.95 % de los casos tienen una puntuación inferior a z = + 1.64. b) Si redondeamos los decimales tenemos que una puntuación de z = + 1.64 supera al 95 % de los casos o, lo que es lo mismo, que en la distribución nor mal una puntuación típica de +1.64 corresponde al Percentil 95. Área de la parte menor. a) La proporción de casos que caen por encima de + 1.64 es de .0505 o (multiplicando por 100 y redondeando) el 5 % de los casos tienen una puntuación superior a z = + 1.64.
74
LA DISTRIBUCIÓN NORMAL
b) La probabilidad de obtener una puntuación típica superior a + 1.64 es de .05 (sólo el 5 % de los casos superan a z = + 1.64), o, lo que es lo mismo, en la distribución normal una puntuación típica de -1.64 corresponde al Percentil 5. 5.2. Puntuaciones típicas negativas (inferiores a la media) Por ejemplo z = -1.64 (figura 10). Como z = -1.64 es inferior a la media (= 0), trazamos una línea por dónde más o menos cae z = -1.64, lo que importa ahora es dibujarla a la izquierda de la media (z = 0) que es donde están todos los valores negativos, como ya hemos visto en la figura 4. Figura 10
Ahora las áreas mayor y menor están invertidas (la curva es simétrica). Como en las tablas las puntuaciones típicas están sin signo más o menos, los valores son los mismos. Puntuación típica 1.64
Área de la parte mayor .9495
Área de la parte menor .0505
Lo que va a variar cuando la puntuación típica es negativa (inferior a la media) es la interpretación de las áreas mayor y menor.
75
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Área de la parte mayor El 95 % de los casos caen por encima de z = –1.64, o la probabilidad de obtener una puntuación superior a –1.64 es de .95 (o del 95 %). Área de la parte menor. a) La probabilidad de obtener una puntuación típica inferior a –1.64 es de .05 (o del 5 %) b) Una puntuación típica igual a –1.64 supera al 5 % de los casos, o, lo que es lo mismo, en la distribución normal una puntuación típica de z = – 1.64 equivale al Percentil 5. Las interpretaciones más útiles y frecuentes son las que están puestas en cursiva: 1. Probabilidad de obtener una puntuación típica superior si es positiva o inferior si es negativa. En ambos casos nos fijamos en el área menor. 2. Percentil equivalente a cualquier puntuación típica, o tanto por ciento de casos que caen por debajo porque son superados por esa puntuación típica: Si la puntuación típica es positiva Si la puntuación típica es negativa
percentil área mayor área menor
5.3. Puntuaciones típicas positivas o negativas (en términos absolutos) Con frecuencia nos interesa conocer las probabilidades de obtener una puntuación mayor en términos absolutos (superiores con signo más e inferiores con signo menos). Figura 11
76
LA DISTRIBUCIÓN NORMAL
En estos casos multiplicamos por dos el área menor, porque nos fijamos en los dos extremos de la distribución (figura 11). La probabilidad de obtener una puntuación superior a 1.64 en términos absolutos es de .10 o del 10 %; un 5 % por encima de +1.64 y otro 5 % por debajo de –1.64. Un caso de especial interés en estadística inferencial es el de la tabla 12, que cor responde a z = 1.96 Figura 12
La probabilidad de encontrar una puntuación superior a 1.96 (positiva o negativa, en términos absolutos) es del 5% (2.5% + 2.5%). El apartarse en 1.96 desviaciones típicas de la media (independientemente del signo) se considera ya muy inusual, muy poco probable; en muchos planteamientos de investigación los resultados convencionalmente normales (el 95%) se sitúan entre –1.96 y +1.96. 6. BREVE NOTA HISTÓRICA 4 La distribución normal ha sido descubierta y estudiada por diferentes personas de manera independiente, y no siempre se le ha atribuido a la misma persona. En lo que podríamos llamar historia de la distribución normal podemos destacar estos nombres. 1. Abraham De Moivre (último tercio del siglo XVII y primera mitad del XVIII) es el primer autor en publicar una explicación de la distribución Sobre la historia de la Distribución Normal puede verse Lane, David (2007) (en la referencias bibliográficas; dirección de Internet). 4
77
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
normal (en 1733) tal como la entendemos ahora5. El objetivo y el contexto son los juegos de azar (probabilidades de ganar…), aunque la preocupación de De Moivre era más teológica (el aparente desorden del Universo es consistente con un plan inteligente; el caos es aparente porque tiene sus normas, etc.). 2. El marqués de Laplace y Carlos Federico Gauss (matemáticos y astrónomos; ambos entre los siglos XVIII y primera mitad del XIX; Gauss fue un prodigio de las matemáticas) también estudiaron y desarrollaron la distribución normal (también denominada campana de Gauss), sobre todo, aplicada a la obser vación astronómica. Gauss denominó a esta distribución distribución de errores (en sus observaciones sobre la órbita de los asteroides); de Gauss es también el concepto de error típico de la media. 3. Quetelet (astrónomo belga) y Galton (ambos ya en el siglo XIX) son los primeros en descubrir y estudiar las aplicaciones de la distribución normal a las medidas de antropometría (altura, etc.) y a los fenómenos sociales, y de ahí se pasó a otro tipo de medidas (como de inteligencia y a otras ya en el campo de la psicología, educación, etc.). 4. Finalmente a Karl Pearson (1857-1936) le debemos el término de curva normal. A NEXO: L A DISTRIBUCIÓN NORMAL EN INTERNET En Internet existen varios programas sencillos en los que dada una puntuación típica nos dan las probabilidades exactas de obtener una puntuación típica: a) inferior (percentil) b) superior, c) entre dos puntuaciones típicas (la misma con distinto signo). d) superior en términos absolutos (fijándonos en las dos áreas menores, como en las figura 11 y 12) Un dirección muy cómoda es la de Surfstat.australia: an online text in introductory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/ , buscamos en el menú Tables y escogemos Standard Normal (hay otras opciones) que presenta gráficamente las diversas opciones (figura 13).
De Moivre deriva la distribución normal como una expansión de la distribución binomial. 5
78
LA DISTRIBUCIÓN NORMAL
Figura 13 a
b
0
Z
0
c
Z
-Z
z value
0
d
Z
-Z
0
Z
probability
Basta señalar la opción deseada en las representaciones de la distribución normal e introducir el valor de la puntuación típica ( z value ). En probability tendremos la probabilidad de que se dé una puntuación en el área sombreada (o tanto por ciento si multiplicamos por 100). Las dos opciones más frecuentes las vemos en la figura 14
Figura 14
0
-Z
0
Z
Z
Probabilidad de obtener una puntuación inferior (cualquiera que sea el signo). Si multiplicamos por 100 y eliminamos los decimales tenemos el percentil que corresponde a una puntuación típica en la distribución normal. Probabilidad de obtener una puntuación superior independientemente del signo. Se utiliza habitualmente en estadística inferencial para determinar si es muy improbable que un resultado sea casual.
79
CAPÍTULO 4
TIPOS DE PUNTUACIONES INDIVIDUALES
1. L AS PUNTUACIONES DIRECTAS Y SU TRANSFORMACIÓN La media, la desviación típica, y otros estadísticos, son medidas grupales: nos describen cómo es una muestra, pero en principio no nos dicen nada sobre cada sujeto concreto. Ahora nos ocupamos de los sujetos individuales que han respondido a un test de personalidad o de cualquier otro tipo, o han hecho un examen ¿Qué podemos decir de cada sujeto individual? ¿Qué información útil e interpretable se puede dar de cada sujeto?1 Una puntuación directa2 es el dato aportado directamente por el instrumento de medida, por ejemplo: Una altura de 1.65 m., Un total de 25 respuestas correctas en un test objetivo Un 5, que es como se ha codificado la respuesta muy de acuerdo en un cuestionario Un 32, que es la suma de las respuestas a una escala de actitudes El símbolo habitual de las puntuaciones directas es X (equis mayúscula). Estas puntuaciones directas no son siempre fáciles de interpretar, y tampoco son comparables entre sí a no ser que procedan de un instrumento similar. Por ejemplo no es lo mismo X = 20 o 20 respuestas correctas en un test de 25 preguntas, que X = 20 o 20 respuestas correctas en un test de 50 preguntas. Tampoco es lo mismo responder correctamente a 20 preguntas fáciles que a 20 preguntas difíciles. 1 2
Tanto este capítulo como el de la fiabilidad son importantes en psicometría. En inglés raw store también se traduce como puntaje bruto (en América Latina).
81
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Las puntuaciones directas necesitan con frecuencia algún tipo de transformación para que aporten información útil o simplemente para poder interpretarlas con facilidad, o para poder comparar resultados individuales obtenidos con instrumentos distintos. Es muy útil tanto entender estas transformaciones como saber hacerlas por estas razones: a) Para poder interpretar adecuadamente las normas de los tests. Estas normas o baremos son las claves para interpretar los resultados individuales; el usuario de los tests debe estar familiarizado con estos sistemas de transformación e interpretación de puntuaciones individuales. b) No se trata ya solamente de poder interpretar adecuadamente las normas de un test, sino también de construirlas, es decir, de preparar las claves de interpretación para otros usuarios. Aunque los tests vienen ya con sus normas, el preparar este tipo de normas o claves de interpretación puede ser necesario por una serie de razones profesionales: 1. En tests o escalas de construcción propia; 2. Los tests publicados vienen con sus propias normas de interpretación (en el manual del test); estas normas están hechas a partir de los datos obtenidos en una determinada muestra, pero si se utiliza el test con una muestra muy distinta, puede ser necesario rehacer esas normas con esa nueva muestra, ya que la muestra original puede no ser la adecuada como término de comparación en un nuevo grupo; lo mismo sucede cuando un test se adapta (o se traduce) para ser utilizado en otros ámbitos culturales. 3. Con el paso del tiempo las normas de interpretación pueden quedar obsoletas debido a diversos cambios sociales (puede variar incluso la capacidad lectora media, o las actitudes sociales, etc.); habrá que preparar normas actualizadas con una nueva muestra normativa (suele estimarse que la duración media de las normas de un test puede estar en torno a 10 años). c) Estas transformaciones de las puntuaciones directas también pueden ser útiles en planteamientos de evaluación o calificación. No deben entenderse o interpretarse estas modalidades de transformación de las puntuaciones directas como sistemas o modos de calificación, pero la infor mación que aportan puede ser también útil con esta finalidad. 2. PROPORCIÓN DE RESPUESTAS CORRECTAS En el caso de tests de rendimiento (pruebas objetivas) una transformación sencilla de las puntuaciones directas consiste en calcular la proporción
82
TIPOS DE PUNTUACIONES INDIVIDUALES
(porcentaje si multiplicamos por 100) de respuestas correctas. 20 respuestas correctas de un total de 25 es igual al 80 % de respuestas correctas (20/25 = .80); en cambio 20 respuestas correctas de un total de 50 es igual al 40 % de respuestas correctas (20/50= .40). Esta proporción de respuestas correctas aporta una información sobre cada sujeto que no es relativa al grupo y es especialmente útil en exámenes y otras pruebas de rendimiento académico (pruebas tipo test), cuando va a seguir una calificación. Pero no siempre hay respuestas correctas en sentido propio (por ejemplo en un test de personalidad o en una escala de actitudes). Otros tipos de puntuaciones que son relativas al grupo (como los percentiles ) son más útiles en otro tipo de medidas (tests de variables no cognitivas) y en cualquier caso, incluso en tests de rendimiento académico, aportan un tipo distinto de información que con frecuencia es de interpretación más útil y sencilla, o la única apropiada. 3. PUNTUACIONES DIFERENCIALES Se denominan puntuaciones diferenciales a la diferencia entre cada puntuación directa y la media de su distribución. Un símbolo frecuente de estas puntuaciones es x (equis minúscula) y también, para evitar confusiones con el símbolo de las puntuaciones directas (X, equis mayúscula ), a veces se utiliza d: x = d = (X -X) Las puntuaciones superiores a la media tendrán signo positivo, y las inferiores tendrán signo negativo. Estas puntuaciones no suelen utilizarse como expresión habitual de resultados individuales, pero intervienen en el cálculo de las puntuaciones típicas (y de la desviación típica como ya se vio en su lugar). 4. L AS PUNTUACIONES TÍPICAS 4.1. Qué son las puntuaciones típicas Una puntuación típica expresa en cuántas desviaciones típicas se aparta una puntuación individual de la media de su grupo. Las puntuaciones típicas son por lo tanto puntuaciones diferenciales (diferencias con respecto a la media) expresadas tomando como unidad la desviación típica ( s ). En las puntuaciones típicas sí se puede decir que hay una unidad, que es la desviación típica.
83
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El símbolo de las puntuaciones típicas es z (zeta minúscula); también suelen denominarse simplemente puntuaciones zeta y a veces puntuaciones estandarizadas ( standard score en inglés). Su fórmula es: Puntuación obtenida-media Puntuación típica (z) = –––––––––––––––––––––– desviación típica Y en símbolos convencionales
[1]
El valor de z indica por lo tanto cuántas desviaciones típicas contiene la diferencia X - X (a cuántas desviaciones típicas equivale esa diferencia); la des viación típica es ahora nuestra unidad de medición; el dato individual lo expresamos en términos de desviaciones típicas por encima o por debajo de la media. Por ejemplo imaginemos los resultados de tres sujetos (suponemos que la muestra es mayor) en un examen; la media es X = 10 y la desviación típica es s = 2 (tabla 1) Tabla 1
La puntuación directa de estos tres sujetos ha quedado transformada en un nuevo valor. En este ejemplo ya podemos ir viendo que: a) Si un sujeto tiene un resultado igual a la media, su puntuación típica será igual a cero; al restar a todos la media, el que tenga como resultado personal la media se queda en cero. b) Todos los que tengan una puntuación directa superior a la media, tendrán una puntuación típica con signo positivo; c) Todos los que tengan una puntuación directa inferior a le media, tendrán una puntuación típica con signo negativo.
84
TIPOS DE PUNTUACIONES INDIVIDUALES
Todos los datos quedan por lo tanto distribuidos en torno a una media = 0. El orden de los sujetos es naturalmente el mismo (el primero sigue siendo el primero, etc.), pero los valores absolutos son muy distintos. Por lo general estos valores, de signo más y signo menos, tienen decimales (se suelen conser var dos decimales) y los valores extremos tienden a estar entre -3 y + 3 cualquiera que sea la magnitud de las puntuaciones originales; es muy difícil superar estos valores por encima o por debajo como se ha visto al tratar de la distribución normal. Ya podemos ir intuyendo la utilidad de estas puntuaciones típicas, por ejemplo para comparar y valorar resultados individuales. De todas las puntuaciones derivadas, las puntuaciones típicas son probablemente las más interesantes y las más útiles. Su relación con la distribución normal las hace sumamente útiles. 4.2. Propiedades de las puntuaciones típicas Las puntuaciones típicas tienen propiedades que las hacen especialmente útiles: 1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al número de sujetos: Sz2= N
porque
Esta propiedad no tiene especial interés práctico, pero se utiliza en algunas demostraciones (por ejemplo, para demostrar que la desviación típica de las puntuaciones típicas es igual a 1, lo mismo que el valor máximo del coeficiente de correlación de Pearson). 2º La media de las puntuaciones típicas es igual a cero: Sz porque z = –––––= 0 N las zetas negativas y positivas se anulan mutuamente. Z=0
Si la media de las puntuaciones típicas es cero, todas las puntuaciones directas superiores a la media tendrán una puntuación típica positiva, y si son inferiores a la media, tendrán una puntuación típica negativa. 3º La desviación típica y la varianza de las puntuaciones típicas es igual a la unidad:
85
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El que la desviación típica de las puntuaciones típicas sea igual a 1 tiene consecuencias importantes. En una combinación de puntuaciones parciales, la que pesa más en la media final es aquella con una mayor desviación típica. Si calculamos una media a partir de las puntuaciones típicas, todas las puntuaciones parciales pesarán lo mismo, porque todas tendrán idéntica desviación típica. 4º Si sumamos a todas las puntuaciones directas una constante, la desviación típica per manece idéntica, porque se mantienen idénticas las distancias con respecto la media. Lo podemos ver en las tres series de puntuaciones puestas en la tabla [2]. Tabla 2
En B hemos sumado 12 puntos a cada sujeto con respecto a A, y en C hemos sumado 80 a las puntuaciones de B. Naturalmente las medias son distintas, pero las desviaciones típicas son idénticas porque las distancias inter-indi viduales son las mismas: el grado de homogeneidad (diferencias de los sujetos con respecto a su media) de los tres gr upos es el mismo. 5º Si multiplicamos todas las puntuaciones directas por una constante, la desviación típica queda multiplicada por esa constante, porque en esa cantidad ha aumentado la diferencia con respecto a la media. Lo vemos en este ejemplo: grupo A: 8 grupo B (= Ax2): 16
10 20
12 24
media: 10 media: 20
s = 1.63 s = 3.26
Al multiplicar por dos las puntuaciones del grupo A, la desviación típica (lo mismo que la media) también queda multiplicada por dos (1.63 x 2 = 3.26). Estas dos propiedades son importantes porque nos permiten transformar las puntuaciones típicas en otras más cómodas; son las puntuaciones tipificadas que veremos más adelante.
86
TIPOS DE PUNTUACIONES INDIVIDUALES
6º En la distribución normal hay una relación exacta entre cada puntuación típica y el número de casos que caen por encima y por deba jo de cada puntuación, o lo que es lo mismo: a) En la distribución normal conocemos la probabilidad que tiene de ocurrir cada puntuación típica, b) En la distribución normal a cada puntuación típica le corresponde siempre el mismo percentil (o proporción de sujetos o casos que caen por debajo de esa puntuación). En estas propiedades radican muchas de las ventajas y de los usos de estas puntuaciones y de sus puntuaciones derivadas, que veremos a continuación, como son las puntuaciones tipificadas y las puntuaciones normalizadas. 4.3. Utilidad de las puntuaciones típicas 1. Al traducir todas las puntuaciones directas a puntuaciones típicas tenemos una única escala métrica cualquiera que sea la magnitud de las puntuaciones originales, por lo que podemos comparar unos resultados con otros con más objetividad y realismo que si lo hacemos con las puntuaciones directas. Podemos comparar , por ejemplo, peso con altura (¿qué es más, 58 Km. de peso ó 1.69 m de altura?) o 20 respuestas correctas en un examen de 30 preguntas con otro resultado de 20 respuestas correctas en un examen de 50 preguntas. Todo tipo de puntuación, cualquiera que sea la unidad original, queda transformado en un sistema común; por lo tanto se puede comparar todo con todo: resultados de exámenes con niveles de dificultad muy distintos, calificaciones puestas con criterios de exigencia distintos, etc., y también resultados que provienen de instrumentos distintos cuyas puntuaciones directas no serían comparables (por ejemplo si el número de preguntas es distinto, o si una es una pr ueba objetiva y otra una prueba abierta, etc.). Además ya sabemos que en las puntuaciones típicas la media es siempre 0 y la desviación tí pica es siempre 1 por lo que las puntuaciones superiores a la media son positivas, y las puntuaciones inferiores a la media son negativas. Una puntuación que coincida con la media del gr upo, equivale siempre a una puntuación típica de cero. 2. Concretamente en el caso de exámenes (y en otros casos, pero el ejemplo de los exámenes es muy claro) las puntuaciones típicas reflejan mejor dónde está un sujeto (en términos relativos, comparado con el resto de los sujetos) independientemente de la facilidad o dificultad del examen. Tenemos por ejemplo estos datos de dos exámenes de 20 preguntas (con distinta media e idéntica desviación típica):
87
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
media: desviación típica
examen fácil 18 1.6
examen difícil 8 1.6
Un alumno que en el examen fácil tenga 13 respuestas correctas tendrá esta puntuación típica: No es un mal resultado en términos absolutos (65% de respuestas correctas) pero la puntuación típica es muy baja; no sabe lo que sabe la mayoría de sus compañeros. Un alumno que en el examen difícil también tenga 13 respuestas correctas tendrá esta puntuación típica: Tiene también un 65% de respuestas correctas, pero la puntuación típica es muy alta; este alumno sabe lo que no sabe la mayoría de sus compañeros. Estas puntuaciones típicas reflejan mejor lo que saben estos alumnos teniendo en cuenta la facilidad o dificultad del examen. Vamos a verlo con un ejemplo real: 48 alumnos responden a tres supuestos exámenes; cada examen consta de 8 preguntas, que son los nombres de otras tantas ciudades; los alumnos tienen que responder identificando el país donde está cada ciudad. En un examen se trata de ciudades fáciles, en otro de ciudades menos fáciles y en el tercero de ciudades pretendidamente difíciles. En la tabla 3 tenemos las distribuciones de frecuencias, la media y desviación de cada examen y la puntuación típica que cor responde a cada resultado en cada uno de los tres exámenes3.
Ciudades más fáciles: Londres, Oporto, Venecia, Canberra, Dublín, Milán, Coimbra y Bruselas. Ciudades menos fáciles: Montreal, Toronto, Madrás (ahora Chennai), Macao, Yakarta, Bucarest, Praga y Orán. Ciudades difíciles: Iquitos, Manaos, Zamboanga, Sanaa, Cahabón, Chichicastenango, Champerico y Kuala-Lampur (Iquitos está en Perú, Manaos es la capital de la amazonía brasileña, Zamboanga está en la isla filipina de Mindanao, Sanaa es la capital del Yemen, Kuala-Lampur es la capital de la Federación Malaya; Cahabón, Chichicastenango y Champerico no tienen especial dificultad si se conoce Guatemala). 3
88
TIPOS DE PUNTUACIONES INDIVIDUALES
Tabla 3
Qué podemos observar en estos datos. Al menos podemos fijarnos en que la puntuación típica más alta es z = 5.99 en el examen más difícil: saber tres ciudades difíciles es mucho más que saber las ocho fáciles (z = 1.57), e incluso conocer una sola ciudad difícil (z = 1.82) supone más que conocer las ocho fáciles. También conocer donde están cuatro ciudades de las menos fáciles (z = 1.64) es más que conocer todas las fáciles. Si nos fijamos en las puntuaciones típicas más bajas de cada examen, vemos que la más baja corresponde a conocer dos ciudades fáciles (z = -2.61) y el no conocer ninguna ciudad difícil tiene una puntuación mayor (z = -.26) que conocer solamente cinco ciudades fáciles (z = -.52). Cuando las medias de dos exámenes (por ejemplo) son idénticas (o muy parecidas) pero las desviaciones típicas son muy distintas, las puntuaciones típicas que corresponden a cada puntuación directa pueden ser también muy distintas. Vamos a suponer que tenemos tres puntuaciones directas, 14, 12 y 10, obtenidas en dos exámenes distintos y que son en este ejemplo el número de respuestas correctas de tres alumnos (tabla 4). En los dos exámenes la media es la misma (e igual a 12; lo suponemos así) pero las desviaciones típicas son muy distintas ( s = 2 en el examen A y s = 4 en el examen B). En cada caso el mismo número de respuestas correctas (puntuación directa) va a equivaler a puntuaciones típicas muy distintas. Tabla 4
89
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Aquí vemos que un resultado de: 14 respuestas correctas vale más en el examen A (z = +1) que en el examen B (z = +0.5) 10 respuestas correctas vale menos en el examen A (z = -1) que en el examen B (z = -0.5) Es decir , una misma diferencia con respecto a la media equivale a una puntuación típica mayor (positiva o negativa) en la medida en que la desviación típica es más pequeña. Dicho de otra manera, una diferencia con respecto a la media es mayor al convertirla en una puntuación típica cuando el grupo es más homogéneo (y tiene una desviación típica pequeña). Y el estar por debajo de la media resulta en una puntuación típica también más baja cuando el grupo es más bien homogéneo. 3. Las puntuaciones típicas permiten calcular medias, si se desea, sin que ninguna puntuación parcial pese más que otra, pues en todas las puntuaciones parciales la desviación típica es la misma (siempre s = 1 en las puntuaciones típicas). Esto puede ser especialmente útil cuando las calificaciones (u otro tipo de datos) proceden de profesores distintos, o de exámenes o situaciones muy distintas: podemos calcular la puntuación típica de cada sujeto en cada situación y calcular la puntuación típica media; en este caso todas las puntuaciones parciales pesan en principio lo mismo. Si se desea que alguna puntuación parcial pese más por alguna razón, se puede ponderar después esa puntuación parcial ya convertida en típica (o tipificada como veremos después). Estas puntuaciones típicas medias se pueden convertir después en calificaciones convencionales. 4. Las puntuaciones típicas permiten apreciar resultados atípicos, objetivar mejor resultados extremos ya que sabemos las probabilidades de ocurrencia de cada puntuación típica. Esto es posible dada la relación entre las puntuaciones típicas y la distribución normal. Si conocemos el valor de una puntuación típica, podemos conocer la probabilidad que tiene de darse por azar (nos basta consultar las tablas de la distribución normal). En general un 68% del grupo está entre +1 y -1 puntuaciones típicas (entre esos límites se puede considerar que está aproximadamente la normalidad estadística), y puntuaciones que superen +2 o no lleguen a -2 son aproximadamente el 5%. Prácticamente el 100% de los casos está comprendido entre z = +3 y z = -3. En un ejemplo ilustrativo puesto antes, 13 respuestas cor rectas en el examen fácil es un resultado atípicamente bajo, y en el examen difícil 13 respuestas correctas es un resultado atípicamente alto. En los exámenes de ciudades de la tabla 3, conocer 7 ciudades de las no tan fáciles o 3 de las más difíciles son resultados anormalmente altos. 5. Las puntuaciones típicas pueden ser un buen marco de referencia (aunque no necesariamente) para establecer criterios de calificación, pero
90
TIPOS DE PUNTUACIONES INDIVIDUALES
teniendo siempre en cuenta que se trata de puntuaciones relativas al gru po, por lo que es discutible utilizarlas para establecer el nivel mínimo para el apto (que es preferirle determinar con otros criterios; el que sabe menos puede saber lo suficiente). Es menos cuestionable su uso para asignar las calificaciones más altas (una puntuación típica en torno a +2, e incluso menor, indica ya un resultado excelente para lo que de hecho da de sí un determinado grupo). 6. Para interpretar debidamente las puntuaciones típicas hay que tener en cuenta de qué tipo de datos se trata: no es lo mismo número de respuestas correctas en una prueba objetiva que las calificaciones puestas por el profesor al corregir un examen abierto, notas, etc. En principio estos cálculos son de interpretación más clara cuando están hechos a partir de puntuaciones o resultados directos más que cuando los números expresan calificaciones o juicios de valor. 4.4. Puntuaciones tipificadas (puntuaciones típicas transformadas) Las puntuaciones tipificadas son puntuaciones derivadas de las puntuaciones típicas. El símbolo general de las puntuaciones tipificadas es Z (zeta ma yúscula); algunas puntuaciones tipificadas tienen sus símbolos particulares. Las puntuaciones típicas son incómodas para expresar resultados porque: a) Prácticamente siempre tienen decimales, b) Más o menos la mitad de las puntuaciones típicas tienen signo menos (todas las inferiores a la media). Por estas razones, y sobre todo para poder expresar resultados de tests de manera más fácilmente comprensible, suelen transformarse en otras puntuaciones más cómodas. Se trata de una transfor mación linear, cuya fórmula genérica es Z = (z • a) + b [2] donde a y b son dos constantes. Es decir, todas las puntuaciones típicas: 1º Se multiplican por una cantidad constante (a) y así se eliminan los decimales (estas puntuaciones se redondean y se expresan sin decimales); 2º Se les suma una cantidad constante (b) y así se elimina el signo menos. Entre las puntuaciones tipificadas son muy utilizadas las puntuaciones T: T = 10z + 50 [3] También es frecuente hacer estas transformaciones: Z = 20z + 100 Z = 15z + 100 Z = 100z + 500
91
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Al tipificar una serie de puntuaciones, automáticamente tenemos una nueva media y una nueva desviación típica, que son siempre las mismas cualquiera que sea la escala métrica de las puntuaciones directas originales: 1. La nueva media es igual a la constante que se suma a todas las puntuaciones. Un sujeto cuya puntuación directa coincidiera con la media de la distribución, tendría z = 0, y su puntuación T (fórmula [3]) sería 10(0) + 50 = 50; si la constante que se suma es 100, la media sería 100, etc. 2. La nueva desviación típica es igual a la constante por la que se han multiplicado las puntuaciones típicas. Un sujeto cuya puntuación directa supere en una desviación típica a la media, tendría una puntuación típica de z = 1, y su puntuación T sería T = 10(1) + 50 = 60 (la media, 50, + 1 s = 50 +10). Podemos establecer que los valores de la media y de la desviación sean los que queramos. Si deseamos transformar las puntuaciones de manera que la media sea 20 y la desviación típica valga 5, tendremos que Z = 5z + 20, etc. Lo mismo que en las puntuaciones típicas, a cada puntuación tipificada le corresponde en la distribución normal el mismo percentil. Las puntuaciones tipificadas resultan mucho más fáciles de interpretar que las puntuaciones directas, sobre todo cuando se trata de tests. Si los resultados de un test de inteligencia se han transformado de esta manera (como es frecuente) Z = 20z + 100: Un sujeto con una puntuación de 100 está en la media (porque a la media le corresponde una z igual a 0: (20)(0)+100 = 100. Un sujeto que tenga 160 supera a la media en tres desviaciones típicas (100 +20 +20 +20); que es ya excepcional. Un sujeto que tenga 60 (100 - 20 -20) está a dos desviaciones típicas por debajo de la media, y ya se va apartando mucho de la normalidad . 5. PERCENTILES 5.1. Concepto e interpretación 1º Los percentiles indican el tanto por ciento de sujetos que están por deba jo de cada puntuación. Los percentiles son por lo tanto fáciles de interpretar, de entender y de comunicar. Si un sujeto con una puntuación de 19 (en un test, en una prueba objetiva, etc.) supera al 45% de su grupo:
92
TIPOS DE PUNTUACIONES INDIVIDUALES
La puntuación 19 es el percentil 45 (P45 ), Del sujeto se dice que tiene un rango percentil de 45. El percentil indica la posición relativa del sujeto en el grupo, sin referencia a niveles absolutos. En sentido propio no se trata de una puntuación porque no está referido al rasgo o variable que se ha medido; no hay una uni dad : entre dos percentiles contiguos no hay la misma distancia en aquello que estamos midiendo. Así si un sujeto en un examen está en el Percentil 80, no podemos decir que sabe el doble del que esté en el Percentil 40, sino que tiene por debajo el doble número de sujetos. Por ejemplo, un sujeto que tenga en un examen de conocimientos un rango percentil de 98 supera al 98% de su clase, pero esto no quiere decir que sepa mucho en tér minos absolutos, sino que sabe más que la mayoría. Y a la inversa, un sujeto puede estar en el Percentil 5 (el 95% está mejor que él) y saber lo suficiente. Por esta razón los percentiles pueden ser muy discutibles como dato para establecer calificaciones. Naturalmente si los percentiles de un test de conocimientos se han calculado en una muestra muy amplia (no en una clase normal), tiene más sentido decir que el que esté en el percentil 95 sabe mucho y que el que esté en el percentil 5 sabe poco, pero en definitiva siempre hay que sobrentender com parado con los demás que han respondido a ese test y con los que se calcularon esos percentiles. Si no se trata de un examen de conocimientos, sino, por ejemplo, de un test de neuroticismo posiblemente podemos decir, y tiene sentido, que el sujeto que esté en el percentil 95 es muy neurótico, porque en el lenguaje con vencional solemos decir que una persona es muy simpática, o muy sociable, etc. cuando es más simpática, sociable, etc. de lo normal, y lo normal es lo que solemos ver en la mayoría de la gente. Pero hay que tener claro que siem pre se trata de valoraciones relativas al grupo cuyas respuestas han servido para calcular esos percentiles. 2º Para interpretar adecuadamente los percentiles individuales, estos tienen que estar calculados en una muestra de referencia apropiada. Como el marco de referencia para interpretar los percentiles es el grupo, no se debe comparar (y evaluar, juzgar) a un sujeto tomando como referencia un gr upo que no sea o no pueda ser el suyo. Hace falta siempre un gr u po de referencia apropiado. Las normas de interpretación (o baremos) que vienen publicadas en muchos tests son con frecuencia percentiles (puede tratarse de otro tipo de puntuaciones) calculados previamente en una muestra distinta. Siempre hay que considerar si esa muestra es un buen grupo de referencia (y por lo tanto un buen término de comparación) para los nuevos sujetos que responden al
93
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
test. En cualquier caso este tipo de normas de interpretación (percentiles y otras) hay que renovarlos cada cierto tiempo (como ya hemos indicado, la edad media de un test, o más bien de sus baremos o normas de interpretación, puede no ser superior a 10 años; con el tiempo pueden variar actitudes sociales, niveles educativos, capacidad lectora, etc.). Con frecuencia es preferible calcular unos nuevos percentiles para muestras quizás muy distintas de las que sir vieron para hacer los baremos originales (y esta observación es válida también para otros tipos de normas de los tests, no sólo para los percentiles). 3º Algunos percentiles tienen nombres y símbolos específicos: 1. Deciles: son los percentiles 10, 20, etc., y se simbolizan D 1, (= P10 ), D2, (= P20 ), etc. 2. Cuartiles: son los percentiles que dividen al grupo en cuatro partes con idéntico número de sujetos (el 25%): Q3 (tercer cuartil) = P75: por encima está el 25 % de la muestra; Q2 ( segundo cuartil) = P50; se trata de la mediana, que se utiliza como medida de tendencia central; divide al grupo en dos partes iguales Q1 (primer cuartil) = P25: por debajo está el 25% de la muestra Estos tres valores se calculan a veces como puntos de referencia y para hacer determinadas representaciones gráficas (como los diagramas de cajas ). 4º Con los valores de Q1 y Q 3 se calcula la desviación semi-intercuartílica: [4]
Desviación semi-intercuartílica:
a) La desviación semi-intercuartílica Q es la medida de dispersión que se utiliza cuando la medida de tendencia central es la mediana. Mide la dispersión en el 50% central de la muestra. Lo podemos ver con los datos concretos de un test en la figura 1. b) Tanto los deciles como los cuartiles se calculan por el método de inter polación que veremos más adelante. c) Los valores de Q1 y Q3 se calculan con decimales cuando se van a utilizar en el cálculo de Q. d) La mediana y Q, como medidas de tendencia central y dispersión, se utilizan preferentemente con distribuciones muy asimétricas y en cualquier caso son medidas descriptivas complementarias, aunque menos utilizadas que la media y la desviación típica; e) La mediana y Q, como medidas de tendencia central y dispersión, son especialmente útiles siempre que se prefiera que sujetos con puntua-
94
TIPOS DE PUNTUACIONES INDIVIDUALES
Figura 1
ciones muy extremas no influyan en las medidas de tendencia central y de dispersión porque en su cálculo sólo se tiene en cuenta el 50% central de la muestra. 5º Una limitación importante es que entre percentil y percentil no hay una unidad constante en sentido propio y referida a aquello que se está mi diendo. Del Percentil 95 al 90 no hay la misma distancia que del Percentil 45 al 40; sí hay una proporción igual de sujetos (un 5%), pero no una cantidad de ciencia (o de otra variable o rasgo) igual. Por la misma razón no se puede afirmar que el que esté en el Percentil 80, si se trata de un test de conocimientos, sabe el doble del que esté en el Percentil 40 (o que es el doble de neurótico si se trata de un test de neuroticismo). De hecho las distancias en la variable medida son mucho mayores entre los percentiles extremos (muy altos o muy bajos) que entre los percentiles del centro de la distribución (entre el Percentil 80 y el 85, o entre el 10 y el 15, hay más distancia que entre el Percentil 40 y el 45). Al no haber una unidad no se pueden sumar y calcular percentiles medios pues se prestan a interpretaciones equívocas. Si los diversos percentiles son muy parecidos, la información del percentil medio ofrece menos distorsión, pero en principio no se deben hacer manipulaciones aritméticas con los percentiles porque se trata de puntuaciones ordinales; para hacer operaciones aritméticas con los percentiles se deben convertir antes en puntuaciones típicas (que a su vez se pueden después convertir en percentiles según la distribución normal). Una manera de entender o más bien de visualizar que entre percentiles contiguos no hay una unidad en sentido propio es imaginarlos como una es-
95
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
calera de peldaños de altura desigual: los peldaños de los extremos (los más altos y los más bajos) son mayores, de mayor altura que en el centro. Esto se entiende mejor al ver la relación entre percentiles y puntuaciones típicas en la distribución normal. 6º En la distribución normal existe una correspondencia exacta entre percentiles y puntuaciones típicas. En la distribución normal, a cada percentil le corresponde siempre la misma puntuación típica. El que por ejemplo supere a la media en una desviación típica (z = 1), estará en el Percentil 84 (aproximadamente). Tabla 5
En la tabla 5 podemos ver: 1º Cómo a una puntuación típica de z = 0 (la media), le corresponde el percentil 50 (caen por debajo el 50% de los sujetos); a una z = 1, le corresponde el percentil 84 (caen por debajo el 84% de los sujetos), etc.; en las tablas de la distribución normal podemos encontrar los percentiles exactos para cada puntuación típica. 2º Cómo los percentiles se acumulan en el centro de la distribución; por ejemplo, entre z = 0 y z = 1 hay 34 percentiles, en cambio entre z = +1 y z = +2 hay 14 percentiles, y por encima de z = +2 (como por debajo de z = -2) solamente hay dos percentiles. La misma cantidad (de lo que se esté midiendo) está repartida de manera desigual; dicho en términos simples, los percentiles extremos tocan a más (como se puede observar en la tabla 5). Esto es lo que quiere decir que entre los percentiles no hay una unidad, y que la distancia entre percentil y percentil en aquello que se mide (no en número de sujetos) es mayor en los extremos de la distribución. Un percentil más o un percentil menos por el centro de la distribución, no supone una diferencia importante, pero sí en los extremos. Por esta razón en la interpretación de los tests (por ejemplo de personalidad) hay que prestar más atención a los percentiles extremos.
96
TIPOS DE PUNTUACIONES INDIVIDUALES
En la figura 2 podemos ver también (gráficamente y de manera aproximada) cómo una misma diferencia en percentiles no corresponde a diferencias iguales en puntuaciones típicas, donde sí cabe hablar de una unidad (la des viación típica). Figura 2
Entre los percentiles 95 y 75 existe la misma diferencia en percentiles que entre los percentiles 75 y 55, pero si substituimos los percentiles por las puntuaciones típicas que les corresponden, las diferencias son muy desiguales. Del percentil 75 al 95 hay una distancia mayor (.97 s ) que del percentil 55 al 75 (.55 s ) cuando utilizamos como unidad la desviación típica. 5.2. Cálculo de los percentiles Hay varios métodos para calcular los percentiles: 1. El cálculo directo; es el más frecuente y se utiliza siempre que deseamos calcular los percentiles para la interpretación de resultados individuales. 2. El cálculo por interpolación: se utiliza sobre todo cuando interesa conocer el valor de percentiles específicos que quizás (y frecuentemente) ningún sujeto ha obtenido (como la mediana, o Percentil 50 y los Percentiles 75 y 25, y otros como los deciles ). 3. También podemos calcular los percentiles mediante el gráfico de las frecuencias relativas acumuladas. 4. Podemos calcular también los percentiles a partir de los valores de la media y de la desviación típica (y puede ser muy útil cuando no dis-
97
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
ponemos de todos los datos de todos los sujetos), pero ya veremos que en este caso se trata de percentiles normalizados (los que corresponden a la distribución normal, y lo veremos al tratar las puntuaciones normalizadas ). 5.2.1. Cálculo directo Es el cálculo habitual de los percentiles. Lo explicamos con un ejemplo resuelto en la tabla 6. Tabla 6
Los símbolos utilizados son: X = Puntuaciones directas, ordenadas de mayor a menor. En este ejemplo están agrupadas de tres en tres para que no haya un número excesivo de intervalos o de divisiones. Lo habitual es agrupar las puntuaciones directas para que no haya un número excesivo de in-
98
TIPOS DE PUNTUACIONES INDIVIDUALES
tervalos; unos 10 ó 12 es lo normal; más de 15 puede ser ya excesi vo (cómo hacer esta agrupación está explicado al comienzo, al tratar de la distribución de frecuencias). i = Valor o amplitud del intervalo; aquí i = 3 porque las puntuaciones están agrupadas de tres en tres. Si las puntuaciones estuvieran sin agrupar (una sola puntuación en cada intervalo) tendríamos i =1. No hay que confundir el número de intervalos (10 en este caso), con el valor del intervalo (que interviene en algunas fórmulas, como en el cálculo de percentiles por interpolación). f = Frecuencia, o número de casos en cada intervalo. fa = Frecuencias acumuladas: se van sumando las frecuencias de abajo arriba. La frecuencia acumulada en el intervalo superior debe ser igual al número de sujetos (es útil caer en la cuenta para detectar posibles errores; en este caso N = 40 = fa en el intervalo más alto). fam= Frecuencias acumuladas al punto medio; a cada frecuencia acumulada se le resta la mitad de su f correspondiente. También se calculan a veces los percentiles a partir de las frecuencias acumuladas (P = [fa/N] 100), pero lo convencional es hacerlo a partir de las frecuencias acumuladas al punto medio. La razón de hacerlo así es porque suponemos que cada uno de los que están en cada intervalo (si pudiéramos matizar mucho la medición) superan a la mitad de los que tienen idéntica puntuación y tienen por encima a la otra mitad. Se supone que los que aparecen igualados en realidad son distintos y así aparecerían si los midiéramos matizando más. P = Percentil, o tanto de por ciento de sujetos que caen debajo de ca da puntuación. Los percentiles se redondean y se presentan sin decimales. En la tabla 6 vemos que un sujeto con una puntuación directa (número de respuestas correctas, suma de todas sus respuestas, etc.) que esté entre 26 y 28, tiene un rango percentil de 72, o tiene por debajo (supera) al 72% del grupo en el que se han calculado los percentiles. 5.2.2. Cálculo por interpolación Con frecuencia interesa conocer el valor de determinados percentiles; por ejemplo: La mediana o P50, y los percentiles 75 y 25 (P75 o Q3 y P25 o Q1 ) como datos descriptivos o para calcular la medida de dispersión Q, Los deciles (P10, P20, P30, etc. también simbolizados como D 1, D2, D3, etc.) para simplificar la interpretación de un test, dando sólo estos percentiles como referencia.
99
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El cálculo directo de los percentiles no suele darnos estos valores a no ser que un sujeto los haya obtenido, por lo que es necesario hacer el cálculo por interpolación. El procedimiento puede parecer complicado a primera vista, pero es muy simple si se procede con orden y se tiene a la vista un ejemplo resuelto, como lo hacemos aquí con los datos de la tabla 7. Tabla 7
Vamos a calcular, por ejemplo, el Percentil 75. Corresponderá a la puntuación que deje por debajo al 75% de la muestra. 1º Calculamos el número de sujetos que necesitamos. El 75% de 58 es igual a (58)(.75) = 43.5. El Percentil 75 será la puntuación que deje por debajo a 43.5 sujetos o 75% de 58. 2 º Buscamos en las frecuencias acumuladas, el número de sujetos que necesitamos, que son 43.5 En este caso, como ninguna puntuación deja por debajo a 43.5 sujetos, localizamos la frecuencia acumulada inmediatamente inferior a la que vamos buscando, que es 42; en la siguiente, que es 50, ya nos hemos pasado. 3º Identificamos el límite superior de la puntuación que corresponde a la frecuencia acumulada localizada en el paso 2º; en este caso el percentil 75 tendrá un valor de por lo menos 16.5 (sumamos medio punto, .5, al valor superior del intervalo). 4º Calculamos el número de sujetos que todavía nos faltan.
100
TIPOS DE PUNTUACIONES INDIVIDUALES
Tenemos 42 y necesitamos 43.5, por lo tanto nos faltan 1.5 sujetos (= número de sujetos que necesito [paso 1º] menos número de sujetos que tengo [paso 2º]). 5º Del intervalo siguiente tomamos la parte proporcional de sujetos que necesitamos; para esto dividimos el número de sujetos que nos faltan por la frecuencia (o número de sujetos) del intervalo inmediatamente superior : 1.5/8 = .1875 6º Esta cantidad la multiplicamos por el valor del intervalo. El valor del intervalo es igual al número de puntuaciones que hay en cada intervalo; en este caso este valor es igual a 1 porque las puntuaciones van de una en una. Si estuvieran agrupadas de dos en dos (9-10, 11-12, etc.) el valor del intervalo sería igual a dos. 7º La cantidad calculada en el paso anterior la sumamos al límite su perior del intervalo inferior al que contiene el percentil buscado (paso 3º), con lo que el valor del Percentil 75 será igual a 16.5 +.1875 = 16.69. Expresando todas las operaciones hechas tendríamos que:
Si vamos a utilizar este valor para interpretar las puntuaciones de un test o como dato descriptivo, redondeamos los decimales y obtendremos P 75 = 17. Si vamos a utilizar este valor para otros cálculos (por ejemplo para calcular le valor de Q), dejamos los decimales. La fórmula de los percentiles calculados por interpolación podemos expresarla tal como se indica en la figura 3 Figura 3
5.2.3. Cálculo de los percentiles mediante la representación gráfica de las frecuencias relativas acumuladas Una representación gráfica frecuente de las puntuaciones directas es la de las frecuencias relativas acumuladas. La utilidad de esta representación gráfica está en que permite un localizar de manera muy aproximada, sin hacer
101
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
ningún cálculo, los percentiles correspondientes a cada puntuación directa o a cada intervalo. Posiblemente es preferible calcular los percentiles directamente, sin ayuda de gráficos, dada la facilidad de cálculo que permiten las calculadoras y programas de ordenador. Aun así este método puede ser útil, sobre todo cuando los sujetos son muchos; utilizando papel milimetrado da resultados muy exactos. En cualquier caso la representación gráfica de las frecuencias acumuladas puede ser de utilidad independientemente de que se estimen los percentiles con este procedimiento. En primer lugar hay que calcular las frecuencias acumuladas relativas o percentiles (frecuencias acumuladas de cada intervalo divididas por el número de sujetos). En la tabla 8 están los datos que han servido para hacer (de manera aproximada) el gráfico de las frecuencias acumuladas. Tabla 8
fa: Frecuencias acumuladas. Vamos sumando de abajo arriba, de manera que cada valor de fa (frecuencia acumulada) indica el número de sujetos que tienen una puntuación igual o inferior a la del intervalo. Así a la puntuación directa 51-53 le corresponde una frecuencia acumulada de 9: 9 sujetos tienen una puntuación de 53 o más baja. Cuando calculamos los percentiles por el método habitual, las frecuencias suelen acumularse al punto medio, como hemos visto ya en el cálculo directo. (fa/N)/100: Es el tanto por ciento de sujetos que tienen esa puntuación o más baja; son las frecuencias acumuladas relativas. Si no multiplica-
102
TIPOS DE PUNTUACIONES INDIVIDUALES
mos por 100, lo que tenemos es la proporción (no porcentaje) de sujetos que tienen esa puntuación o una puntuación menor Las columnas X y f son las mismas que hemos visto antes (X = puntuaciones directas agrupadas y f = frecuencia o número de casos en cada intervalo). Estas frecuencias relativas acumuladas suelen redondearse, sin poner decimales. Una vez que tenemos las frecuencias acumuladas relativas o percentiles, podemos hacer ya un gráfico como el de la figura 4 El procedimiento para construir el gráfico de las frecuencias acumuladas es el siguiente: 1º En primer lugar calculamos los percentiles o frecuencias acumuladas relativas que corresponden a cada puntuación (tabla 8). Este cálculo también puede hacerse sin agr upar las puntuaciones (con intervalos de i = 1), pero normalmente las agrupamos para tener un número de intervalos manejable. 2º En el eje ver tical (eje Y, de las ordenadas) no ponemos las frecuencias, sino los porcentajes. Dividimos este eje vertical (Y) de 1 a 100. Ya hemos indicado que estos gráficos es preferible hacerlos con papel milimetrado, que simplifica mucho la confección del cuadro y se gana en exactitud. 3º En el eje horizontal (X, de las abscisas) señalamos los límites superiores de cada intervalo (y esto por el mismo concepto de frecuencia acumulada, nos situamos en el límite superior de cada posible puntuación). 4º Por cada intervalo situamos el punto donde confluyen el límite superior del intervalo y la frecuencia acumulada relativa calculada previamente. Los puntos resultantes se unen mediante una curva (en el ejemplo se ha hecho con rectas y sólo de manera aproximada). Si la distribución es simétrica el gráfico tenderá a tener la forma de una S. Observando el gráfico que nos sirve de ejemplo puede verse cómo se calculan los percentiles, sin necesidad de operaciones. Basta con trazar desde cualquier percentil (los porcentajes del eje vertical) una paralela al eje X de las puntuaciones directas, y desde donde esta paralela corta la curva se traza una perpendicular al eje X, que nos indicará la puntuación directa correspondiente al percentil buscado. En este caso la mediana (o percentil 50) es igual a 61: los que tienen una puntuación de 61 superan al 50% del grupo.
103
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Figura 4: GRÁFICO DE LAS FRECUENCIAS RELATIVAS ACUMULADAS ( OJIVA ) 100 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 0
•
Q3 = P75 = 65 •
M = P50 = 61
•
•
•
•
•
•
Q2 = P25 = 54 •
•
•
•
•
•
38.5 41.5 44.5 47.5 50.5 53.5 56.5 59.5 62.5 65.5 68.5 71.5 74.5 77.5
6. PUNTUACIONES NORMALIZADAS Las puntuaciones normalizadas equivalen a las puntuaciones (típicas o tipificadas, o percentiles) que habría si la distribución fuera normal. Por eso mismo se denominan normalizadas: se supone que la distribución es normal. Si de hecho la distribución original se aparta mucho de la distribución normal, es discutible hacer esta transformación. Frecuentemente la distribución observada es parecida a la normal, y aumentando el número de sujetos podemos suponer que la distribución no se desviaría mucho de la distribución normal. Las puntuaciones normalizadas pueden ser o puntuaciones típicas o percentiles. Lo más frecuente es que se trate de puntuaciones típicas (o de sus puntuaciones derivadas), pero los percentiles normalizados pueden ser sumamente útiles en ocasiones 6.1. Puntuaciones típicas normalizadas El proceso de cálculo es semejante al cálculo directo de los percentiles; realmente seguiremos el mismo proceso, con la diferencia final de que no utilizaremos el percentil sino la puntuación típica correspondiente a cada percentil en la distribución normal.
104
TIPOS DE PUNTUACIONES INDIVIDUALES
1º Se calcula la proporción de sujetos que caen debajo de cada puntuación. Esta proporción de sujetos se calcula así para cada puntuación (como se ha hecho en la tabla 6): Proporción de sujetos que caen por debajo de cada puntuación
frecuencia acumulada al punto medio fam =–––––––––––––––––––––– = ––––– número de sujetos N
Si multiplicáramos esta proporción por cien, tendríamos el percentil (cálculo directo). En ocasiones también se utiliza fa/N, o frecuencia acumulada (no al punto medio) dividida por N, pero posiblemente es preferible calcular fam/N, tal como se hace en el cálculo habitual de los percentiles (con un número muy grande de sujetos los resultados son casi los mismos); la convención más aceptada es utilizar frecuencias acumuladas al punto medio. Por qué acumulamos las frecuencias al punto medio está explicado al tratar del cálculo directo de los percentiles. Para hacer los cálculos disponemos los datos como figuran en la tabla 9 (que es semejante a la tabla 8; aquí utilizamos un ejemplo ficticio, N = 10). Tabla 9
En esta tabla 9:
X = puntuaciones directas f = frecuencia o número de casos fa = frecuencias acumuladas fam = frecuencias acumuladas al punto medio (fa-f/2) fam/N= fam dividido por el número de sujetos (N)
El procedimiento lo hemos visto con más detalle al ver el cálculo directo de los percentiles (tabla 6), y podemos recordar que: a) Las frecuencias acumuladas divididas por el número de sujetos (fam/N) indican la proporción de sujetos que caen debajo de cada puntuación directa. b) Si multiplicamos estas proporciones por 100, tenemos el tanto por ciento de sujetos superados por cada puntuación: en este ejemplo el
105
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
que tuviera una puntuación directa de 39 supera al 60% de sujetos del grupo; la puntuación 39 corresponde en este caso al percentil 60. También es frecuente denominar percentil a la proporción (sin multiplicar por 100). Una vez conocida la proporción de sujetos que caen debajo de cada puntuación, se consulta en las tablas de la distribución normal a qué puntuación típica corresponde esa proporción 4. Por ejemplo: un sujeto con una puntuación directa de 38 (en la tabla 9) supera a una proporción de sujetos del .25 (ó 25%). En las tablas de la distribución normal una proporción de .25 corresponde a una puntuación típica de z = -.68: esta puntuación típica es ya una puntuación típica normalizada: es la que cor respondería a una puntuación directa de 38 si suponemos que distribución es normal. 6.2. Puntuaciones típicas normalizadas y agrupadas: los estaninos y otras puntuaciones Un tipo de puntuaciones muy utilizado consiste en: 1º Agrupar estas puntuaciones típicas en intervalos; el criterio para hacer esta agrupación es que cada intervalo comprenda una misma magnitud en desviaciones típicas. 2º Numerar estos intervalos de manera consecutiva, y esta numeración es la nueva puntuación normalizada, y así tenemos los estaninos, pentas, etc. Con estas agrupaciones minimizamos pequeñas diferencias inter-individuales y reducimos el número total de puntuaciones distintas; hacemos más manejable el uso e interpretación de las puntuaciones de un test. Las puntuaciones nor malizadas (y las tipificadas) se utilizan mucho en la interpretación de tests, en evaluaciones de diverso tipo, y también como dato previo para pensar en una calificación convencional, etc.
Podemos consultar las tablas de la distribución normal o podemos acudir a alguna fuente de Internet como Surfstat.australia: an online text in introductory Statistics http://www.anu.edu.au/nceph/surfstat/surfstat-home/ , buscamos en el menú Tables y escogemos Standard Normal (figura 13 en el capítulo de la distribución normal) y señalamos la curva identificada con la letra a; también a partir de la columna fam/N de la tabla 9 podemos identificar el estanino correspondiente como veremos en el próximo apartado. 4
106
TIPOS DE PUNTUACIONES INDIVIDUALES
6.2.1. Los estaninos5 Los estaninos dividen la distribución normal en nueve intervalos cada uno de los cuales comprende media desviación típica excepto los dos extremos (el 1 y el 9). Realmente cada estanino no es una puntuación sino un intervalo relativamente amplio. Al utilizar la desviación típica como unidad (.5 s en este caso) una misma diferencia entre dos pares de estaninos equivale aproximadamente a la misma diferencia en la variable que se esté midiendo. Tabla 10
El término estanino ( stanine en inglés) se deriva del inglés STAndard NINE-point scale, nueve puntuaciones tipificadas o estandarizadas; en español también se emplea el término eneatipo, de la raíz griega enea que significa nueve. Este tipo de puntuaciones lo desarrolló y popularizó la Fuerza Aérea de EE. UU. en 1942, durante la segunda guerra mundial. Para interpretar muchos tests nueve intervalos puede ser suficiente; además se pretendía que todas las puntuaciones fueran de una sola cifra. 5
107
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En la tabla 10 tenemos: a) Los límites de los estaninos en la distribución normal, en puntuaciones típicas y en percentiles (aquí proporción de casos que caen por deba jo en la distribución normal). La primera columna de las puntuaciones típicas nos indica la puntuación típica que equivale a cada percentil en la distribución normal, pero como referencia para localizar las puntuaciones normalizadas es más cómodo calcular las proporciones de la segunda columna (que corresponden a la columna fam/N de la tabla 6) 6. b) El valor del estanino; se numeran los nueve intervalos. La media es 5 (intervalo central) y la desviación vale 2 aproximadamente. c) En la columna siguiente se puede observar cómo cada estanino comprende media desviación típica, excepto los dos extremos que quedan abiertos. d) En la última columna tenemos el porcentaje de casos en cada estanino en la distribución normal. Limitaciones de los estaninos. a) Aunque de estanino a estanino podemos suponer que hay un incremento idéntico (de .5 s ), esto no sucede en las puntuaciones extremas, 1 y 9, pues tienen los límites abiertos. En estas puntuaciones extremas puede haber sujetos muy distintos; se matiza menos en los extremos de la distribución y esto puede ser una limitación (aunque esta limitación afecta a muy pocos sujetos). b) Otra limitación es que se pueden magnificar pequeñas diferencias en los casos límite entre estaninos contiguos. Si deseamos un nivel mayor de matiz (no siempre deseable) podemos calcular puntuaciones típicas normalizadas (consultando las tablas de la distribución nor mal) en las que a cada percentil le corresponde una puntuación típica, o podemos utilizar otros criterios para dividir la distribución normal (como puede verse más adelante en la tabla 12). Podemos calcular los estaninos de diversas maneras. 1. Si calculamos las puntuaciones típicas de los sujetos y las agrupamos en intervalos según los límites de cada estanino en puntuaciones típicas (primera columna de la tabla 10), tendremos estaninos pero sin normalizar; este procedimiento es además muy laborioso y no suele utilizarse. 2. Podemos ordenar las puntuaciones de más a menos y seguimos los porcentajes puestos en la última columna de la tabla 10: al 4% más alto le asignamos el estanino 9, al 7 % siguiente el estanino 8, etc. 6
También podríamos utilizar la última columna de la tabla 8, sin multiplicar por 100.
108
TIPOS DE PUNTUACIONES INDIVIDUALES
3. Otra manera de calcular los estaninos es partir de la mediana: 1º Calculamos, como punto de partida, la mediana, la puntuación que divide al grupo en dos mitades iguales, 2º Al 10% por encima de la mediana y al 10% por debajo de la mediana, se les asigna el estanino 5 (que es la media de los estaninos, la puntuación central), 3º Al 17% siguiente por encima se le asigna el estanino 6 y al 17% siguiente por debajo el estanino 4, y así sucesivamente. Los estaninos pueden presentar el problema de que sujetos con idéntica puntuación directa nos pueden quedar en estaninos distintos si queremos mantener las proporciones exactas que corresponden a cada estanino; sin embargo y de manera aproximada puede ser un sistema válido con muestras grandes. 4. El sistema más cómodo es utilizar como referencia la columna de los percentiles de la tabla 10 que señala los límites de cada nueva puntuación. En esta columna tenemos la proporción de casos que caen por debajo; son percentiles en sentido propio si multiplicamos estas proporciones por 100. En la tabla 9 tenemos cómo hacerlo: calculamos la proporción de casos que caen por debajo de cada puntuación directa y utilizamos estas proporciones o percentiles como límites de los estaninos. Así por ejemplo: Todas las puntuaciones directas (X) cuyo percentil sea superior a .226 e inferior a .401, le asignaremos el estanino 4, que será la nueva puntuación normalizada. Si a una puntuación directa le corresponde, por ejemplo, un percentil (o frecuencia acumulada dividida por N) de .780, como .780 está entre 773 y .894, le cor responderá el estanino 7. En ocasiones el percentil puede caer en el mismo límite; si disponemos de un cuarto decimal nos sacará de dudas. 6.2.2. Las pentas Las pentas7 son puntuaciones análogas a los estaninos, pero en este caso dividimos todos los casos solamente en cinco intervalos, y cada penta comprende una desviación típica excepto en los dos extremos. En la tabla 11 tenemos la información relativa a las pentas, semejante a la de los estaninos. 7
Del griego, penta = cinco.
109
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Tabla 11
Como sucede con los estaninos, en las dos puntaciones extremas (5 ó 1 en el caso de las pentas ) pueden quedar igualados con la misma puntuación sujetos muy distintos entre sí. Naturalmente las pentas agrupan los datos en menos intervalos y se pierde más información sobre cada sujeto, pero puede ser un sistema muy útil si no se desea gran precisión. Cuando los datos (de tests de diverso tipo) nos vienen en percentiles puede ser de interés agrupar a los sujetos en grandes bloques. Esto puede ser de más interés cuando los datos provienen de tests o cuestionarios de no gran calidad (pueden ser sobre actitudes, etc.) y no con viene exagerar pequeñas diferencias individuales. En cualquier caso estos sistemas son con mucho preferibles a utilizar determinados percentiles como puntos de corte, como si hubiera una unidad en los percentiles, sin tener en cuenta su equivalencia en puntuaciones típicas. 6.2.3. Otras puntuaciones normalizadas Caben otras puntuaciones normalizadas que son en realidad puntuaciones típicas agrupadas con diversos criterios, pero siempre tomando la desviación
110
TIPOS DE PUNTUACIONES INDIVIDUALES
típica (o una fracción) como criterio. En la tabla 12 vemos varios tipos de puntuaciones que podemos comparar con facilidad. Las puntuaciones típicas y los percentiles que están subrayados son los límites de los estaninos, así el estanino 9 comienza a partir de z = + 1.75 o p = .959. La escala 11 son los estaninos ya vistos, pero subdividiendo los intervalos extremos donde puede haber sujetos muy diferentes; quedan en total 11 di visiones (de 0 a 10, o si se prefiere evitar el cero, de 1 a 11); puede ser una buena alter nativa a los estaninos y también es utilizada. La escala 20 (de 1 a 20, o de 0 a 19) es menos usual pero tiene un mayor nivel de matiz; cada inter valo comprende .25 s. Tabla 12 PUNTUACIONES NORMALIZADAS : LÍMITES Y EQUIVALENCIAS
¿Qué puntuación normalizada debemos utilizar? Depende de nuestro juicio prudencial, del nivel de matiz que deseemos. Los estaninos son muy utilizados: nos dividen el grupo en nueve subgrupos; nueve puntuaciones puede ser suficiente en muchos casos.
111
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Ya hemos indicado que una limitación de los estaninos está en que en los extremos (estaninos 1 y 9) puede haber sujetos muy distintos (y con mayor razón en los pentas ). Con la escala 11 matizamos mejor en los extremos (los estaninos 9 y 1 se subdividen y quedan 11 puntuaciones distintas). Si nos basta una clasificación menos matizada, podemos utilizar los pentas. En todos estos casos se trata de puntuaciones agrupadas para minimizar pequeñas diferencias. Lo que sí es claro es que si se desea dividir un gr upo en subgrupos según sus resultados en algún tipo de un test (no necesariamente para calificar) no hay que buscar que cada subgrupo tengo un idéntico número de sujetos. En la tabla 13 tenemos un grupo dividido en cinco subgrupos según dos criterios. Los juicios verbales ( muy bien, bien, etc.) son en este caso arbitrarios. Tabla 13
En un caso tomamos los percentiles como unidad: 20% de sujetos en cada subgrupo; en el otro caso utilizamos las pentas y consecuentemente el criterio de división son las puntuaciones típicas. Este segundo caso ( pentas en este ejemplo) es el que podemos considerar correcto a pesar de la aparente lógica de dividir el grupo en cinco subgrupos con idéntico número de sujetos. Dentro de cada subgrupo los sujetos están mejor igualados cuando el criterio de división es la desviación típica, sin buscar el que haya un número idéntico de sujetos en cada subgrupo. Si el dato disponible es el percentil (como es frecuente o en cualquier caso es de cálculo sencillo) y queremos dividir el grupo en cinco subgrupos podemos utilizar como puntos de corte los percentiles que corresponden a las
112
TIPOS DE PUNTUACIONES INDIVIDUALES
puntuaciones típicas que separan las pentas (por encima del percentil 93 corresponde un 5, entre los percentiles 93 y 64, corresponde un 4, etc.) (tablas 11 y 12). 6.3. Percentiles normalizados: cálculo de los percentiles a partir de la media y de la desviación típica Cuando de un grupo solamente conocemos la media y la desviación típica en cualquier test y deseamos dar a los sujetos una clave de interpretación individual, podemos hacerlo a partir de estos datos, calculando una serie de percentiles normalizados. Hemos visto que si conocemos el percentil correspondiente a una determinada puntuación directa, podemos ver en las tablas de la distribución normal a qué puntuación típica corresponde. Si una puntuación deja por debajo el 84% de los casos (o una proporción de .84), ya sabemos que en la distribución normal a esa puntuación directa le corresponde una puntuación típica de z = 1 (porque por debajo de z =1 cae el 84% de los casos). A z = 0 (cuando la puntuación directa coincide con la media), le corresponderá el percentil 50. De manera inversa, si conocemos una puntuación típica, ya sabemos a qué percentil corresponde en la distribución normal: si un sujeto tiene una puntuación típica de z = 1, ya sabemos que está en el percentil 84. Se trata de un percentil normalizado: el que tendría ese sujeto si la distribución fuera normal. Sobre estos percentiles normalizados: a) El cálculo es muy sencillo: nos basta calcular las puntuaciones típicas de cada puntuación directa y ver en las tablas el percentil cor respondiente (en las tablas viene en forma de proporción; multiplicamos por 100, redondeamos decimales, y ya tenemos el percentil en su expresión habitual). Por ejemplo si la media es igual a 20.5 y la desviación típica es igual a 3.5 ¿A qué percentil corresponderá una puntuación directa de 21? 21-20.5 La puntuación típica de X = 21 será igual a z=–––––––––––– = .14 3.5 En las tablas vemos que por debajo de z = .14 cae una proporción de casos de .555; multiplicando por 100 y eliminando los decimales tenemos que a X = 21 le corresponde el percentil 55. b) Al consultar las tablas no hay que olvidar que si la puntuación típica es positiva encontraremos el percentil en el área mayor, y si la puntuación típica es negativa, encontraremos el percentil en el área menor .
113
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
c) Si la distribución de las puntuaciones reales, observadas, se aparta notablemente de la distribución normal, estos percentiles pueden quedar muy distorsionados. Con muestras razonablemente grandes el cálculo de estos percentiles normalizados tiene más sentido. d) Una utilidad clara de estos percentiles normalizados, y que es la que realmente justifica este apartado, la tenemos cuando de un grupo sólo conocemos la media y la desviación típica en algún test o escala, y deseamos preparar unas normas o baremos para interpretar las puntuaciones individuales. En estos casos nos puede bastar buscar las puntuaciones directas que corresponden a una serie de percentiles previamente escogidos como referencia suficiente. En la tabla 14 tenemos una serie de percentiles y las puntuaciones típicas que les corresponden en la distribución normal; nuestra tarea será localizar las puntuaciones directas (X) que corresponden a esas puntuaciones típicas. Tabla 14
Ahora tenemos que calcular la puntuación directa (X) que corresponda a las puntuaciones típicas seleccionadas: X - X Si z =––––––– tendremos que X = ( s )(z)+X [6] s
Como en [6] conocemos todos los valores ( s, y z lo buscamos en la tabla 14), podemos calcular el valor de X, o puntuación directa que corresponde a determinados percentiles.
114
TIPOS DE PUNTUACIONES INDIVIDUALES
Por ejemplo, si la media es igual a 20.8 y la desviación típica es igual a 5: La puntuación directa correspondiente al Percentil 75: X = (3.5)(.67)+20.8 = 23.14 ( 23) 50: X = (3.5)(0) +20.8 = 20.8 ( 21) 25: X = (3.5)(-.67)+20.8 = 18.45 ( 18) De esta manera podemos preparar con toda facilidad una tabla con los percentiles normalizados que corresponden a una serie de puntuaciones directas; si un sujeto tiene una puntuación directa que no coincide con ninguna de las escogidas, se puede estimar por interpolación cuál es su percentil aproximado. 6.4. Equivalencias de diversos tipos de puntuaciones en la distribución normal Ya hemos visto que en la distribución normal se pasa fácilmente de unas puntuaciones a otras; todas tienen su equivalente en otros sistemas. Podemos visualizar esta equivalencia en la figura 5. Figura 5
115
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
7. PUNTUACIONES TÍPICAS, Y SUS PUNTUACIONES DERIVADAS: RESUMEN Las ventajas de las puntuaciones típicas y de sus puntuaciones derivadas (tipificadas, normalizadas) son muchas (más claras en unos tipos de puntuaciones que en otros), por ejemplo: a) Aunque las puntuaciones originales vengan de instrumentos distintos (o de exámenes que difieren en dificultad, número o tipo de preguntas), todas quedan homogeneizadas con idéntica media, idéntica des viación e idénticas puntuaciones extremas posibles. b) De manera intuitiva dicen más que las puntuaciones directas originales, porque sabemos cuál es la media (sin calcularla) o cuándo una puntuación es muy extrema o atípica. c) Consecuentemente permiten hacer comparaciones con facilidad (entre sujetos, o entre varias puntuaciones del mismo sujeto, dónde está más alto, más bajo, etc.). d) Suelen ser puntuaciones cómodas para comunicar y explicar resultados individuales; e) Permiten calcular medias individuales cuando de los mismos sujetos se disponen puntuaciones distintas, ya que se dispone de una unidad (la desviación típica), y ninguna puntuación parcial pesa más que otra (todas tienen idéntica desviación típica). Las puntuaciones directas en cambio no suelen representar una escala de unidades iguales, o lo hacen con menos propiedad que estas puntuaciones. Las preguntas (o ítems) no representan por lo general unidades iguales, porque unas son más fáciles, otras más difíciles, etc., no todas miden lo mismo, y como unidades de ciencia (o de actitud, personalidad, etc.) resultan ambiguas. f) La relación de estas puntuaciones con la distribución nor mal resulta también muy útil. Con facilidad podemos verificar en cuántas desviaciones se aparta de la media cualquier resultado individual, y apreciar así si se trata de un resultado normal, o poco frecuente, etc. g) No hay que olvidar , sin embargo, que se trata de puntuaciones relativas al grupo y sobre todo si se trata de exámenes o pruebas que se van a calificar, puede ser preferible apreciar el rendimiento en términos absolutos (objetivos conseguidos), aunque en todo caso las puntuaciones típicas y sus puntuaciones derivadas, y otras como los percentiles, aportan una información complementaria que también es útil.
116
TIPOS DE PUNTUACIONES INDIVIDUALES
8. R ESUMEN DEL CÁLCULO DE LAS PUNTUACIONES DERIVADAS A partir de una distribución de frecuencias es muy sencillo calcular todas las puntuaciones que hemos viendo y otras variantes. Podemos visualizar el proceso en el esquema-resumen de la figura 6. Figura 6
117
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Por qué hacemos estas transformaciones: Disponemos de una nueva media y de una nueva desviación típica (excepto en el caso de los percentiles en los que no se calculan estas medidas) que son siempre las mismas cualquiera que sea la magnitud de las puntuaciones originales; unificamos el tipo de medida, los valores extremos posibles son los mismos, etc., y todo esto: facilita la comunicabilidad de los datos; facilita su interpretación: 1º Tenemos más información: Localizamos puntuaciones atípicas (puntuaciones típicas extremas), Situamos al sujeto dentro de su grupo (posición relativa; percentiles). 2º Podemos hacer comparaciones aunque los datos se recojan con instrumentos distintos: entre sujetos intra-individuales Por este tipo de razones los diversos tipos de puntuaciones constitu yen el lenguaje de los tests (de inteligencia, de habilidades, de personalidad, de actitudes, etc.); las normas o baremos de interpretación vienen expresadas en alguna de estas puntuaciones. También son útiles en el contexto de la evaluación.
118
CAPÍTULO 5
CONCEPTO DE CORRELACIÓN Y COVARIANZA
1. CONCEPTO DE CORRELACIÓN Y COVARIANZA 1.1. Relación y variación conjunta El concepto de relación en estadística coincide con lo que se entiende por relación en el lenguaje habitual: dos variables están relacionadas si varían conjuntamente. Si los sujetos tienen valores, altos o bajos, simultáneamente en dos variables, tenemos una relación positiva. Por ejemplo peso y altura en una muestra de niños de 5 a 12 años: los mayores en edad son también los más altos y pesan más, y los más jóvenes son los que pesan menos y son más bajos de estatura; decimos que peso y altura son dos variables que están relacionadas porque los más altos pesan más y los más bajos pesan menos. Decimos por lo tanto que existe relación en la medida en que los sujetos ocu pan la misma posición relativa en las dos variables. Si los valores altos en una variable coinciden con valores bajos en otra variable, tenemos una relación negativa; por ejemplo edad y fuerza física en una muestra de adultos de 30 a 80 años de edad: los mayores en edad son los menores en fuerza física; hay una relación, que puede ser muy grande, pero negativa: según los sujetos aumentan en una variable (edad) disminuyen en la otra (fuerza física). La correlación se define por lo tanto por la co-variación (co = con, juntamente: variar a la vez). Correlación y covarianza son términos conceptualmente equivalentes, expresan lo mismo. La covarianza es también una medida de relación, lo mismo que el coeficiente de correlación. Habitualmente se utiliza el coeficiente de correlación (r de Pearson), pero es útil entender simultáneamente qué es la covarianza, y entenderlo precisamente en este contexto, el de las medidas de relación.
119
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El concepto de relación y qué se mide exactamente con estos coeficientes, lo veremos mejor con un ejemplo (tabla 1) donde tenemos los datos de tres situaciones o casos distintos: 1) En cada caso tenemos cuatro sujetos (ejemplo reducido para poder ver todos los datos con facilidad) con puntuaciones en dos variables, X (un test de inteligencia) e Y (una prueba objetiva de rendimiento). 2) Junto a la puntuación de cada sujeto en las dos variables, X e Y, ponemos su número de orden: 1º al que tenga la puntuación más alta, 2º al que tenga la siguiente más alta, etc.: Tabla 1
En el caso 1º la relación es positiva y la máxima posible (los sujetos tienen el mismo orden en X e Y); si el orden es inverso, como en el caso 2º, tenemos también una relación, pero negativa. Esta variación conjunta o co-variación, puede ser clara y alta (como en los casos 1º y 2º de la tabla 1), puede ser moderada o baja o puede no haber relación (como en el caso 3º). 1.2. Los diagramas de dispersión La representación gráfica de estos pares de puntuaciones se denomina diagrama de dispersión , y también nos ayuda a entender el mismo concepto de relación (ejemplos en la figura 1). Cada punto representa la posición de un sujeto (donde confluyen sus dos puntuaciones). En la medida en que hay relación, los puntos tienden a situarse en una recta diagonal; cuando no hay relación o es muy pequeña la nube de puntos aparece sin una dirección clara.
120
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Figura 1 DIAGRAMAS DE DISPERSIÓN
Y
Y
Y
Y
X
X
X
X
relación positiva alta
relación positiva moderna
relación negativa alta
ausencia de relación
1.3. Otras maneras de visualizar la correlación Los diagramas de dispersión (como los de la figura 1) nos permiten ver con facilidad qué entendemos por correlación (o simplemente relación), pero otras maneras de presentar los datos también son útiles para visualizar y comunicar la relación entre dos variables. En la tabla 2 tenemos un ejemplo real. Los mismos alumnos han respondido a dos series de cinco preguntas: a) cinco preguntas sobre datos dicotómicos (respuestas1 ó 0; p y q) b) cinco preguntas sobre la interpretación de los percentiles. En la tabla 2 podemos ver con facilidad que a mayor número de respuestas correctas sobre datos dicotómicos corresponde una media más alta en las preguntas sobre percentiles. Los alumnos que saben más y menos de ambos temas, tienden a ser los mismos (los que responden correctamente las 5 preguntas sobre datos dicotómicos tienen una media de 3.9 en las preguntas sobre percentiles, etc.) . Tabla 2
121
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
También podemos reducir la información a un cuadro de doble entrada, como tenemos en la tabla 3. Tenemos a los mismos alumnos clasificados con estos criterios: a) Número de fórmulas que recuerdan de memoria sin haberlas estudiado, puestas al final de un examen y sin contar para nota. Los alumnos están divididos en dos grupos, los que recuerdan 5 ó 6 fórmulas y los que recuerdan 4 o menos. b) Número de respuestas correctas en el examen de 45 preguntas: 37 o más y 36 o menos. En la tabla 3 figura el número y el tanto por ciento de alumnos en cada clasificación; el tanto por ciento está referido a los dos totales según el número de fórmulas recordadas: el 67 % de los que recuerdan 5 ó 6 fórmulas tienen 37 o más respuestas correctas en el examen, frente a sólo el 33 % de los que tienen 36 o menos respuestas correctas. Es clara la relación entre fórmulas recordadas de memoria y buenos re sultados en el examen. Tabla 3
En esta disposición de los datos hemos dicotomizado el grupo por la me diana de respuestas correctas (15 alumnos 36 o menos y otros 15 alumnos 37 o más). Con este planteamiento (sujetos agrupados en categorías) caben otros análisis que veremos en al capítulo del ji cuadrado. 1.4. Correlación, covarianza y dispersión: importancia de las diferencias Es importante caer en la cuenta desde el principio de la importancia de las diferencias interindividuales para poder comprobar relaciones: sin diferencias en los sujetos (u objetos) no podemos ver relaciones. Sin diferencias
122
CONCEPTO DE CORRELACIÓN YCOVARIANZA
en las dos variables no podemos encontrar variación conjunta: si todos los sujetos tienen idéntica puntuación en X no podemos ver si los altos en X son también altos en Y, porque en X son todos iguales. Si, por ejemplo, queremos comprobar si la altura está relacionada con la capacidad de encestar (jugando al baloncesto) necesitaremos jugadores de distintas alturas, para ver si los más altos encestan más y los más bajos encestan menos. Si todos los jugadores tienen la misma altura, no podemos comprobar esa relación; no podemos comprobar si las diferencias en altura se corresponden con diferencias en la habilidad de encestar porque todos tienen idéntica altura. Y también necesitaremos que unos encesten más y otros menos. Los sujetos deben ser distintos en las dos características cuya relación queremos comprobar. La correlación y la covarianza dicen de dos variables lo mismo que la varianza (o la desviación típica) dice de una variable: hasta qué punto los sujetos son distintos simultáneamente en las dos variables. De la misma manera que la varianza es una medida de dispersión en una variable, la correlación (y la covarianza) son también medidas de dispersión, pero de dos variables tomadas a la vez. 1.5. Tipos de relaciones que cuantificamos mediante el coeficiente r de Pearson El coeficiente de correlación comprueba y cuantifica solamente relaciones lineares, como las expresadas en los ejemplos y diagramas de dispersión anteriores. No comprueba por lo tanto relaciones curvilíneas, las que expresadas gráficamente mostrarían una curva. Por ejemplo la relación entre edad (tomando un espectro amplio de edades) y fuerza física sería curvilínea: primero sería positiva (a más edad mayor fuerza física), y luego negativa (a ma yor edad, menos fuerza). 1.6. Tipos de variables con las que se puede utilizar el coeficiente r de Pearson Para poder utilizar el coeficiente de correlación r de Pearson: las dos variables deben ser: a) Las dos continuas, b) Una continua y otra dicotómica (1 ó 0). c) Las dos dicotómicas (1 ó 0). La correlación entre una variable continua y otra dicotómica se denomina correlación biserial-puntual (r bp ) pero el cálculo y la interpretación
123
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
son los mismos que cuando las dos variables son continuas (y podemos utilizar calculadoras y programas informáticos que tienen ya programada la correlación r de Pearson). Cuando las dos variables son dicotómicas no se trata propiamente del coeficiente de Pearson (en principio referido a dos variables continuas) sino del coeficiente f (fi); se puede incluir aquí porque realmente equivale al coeficiente de Pearson calculado con datos dicotómicos aunque también tiene fórmulas específicas1. También tiene sus peculiaridades (el valor máximo no es siempre 1). En un apartado final (nº 7) explicamos brevemente éste y otros tipos de coeficientes de relación. 2. L A MEDIDA DE LA RELACIÓN 2.1. Cómo cuantificamos o medimos el grado de relación Es sencillo y útil entender cómo podemos cuantificar (medir) esta variación conjunta y además ayuda a la comprensión e interpretación de estas medidas de relación. Si las dos variables están relacionadas y esta relación es positiva
los sujetos tenderán a estar por encima o por debajo de la media en las dos variables a la vez
Si las dos variables están relacionadas y esta relación es negativa
los sujetos tenderán a estar por encima de la media en una variable y por debajo de la media en la otra variable
Si las dos variables no están relacionadas
el estar por encima o por debajo de la media en una variable es independiente del estar por encima o por debajo de la media en la otra variable
Este estar por encima o por debajo de la media en dos variables simultáneamente nos va a permitir cuantificar el grado de relación, tal como se explica en la figura 3. Lo explicamos por pasos: 1º La distancia, o diferencia, de un sujeto con respecto a la media podemos expresarla de dos maneras: Si en una calculadora con programación estadística introducimos unos y ceros, el valor de r que nos dé es el valor de f, por eso tiene sentido incluir aquí este coeficiente. 1
124
CONCEPTO DE CORRELACIÓN YCOVARIANZA
En puntuaciones directas (restando cada d = (X - X) puntuación de la media) En puntuaciones típicas (la misma (X - X) diferencia pero dividida por z = ––––––– s la desviación típica): Estas diferencias con respecto a la media (puntuaciones diferenciales) (en la figura 3 sólo están puestos los signos de la diferencia): serán positivas si la puntuación directa (X) es superior a la media (X), serán negativas si la puntuación directa (X) es inferior a la media (X) 2º Si a cada sujeto le multiplicamos sus dos puntuaciones diferenciales (d x d y o z x z y ) tendremos que unas veces los productos tendrán signo más y otras signo menos a) Cuando hay relación positiva: todos los productos (o la mayoría, dependerá del grado de relación) serán de idéntico signo positivo (más por más y menos por menos = más ); b) Cuando hay relación negativa: los productos serán de idéntico signo negativo (más por menos o menos por más = menos ); c) Cuando no hay relación: unos productos serán de idéntico signo y otros de distinto signo. Figura 3
125
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
3º. La suma de los productos cruzados de las puntuaciones diferenciales (directas Sd x d y ó típicas Sz x z y ), ya nos está indicando el grado de relación; la suma será mayor (con signo más o signo menos) cuando haya una mayor relación porque habrá más sumandos de idéntico signo. La mera suma de estos productos no nos es muy útil porque no podemos compararla con otras sumas, pero si la dividimos por el número de sujetos lo que tenemos es una media comparable con cualquier otra media obtenida con un número distinto de sujetos (esta explicación figura en la figura 3). Si dividimos esta suma por el número de sujetos (= media de los productos cruzados) tenemos la fórmula de la covarianza (utilizando puntuaciones directas) o de la correlación (utilizando puntuaciones típicas). Covarianza:
[1]
Correlación:
[2]
Por lo tanto correlación (símbolo r xy o simplemente r) y covarianza (símbolo s xy ) expresan lo mismo: cuantifican el grado de covariación y a ese grado de covariación le denominamos relación. Realmente el coeficiente de correlación no es otra cosa que la covarianza calculada con puntuaciones típicas. Correlación y covarianza se relacionan mediante estas fórmulas: s s x s y
xy r xy ( correlación ) = ––––– [3]
s xy ( covarianza ) = r xy s x s y
[4]
Como medida de relación se pueden utilizar tanto la covarianza como el coeficiente de correlación (r de Pearson). El utilizar preferentemente el coeficiente de correlación se debe a estas razones: 1) El utilizar puntuaciones típicas permite comparar todo con todo; dos coeficientes de correlación son comparables entre sí cualquiera que sea la magnitud original de las puntuaciones directas. La magnitud de la covarianza va a depender de la unidad utilizada y no se pueden comparar dos covarianzas, para comprobar dónde hay mayor relación, cuando las unidades son distintas. 2) El coeficiente de correlación r varía entre 0 (ausencia de relación) y un valor máximo de 1 (con signo + ó -). El que los valores extremos sean 0 y 1 facilita el uso y la valoración de la magnitud de estos coeficientes. La demostración de que el valor máximo de r es igual a 1 (±1) es sencilla: 1º La suma de las puntuaciones típicas elevadas al cuadrado es igual al número de sujetos (N):
126
CONCEPTO DE CORRELACIÓN YCOVARIANZA
2º Si se diera una relación perfecta, tendríamos que para cada sujeto z x = z y con lo que z x z y sería igual a z 2, y como Sz2 = N, tendríamos que:
2.2. Otras fórmulas y procedimientos Hay muchas fórmulas, pero todas equivalen a la fórmula básica (fórmula [2]: r xy = ( Sz x z y )/N). Esta fórmula básica es muy laboriosa de cálculo. Hay otras fórmulas más sencillas en las que sólo se utilizan puntuaciones directas, pero tampoco resultan prácticas, ya que la correlación puede encontrarse ya programada en muchas calculadoras sencillas (y en hojas de cálculo y en programas de ordenador o de Internet). Si se dispone de una calculadora con la desviación típica programada, una fórmula sencilla es ésta: [5] Para el cálculo disponemos los datos tal como están en la tabla 4 Tabla 4
Se calculan las desviaciones de las dos variables y de la suma de ambas y se aplica la fórmula anterior [5]:
Esta fórmula puede ser la más cómoda cuando tenemos pocos sujetos y una calculadora con programación estadística; con muestras grandes, o cuando hay calcular varios coeficientes con los mismos datos, hay que acudir a hojas de cálculo o a programas de ordenador, que es lo que haremos habitualmente.
127
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
3. INTERPRETACIÓN DEL COEFICIENTE DE CORRELACIÓN R DE PEARSON En principio la interpretación del coeficiente de correlación es sencilla; nos basta mirar los diagramas de dispersión ( figura 1) para caer en la cuenta de qué estamos cuantificando o midiendo: en qué grado ambas variables varían conjuntamente (es decir, en qué grado están relacionadas). En este apartado recogemos de manera más sistemática todo aquello que nos puede ayudar a interpretar y a aprovechar los coeficientes de correlación que nos encontremos. Hay información que es obvia y viene dada por el mismo coeficiente; otro tipo de información adicional podemos extraerlo de los datos que ya tenemos, y por último hay hipótesis y conjeturas razonables que pueden enriquecer la interpretación o nos pueden poner en la pista para buscar otras cosas. De alguna manera este apartado viene a ser una guía que podemos repasar cuando nos interese, para interpretar y utilizar mejor la información que nos apor tan los coeficientes de correlación. 3.1. Interpretación básica a) El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están ordenados de la misma manera en dos variables simultáneamente. b) Los valores extremos son 0 (ninguna relación) y ±1 (máxima relación). Si r = 1, el orden (posición relativa) de los sujetos es el mismo en las dos variables. Aunque hablaremos después sobre cómo valorar la magnitud de estos coeficientes, si los valores extremos son 0 y 1 (ó -1), ya podemos ver que coeficientes próximos a 0 expresan poca relación, y los coeficientes cercanos al 1 expresan mucha relación. c) La magnitud del coeficiente es independiente del signo. r =-.95 expresa más relación que r = +.75; el que la relación sea positiva o negativa es algo distinto de que sea grande o pequeña. d ) Dos ítems (o sujetos, variables, etc.) que tengan entre sí una relación muy alta, pueden ser valorados de manera muy distinta en términos absolutos. En este punto hay con cierta frecuencia errores de interpretación. El suponer que una correlación muy alta entre dos variables quiere decir que las dos tienen una media parecida es un error muy común; una correlación alta significa simplemente que las dos variables son or denadas de manera parecida, pero no que tengan valores absolutos parecidos.
128
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Lo vemos con facilidad en un ejemplo ficticio. Supongamos que cuatro sujetos valoran en una escala de 1 (no me gusta nada) a 6 (me gusta mucho) a tres personajes políticos o a tres profesores (y así vemos un ejemplo en el que no hay tests ni exámenes; tabla 5): Tabla 5
El coeficiente de correlación entre A y B es exactamente r = 1, la máxima relación posible; sin embargo sus medias son muy distintas: el personaje A tiene una media de 5.5 (muy alta en una escala de 1 a 6, gusta a todos) y el personaje B muy baja (1.5, no gusta a nadie). Lo que sucede es que los que valoran mejor al personaje A también valoran mejor (en términos relativos) al personaje B y viceversa: los sujetos que valoran menos al personaje A también valoran menos al personaje B. El personaje C tiene una media de 4, su relación con A es r = 0 y su relación con B es también r = 0: cómo valoran los sujetos a los personajes A y B no tiene nada que ver con cómo valoran al personaje C 2. En la tabla 6 tenemos otro ejemplo de cuatro alumnos con calificaciones en cuatro asignaturas. Tabla 6
En este ejemplo: Una tentación es afirmar que entre Física y Matemáticas hay una relación muy alta, sin embargo la correlación entre Física y Matemáticas es cero; no se puede decir que los alumnos tengan el mismo orden en las Si quisiéramos medir la proximidad o parecido en valores absolutos entre estos personajes, habría que utilizar otra técnica que se estudia en relación con el Diferencial Semántico de Osgood, la denominada distancia euclidiana (simbolizada D; puede verse Morales, Urosa y Blanco, 2003, pág. 38). Un coeficiente de correlación alto indica orden semejante, no medias semejantes. 2
129
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
dos asignaturas porque no hay orden, no se puede ordenar a los que están igualados. Necesitaríamos calificaciones distintas en las dos asignaturas para verificar si coinciden en ambas asignaturas los que están mejor o peor. La correlación entre Historia y Lengua es la máxima posible (r = 1), porque los alumnos tienen el mismo número de orden en ambas asignaturas; sin embargo en términos absolutos las calificaciones no se parecen: son muy altas en Historia y muy bajas en Lengua. e) Un coeficiente de correlación no equivale a una proporción. Una correlación de r =.50 no quiere decir que haya un 50% de variabilidad común o de varianza común entre las dos variables. f ) No es necesario que las dos variables (X e Y) estén medidas en la misma escala o en las mismas unidades, ya que, como hemos visto, el cálculo se hace a partir de puntuaciones típicas. La correlación entre edad y peso o entre pluviosidad y altura sobre el nivel del mar (en este caso los sujetos serían comarcas) oscilará entre 0 y 1 aunque todas estas variables se midan con unidades muy diferentes (esto no sucede con la covarianza, en la que mantenemos las unidades originales). De la misma manera podemos calcular la correlación entre un test de rendimiento de 50 preguntas y la actitud hacia el estudio medida con una sencilla escala, etc. g) En los coeficientes de correlación no hay unidad en sentido propio. Por esta razón un coeficiente de .50 no expresa el doble de relación que otro de .25. La distancia en relación es mayor entre dos coeficientes altos que entre dos coeficientes bajos. V eremos la diferencia entre dos coeficientes con más exactitud si los elevamos al cuadrado: entre .95 y .90 (coeficientes muy altos, .95 2 .902 = .0925) hay una mayor distancia que entre .15 y .10 (coeficientes muy bajos, .152 - .102 = .0125). Este punto lo veremos al hablar del coeficiente de determinación. h) La correlación de una variable (como un test de inteligencia) con un criterio (por ejemplo un examen) se denomina frecuentemente coeficiente de validez. El término validez aplicado a los tests es mucho más complejo y tiene más significados; en este caso se trata de un simple coeficiente de correlación entre dos variables. i) La correlación entre dos variables es relativa a los instrumentos utili zados. Cuando decimos que la inteligencia tiene una correlación determinada con rendimiento académico, habría que especificar inteligencia ‘tal como’ la mide ese test … rendimiento tal como lo mide este tipo de examen…
130
CONCEPTO DE CORRELACIÓN YCOVARIANZA
No medimos rasgos o características puras o abstractas, por eso los coeficientes de correlación hay que interpretarlos teniendo en cuenta cómo han sido medidos esos rasgos. Cuando decimos que la autocon fianza está relacionada con el rendimiento académico, hay que sobrentender tal como medimos o expresamos estas variables con estos instrumentos. Ésta es una razón (entre otras) por la que entre las mismas variables podemos encontrar coeficientes de correlación muy distintos: a veces (cuando las medimos con instrumentos distintos) no se trata realmente de las mismas variables exactamente, salvo en un sentido muy genérico. 3.2. Correlación y causalidad La causalidad merece un comentario específico porque en el contexto de la correlación es fácilmente fuente de errores de interpretación (al menos es una tentación el interpretar algunas correlaciones como pruebas de causalidad). El concepto de causa es complejo y el lugar propio para su estudio está más en la filosofía que en los análisis estadísticos. En nuestro contexto podemos dar una definición puramente operacional de causalidad para su uso limitado a la investigación experimental: establecemos una relación de causa a efecto cuando podemos mostrar que una variable independiente sistemáticamente produce cambios (influye) en una variable dependiente, una vez controlado el influjo de otras variables extrañas. Con esta noción de causalidad sí podemos hacer unos comentarios sobre correlación y causalidad. a) Una correlación no puede interpretarse como prueba de una relación causal; el que dos variables covaríen, se den juntas, no quiere decir que una sea causa de la otra. Una correlación sí nos puede dar pistas para proponer hipótesis sobre posibles relaciones causales. Aunque de hecho hubiera una relación de causa a efecto, esta relación no queda demostrada por un coeficiente de relación. b) Para poder hablar de causalidad, al menos como hipótesis, hay que poder excluir otras explicaciones. Frecuentemente la explicación de por qué dos variables están relacionadas entre sí es que ambas están a su vez relacionadas con una tercera variable (que tampoco es necesariamente causa de las otras dos pero sí puede ser una buena explicación). Peso y altura estarán relacionadas en una muestra de niños de 2 a 10 años porque tanto el peso como la altura están relacionados con la edad. c) El coeficiente de correlación trata las dos variables como simétricas: nos da lo mismo calcular la correlación de A con B que la de B con A. Si
131
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
fuéramos a interpretar un coeficiente de correlación como indicador de una relación de causa a efecto, no sabríamos cuál es la causa y cuál es el efecto en función solamente de ese coeficiente. Si entre fumar y enfermedades coronarias encontramos una relación alta, podríamos concluir que las enfermedades coronarias son la causa del fumar… En ejemplos no tan obvios es fácil cometer errores de interpretación y dar por establecidas relaciones de causa a efecto sin fundamento. d) Para establecer relaciones de causa-efecto, al menos como hipótesis razonable, se requieren cuatro condiciones: 1º Que a un aumento en el predictor (supuesta causa) se siga un aumento en el criterio (supuesto efecto); 2º Que se puedan excluir otras explicaciones plausibles; 3º Que se pueda establecer algún tipo de teoría o justificación que explique la relación causal; 4º Que se pueda replicar el mismo resultado en otras poblaciones y con otras características 3. Por lo general en estos estudios (para verificar hipótesis causales) se utilizan diseños experimentales y no simples estudios correlacionales, que por otra parte pueden ser buenos estudios piloto que pueden a su vez orientar otros tipos de investigación. 3.3. Cómo calcular la media de varios coeficientes de correlación Como no hay una unidad en sentido propio no se debería calcular en principio la media aritmética de varios coeficientes; por otra parte es útil la información que puede darnos una media de varios coeficientes de correlación. El método tradicional que se suele proponer en muchos textos para calcular una correlación media es el siguiente: 1º Se transforma el valor de r en el valor Z de Fisher (el símbolo es zeta mayúscula; hay tablas apropiadas); 2º Se opera con estos valores Z (se calcula el valor medio de Z); 3º El valor de Z resultante se reconvierte en un valor de r (con las mismas tablas), que será en este caso la verdadera correlación media. Sin embargo esta práctica habitual se puede substituir sin especial problema por el simple cálculo de la media aritmética: si disponemos de varios coeficientes de correlación calculados en muestras distintas, la mejor estimación de la correlación en la población es la media ponderada de los distintos coeficientes: 3
Light, Singer y Willett, (1990)
132
CONCEPTO DE CORRELACIÓN YCOVARIANZA
[6] Tenemos, por ejemplo, estos dos coeficientes de correlación calculados en las mismas dos variables en dos muestras distintas: En una muestra de N = 60 r = .45 En una muestra de N = 120 r = .30 Correlación media: Esta media ponderada es de cálculo sencillo, de fácil comprensión y no distorsiona más la verdadera media que lo que la distorsiona la transformación de Fisher 4. Si el número de sujetos es el mismo se calcula directamente la media aritmética. También es frecuente utilizar la mediana en vez de la media (el uso de la mediana es siempre apropiado) cuando se dispone de una serie de coeficientes de correlación y se quiere indicar una medida de tendencia central. Como siempre que se utiliza la mediana en vez de la media hay que recordar dónde está la diferencia entre ambos estadísticos. Como la mediana es simplemente el valor central que divide a la muestra (de coeficientes en este caso) en dos mitades iguales, no se ve afectada por valores extremos que sí se influyen y se notan en la media. Unos pocos coeficientes atípicos (o muy altos o muy bajos), o un solo coeficiente muy atípico, pueden sesgar la media como valor representativo en una dirección. En estos casos puede ser preferible utilizar la mediana, o ambos valores, la media y la mediana. 3.4. El coeficiente de determinación El coeficiente de correlación elevado al cuadrado (r 2 ) se denomina coeficiente de determinación e indica la proporción (o porcentaje si multiplicamos por 100) de variabilidad común: indica la proporción de varianza de una variable determinada por o asociada a la otra variable. En términos más simples, r 2 indica el tanto por ciento (r 2 x 100) de acuer do, de área común o de variabilidad común entre ambas variables. Un coeficiente de r = .50 indica un 25% de varianza común entre ambas variables (.502 =.25). Una correlación de r = .50 entre un test de inteligencia abstracta La transformación de Fisher tiene un sesgo positivo: la media resultante es ligeramente mayor de lo que debería ser. Con la media ponderada por el número de sujetos (fórmula [6]) la media que resulta es ligeramente menor, pero la desviación es menor en términos absolutos que la que provoca la transformación de Fisher, y con muestras grandes (a partir de N = 40) el margen de error es muy bajo y sólo afecta al tercer decimal (Hunter y Schmidt, 1990). 4
133
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
y rendimiento en matemáticas, indica que el 25% de las diferencias en matemáticas (propiamente el 25% de la varianza en matemáticas) tiene que ver con ( depende d e o se explica por ) las diferencias en el test de inteligencia abstracta. Un coeficiente de .30 expresa solamente un .30 2 o un 9% de variabilidad en una variable asociada a la variabilidad o diferencias en la otra variable. Los valores de r 2 sí pueden compararse entre sí directamente; por ejemplo: r = .20 indica un 4% de acuerdo entre las dos variables (.202 =.04); r = .40 indica un 16% de acuerdo entre las dos variables (.402 =.16); r = .60 indica un 36% de acuerdo entre las dos variables (.602 =.36). Se ve con claridad que de r =.60 a r =.40 (del 16% al 36%) hay más distancia que de r =.40 a r =.20 (del 16% al 4%), aunque aparentemente las diferencias sean idénticas (de .20). El elevar al cuadrado el valor del coeficiente de correlación ayuda a interpretarlo. Los valores de r bajan drásticamente cuando los trasformamos en r 2 y esto puede hacernos pensar que las correlaciones bajas son de menor importancia. Por ejemplo r = .32 significa solamente un 10% (.32 2 ) de varianza común; muy poco, solamente el 10% de la variabilidad (o de las diferencias) en una variable está asociada a diferencias en otra variable. A pesar de esto no conviene infravalorar la importancia potencial de los coeficientes pequeños pues pueden aportar información de mucho interés o decir más de lo que parece (lo veremos al tratar de la valoración de la magnitud de estos coeficientes). Aun así y en términos generales, los coeficientes más bien bajos (inferiores a .30) suelen tener poco interés práctico aunque si son estadísticamente significativos (qué significa esta expresión lo vemos en el próximo apartado) se pueden prestar a una buena elaboración teórica e interpretativa. 3.5. La significación estadística de los coeficientes de correlación 3.5.1. Qué es un coeficiente de correlación estadísticamente significativo Lo primero en lo que solemos fijarnos es en la magnitud del coeficiente de correlación. Antes podemos comprobar si el coeficiente es mayor de lo que se puede esperar por puro azar .5 Hasta aquí hemos tratado de la correlación dentro de la estadística descriptiva; ahora estamos ya en estadística inferencial, tema que retomaremos al tratar del error tí pico de la media y del contraste de medias. En muchos textos la estadística meramente descriptiva y la estadística inferencial se tratan en capítulos o partes distintas; aquí preferimos tratar conjuntamente todo lo referido a la correlación, al menos lo que juzgamos más importante para interpretar adecuadamente estos coeficientes. 5
134
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Podemos entenderlo con un ejemplo muy simple. Entre dos variables ob viamente no relacionadas (como día de nacimiento y número de plantas que uno tiene en su casa ) difícilmente obtendremos r = 0.0000. Por simple casualidad obtendremos algún valor, positivo o negativo, distinto de cero. Con 5 sujetos un valor de r =.30 puede ser casual (una mera coincidencia; un sujeto con muchas ventanas en su casa nació a finales de mes) y en cambio con 100 sujetos es muy improbable obtener r =.20 por casualidad, sin que exista alguna relación. Ya podemos intuir que con pocos sujetos necesitaremos un valor mayor para poder rechazar la casualidad, y que con muchos sujetos un valor pequeño es muy improbable que sea casual (o explicable por el error muestral, en términos más propios). 3.5.2. El modelo teórico Es importante entender el modelo teórico en el que nos basamos para llegar a la conclusión de que un coeficiente de correlación es mayor de lo que podríamos esperar por azar y poder afirmar por lo tanto que con toda probabilidad expresa una verdadera relación (o correlación estadísticamente significativa ). El mismo modelo lo veremos también en planteamientos semejantes. Lo exponemos paso a paso, de manera muy sucinta. 1) Suponemos que calculamos el coeficiente de correlación entre dos variables que no están relacionadas (podemos pensar en el ejemplo anterior, día de nacimiento y número de plantas que uno tiene en su casa ). 2) Suponemos también que esta correlación la calculamos en un número muy grande de muestras (realmente no calculamos nada, se trata de un modelo teórico ). 3) Aunque la correlación esperada sea igual a cero (estamos suponiendo que no hay relación) no siempre obtendremos r = 0; por puro azar unas veces tendremos una correlación distinta de cero y positiva y otras veces tendremos una correlación distinta de cero y negativa, aunque lo normal es que se trate de valores muy pequeños. 4) Al calcular muchos coeficientes de correlación entre estas dos variables que no están relacionadas tendremos una distribución normal de los coeficientes de correlación. Esta distribución tendrá su media y su desviación típica. 5) Estas distribuciones se denominan distribuciones muestrales (no es la distribución de unas puntuaciones individuales sino de estadísticos o medidas de muchas muestras hipotéticas; también hablaremos de la distribución muestral de la media ). 6) La media de esta distribución será igual a cero (éste es nuestro supuesto en caso de no relación); los valores positivos y negativos se anulan mutuamente.
135
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La desviación típica de esta distribución no la conocemos pero sí podemos estimarla. En estos planteamientos ( distribuciones muestrales hipotéticas) la desviación típica se denomina error típico. La interpretación es la misma que hacemos de la desviación típica en la distribución normal, así por ejemplo el 95% de los casos caerán entre la media (= 0) más menos 1.96 errores típicos, y solamente el 5% de los coeficientes de correlación se apartará de una media de cero en +1.96 errores típicos o en –1.96 errores típicos, tal como aparece en la figura 4. La mayoría de los valores estarán en torno a cero. Figura 4
El 95% de los coeficientes de correlación caen entre más menos 1.96 errores típicos
-1.96 errores típicos
correlación media = 0
+1.96 errores típicos
7) Cuando nos preguntamos si un coeficiente de correlación es estadísticamente significativo, lo que nos preguntamos es si es probable que ocurra cuando no hay relación, o, lo que es lo mismo, si es probable que ocurra cuando la media de las posibles correlaciones entre esas dos variables es cero. Si nuestro coeficiente es muy poco probable cuando no hay relación, es entonces cuando concluiremos que el coeficiente de cor relación es estadísticamente significativo: es demasiado grande para ese número de sujetos como para que sea casual y expresa por lo tanto una verdadera relación distinta de cero. Dicho de otra manera, no pertenece a la población de coeficientes cuya media es cero. 8) Para decidir si un coeficiente de correlación es probable o improbable cuando la media de los posibles coeficientes de correlación es cero, necesitamos un criterio ( en qué punto empieza lo improbable ). El criterio convencionalmente aceptado es que lo que por azar sucede más de 5 veces de cada 100 está dentro de lo probable, y lo que por
136
CONCEPTO DE CORRELACIÓN YCOVARIANZA
azar sucede 5 o menos de 5 veces de cada 100 lo consideramos ya improbable o fuera de lo normal. A este criterio le denominamos nivel de confianza, y se expresa a = .05 cuando consideramos poco probable lo que sucede menos del 5% de las veces (también se expresa a veces así: nivel de confianza del 95% que son las probabilidades de no equivocarnos al afirmar la relación). 9) Ya sabemos que en la distribución normal el 95% de los casos están entre la media (que es igual a cero en nuestro modelo de la figura 4) y más menos 1.96 errores típicos. Diremos por lo tanto que un coeficiente de correlación es estadísticamente significativo cuando se aparte de la media cero en más de 1.96 errores típicos. Volviendo a la figura 4, un coeficiente de correlación es estadísticamente significativo si no está en el 95% central de los posibles coeficientes de correlación cuya media es cero. Cuando la probabilidad de que ocurra en el caso de no relación es inferior al 5% se expresa así: p < .05; si esta probabilidad es superior al 5% lo expresamos así: p > .05. 10) Aunque nuestro nivel de confianza sea .05, también es informativo indicar si las probabilidades de que la correlación son inferiores al 1% (p<.01) o al 1/1000 (p < .001). Lo que se suele recomendar es indicar la probabilidad exacta (por ejemplo p = .02) sin limitarse a poner si es superior o inferior (p<.05 o p.05) a una determinada probabilidad previamente especificada6. 3.5.3. Interpretación de una correlación estadísticamente significativo Es importante entender bien qué significa el decir que una correlación es o no es estadísticamente significativa. Una correlación estadísticamente significativa, por ejemplo p < .05, quiere decir que si no hay relación en la población (es decir, si se da esa condición importante de ausencia de relación ) la probabilidad de obtener un coeficiente de esa magnitud por puro azar es inferior al 5%. En la práctica, y cuando una correlación es estadísticamente significativa (porque p <.05 si .05 es nuestro nivel de confianza): a) Podemos afirmar con mucha seguridad que en la población esa correlación no es cero: si no hubiera ningún tipo de relación es muy improbable obtener el coeficiente que hemos obtenido. Podemos afirmar el hecho de la relación. Las probabilidades exactas, si no nos las da ya un programa de ordenador, se buscan fácilmente en alguna de las direcciones de Internet puestas en el Anexo II. 6
137
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
b) Lo que no podemos afirmar es que en muestras semejantes (de la misma población) obtendríamos coeficientes de magnitud semejante (interpretación frecuente y errónea). Para hablar de la magnitud de la correlación en general (en la población) necesitamos acudir a los intervalos de confianza de los que trataremos enseguida. Cuando una correlación no es estadísticamente significativa (porque p >.05): a) Una correlación no significativa es una correlación que no podemos generalizar sin más. Con los datos que tenemos no podemos afirmar que en la población (en otras muestras semejantes) hay una relación, aunque sea pequeña, y distinta de cero. b) Por otra parte una correlación no significativa no es prueba de no relación en la población (podríamos encontrarla quizás en muestras mayores, o utilizando otras medidas más precisas, etc.; no probar que hay relación no es lo mismo que probar que no hay relación). Con muestras muy pequeñas podemos encontrar coeficientes de correlación relativamente grandes pero no estadísticamente significativos (el cero es un valor probable; no nos permiten extrapolar el hecho de la relación a otras muestras de la misma población). Aunque con frecuencia los coeficientes de correlación no estadísticamente significativos suelen ser pequeños (sobre todo en muestras grandes) cuando el signo de la relación está en la dirección esperada y la muestra es pequeña, es posible que obtengamos una correlación estadísticamente significativa en muestras mayores (al menos se puede proponer como hipótesis razonable). Los coeficientes de correlación estadísticamente significativos pero muy bajos (caso frecuente en muestras relativamente grandes) suelen ser de poca relevancia práctica, aunque no podemos despreciar sin más los coeficientes pequeños (si son estadísticamente significativos) porque pueden dar buen juego interpretativo desde una perspectiva más teórica o metodológica, como veremos después. 3.5.4. Cómo comprobamos si un coeficiente de correlación es estadísticamente significativo El primer paso por lo tanto para interpretar un coeficiente de correlación es comprobar si es mayor de lo que podría esperarse por azar, o utilizando la expresión habitual, comprobar si es estadísticamente significativo. Una correlación estadísticamente significativa es una correlación muy improbable por
138
CONCEPTO DE CORRELACIÓN YCOVARIANZA
azar (en la hipótesis de no relación) ; la consecuencia es que podemos suponer que en la población (en otras muestras semejantes) seguiremos encontrando una cor relación distinta de cero. Esto lo veremos también después desde otra perspectiva al tratar de los intervalos de confianza de la correlación. La teoría subyacente a esta comprobación es la misma que la de planteamientos semejantes en estadística (¿cuándo podemos considerar que una diferencia entre dos medias es mayor de lo puramente casual y aleatorio?). Lo que hacemos es dividir nuestro coeficiente de correlación (o con más propiedad |r – 0|, la diferencia entre la correlación obtenida y una correlación me dia de cero ) por el error típico de la correlación (fórmulas [10] y [11]) para ver en cuántos errores típicos se aparta nuestro coeficiente de una correlación media de cero7 . a) Con muestras de 100 sujetos o menos Lo más práctico es consultar las tablas apropiadas (anexo I, al final del capítulo)8, en las que se indica la probabilidad de obtener un determinado coeficiente por azar, sin que haya relación entre las dos variables. Para consultar las tablas tenemos que tener en cuenta los grados de libertad, que en el caso de la correlación son N-2. Por ejemplo, con N = 12 los grados de libertad son 10. En las tablas y con 10 grados de libertad vemos: Grados de libertad = N -2 10
.05 .5760
.01 .7079
.001 .8233
Vemos .576 en la columna correspondiente a .05; esto quiere decir que con 12 sujetos (10 grados de libertad) una correlación tan alta como .576 la obtendríamos por azar, sin que hubiera relación entre las dos variables, 5 veces de cada 100 (y nuestra conclusión será que sí hay relación; no ha sido una casualidad ). Debajo de .01 vemos r = .7079, que es el valor de la cor relación que podríamos obtener por azar 1 vez cada 100, y debajo de .001 vemos r = .8233, la correlación que podríamos obtener por azar 1 vez cada 1000 veces.
Aunque consultemos tablas o vayamos a direcciones de Internet que nos lo dan resuelto, conviene entender qué estamos haciendo. 8 Tablas semejantes figuran en muchos textos; también podemos consultar las direcciones de Internet puestas en el Anexo II. 7
139
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Siempre que el valor de nuestra correlación sea igual o mayor que el valor indicado en la columna .05, podemos concluir que la correlación es estadísticamente significativa (improbable por azar; ese coeficiente de correlación lo podríamos encontrar, sin que se dé relación, 5 veces o menos de cada 100). Si supera los valores de las columnas .01 ó .001 se indica de esta manera: p< .01 ó p< .001. Ya hemos indicado en el apartado anterior que este 5% es el límite convencional y aceptado para rechazar el azar (el error muestral en términos más apropiados) como explicación, por lo que podríamos concluir que sí hay relación aunque ésta puede ser pequeña y de poco valor práctico. Una correlación estadísticamente significativa no significa una correlación grande. El poner un 5% de probabilidades de error (para afirmar que sí hay relación) es un criterio usual aunque arbitrario; si uno desea más seguridad puede poner como límite un 1% de probabilidad de error; son los dos límites convencionales más utilizados. b) Con muestras de más de 100 sujetos Vemos en cuántas desviaciones típicas (errores típicos) se aparta nuestro coeficiente de correlación de una correlación media de cero; es decir calculamos la puntuación típica (z) correspondiente a nuestro coeficiente de correlación: [7] Lo que tenemos en el denominador es la fórmula del error típico de los coeficientes de correlación (en muestras grandes). Esta fórmula queda simplificada así:
[8]
En la tabla 6 están los valores críticos para interpretar los resultados. Tabla 6
En el numerador de la fórmula [7] tenemos la diferencia entre nuestra correlación y una correlación media de cero; lo que tenemos en el denomina-
140
CONCEPTO DE CORRELACIÓN YCOVARIANZA
dor es el error típico (o desviación típica) de la distribución de las correlaciones cuando la correlación media es cero. Lo que hemos hecho es por lo tanto calcular una puntuación típica: nos indica, utilizando los términos con vencionales, en cuántas desviaciones típicas (o errores típicos) se aparta nuestra correlación de una correlación media de cero. Y ya sabemos (por las tablas de la distribución normal) que un valor que se aparte de la media en más de 1.96 desviaciones (fijándonos en ambos extremos de la distribución) sólo ocurre por azar 5 veces de cada 100 o menos. Por ejemplo: encontramos una correlación de r = .14 en una muestra de 275 sujetos; aplicando la fórmula [8] (más sencilla que la [7]) tendremos que que supera el valor de z = 1.96 por lo que podemos concluir que una correlación de r = .14 en esa muestra, en el caso de no relación, la obtendríamos por azar menos de cinco veces de cada 100 (p< .05); nuestra conclusión será que esa correlación es estadísticamente significativa. c) Cuando de los mismos sujetos tenemos varios coeficientes de correlación En vez de aplicar la fórmula [7] o la fórmula [8] a cada coeficiente, podemos construir nuestras propias tablas, cuando el número de sujetos es siempre el mismo y los valores de z de interés también son siempre los mismos (los que figuran en la tabla 6). En la fórmula [7] podemos despejar los valores de r que nos interesan: Si
podemos despejar r;
Esta fórmula queda simplificada de esta manera:
[9]
Por ejemplo, si nuestros sujetos son N = 212, nuestras tablas serán estas9: Para p .05 Para p .01 Para p .001 Dado un número determinado de sujetos (N) los valores correspondientes a .05, .01 y .001 nos lo da directamente Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp, buscando minimum r to be significant. Esta dirección, y otras que nos dan la misma información, también está en el Anexo II. 9
141
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
3.6. Los intervalos de confianza: magnitud de la correlación en la población Si calculamos el coeficiente de correlación, por ejemplo, entre una medida de motivación y otra de rendimiento escolar, encontraremos un valor determinado en nuestra muestra. Puede ser que nuestro interés no esté en conocer el grado de relación entre estas dos variables en una muestra concreta, sino en la población más general representada por esa muestra10. Si lo que nos interesa es la magnitud de la correlación en la población (y no solamente en nuestros sujetos), el valor exacto de la correlación en la población no podemos saberlo, pero sí podemos estimar entre qué valores má ximo y mínimo se encuentra. Estos valores extremos se denominan, muy apropiadamente, intervalos de confianza. El modelo teórico es semejante al visto antes para ver si una correlación es estadísticamente significativa; la diferencia está en que antes (figura 4) suponíamos una correlación media de cero en la población y ahora (figura 5) la correlación media estimada en la población es la obtenida en una muestra. Si calculamos el coeficiente de correlación entre las mismas dos variables en un gran número de muestras, tendríamos una distribución normal de los coeficientes de correlación entre las dos variables. La correlación calculada en nuestra muestra la tomamos como una estimación de la media en la población. Esta estimación será más ajustada si la muestra es realmente representativa. El error típico (desviación típica) de esta distribución lo estimamos a partir de los datos de una muestra concreta y las fórmulas son: para muestras grandes
sr =
[10]
para muestras pequeñas
sr =
[11]
El error típico, lo mismo que una desviación típica, nos indica el margen de variabilidad probable ( de oscilación) de los coeficientes de correlación si los calculáramos en muchas muestras. Como suponemos una distribución normal, el 95% de los casos de los coeficientes de correlación caen entre la correlación obtenida en la muestra (la media de la distribución) más 1.96 En este apartado, lo mismo que en el anterior, no nos limitamos a hablar de la correlación obtenida en una muestra concreta que describe la relación entre dos variables en esa muestra, sino que estamos tratando de la correlación en la población. Cuando a partir de los datos obtenidos en una muestra deducimos los valores probables en la población ( extrapolamos ) estamos ya en estadística inferencial y no meramente descriptiva. 10
142
CONCEPTO DE CORRELACIÓN YCOVARIANZA
errores típicos y la correlación obtenida menos 1.96 errores típicos. Estos son los intervalos de confianza de la correlación, como podemos ver representado en la figura 5 (con un nivel de significación de .05). Figura 5
95% de los coeficientes de correlación en muestras de la misma población
Límite mínimo probable en la población
-1.96 errores típicos
Límite máximo probable en la población
+1.96 errores típicos
Correlación obtenida en la muestra = estimación de la correlación en la población
Por ejemplo: en una muestra de 102 sujetos encontramos una correlación de r = .20; Aplicando la fórmula [8] tendríamos z = = 2.01, p< .05 (superamos el límite de 1.96, tabla 6). La correlación de .20 en una muestra de 102 sujetos es estadísticamente significativa (no es cero en la población). Si calculamos la correlación entre las mismas dos variables en una serie indefinida de muestras ¿Entre qué límites oscilarían los coeficientes de correlación? El error típico de los coeficientes de correlación (con N = 102) sujetos es (fórmula [10]):
Límite más bajo de la correlación en la población: .20 ( media ) – (1.96)(.099) = .005 Límite más alto de la correlación en la población: .20 ( media ) + (1.96)(.099) = .394 Asumiendo la correlación que hemos encontrado de r = .20 como una estimación de la correlación media, podemos afirmar que el coeficiente de correlación en la población representada por esta muestra estará entre.005 y .394.
143
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Vemos que entre estos límites extremos probables no se encuentra el cero, por eso la correlación es estadísticamente significativa (distinta de cero en la población), aunque el límite inferior es casi cero. Vamos a ver un ejemplo de correlación no estadísticamente significativa. En una muestra de N = 120 y r = .14 vemos que (fórmula [8]) z = .14 120 – 1 = 1.53 Como no llegamos al valor crítico de 1.96 concluimos que p > .05; la probabilidad de obtener un coeficiente de esa magnitud es superior al 5%. Nuestra conclusión será que esta correlación no es estadísticamente significativa. Calculamos ahora los límites extremos (intervalos de confianza) de ese coeficiente en la población: Límite inferior:
1 .14 – 1.96 (–––––––––) = .14 - .179 = -.04 120 – 1
Límite superior:
1 .14 + 1.96 (–––––––––) = .14 + .179 = +.319 120 – 1
En la población esa cor relación estará entre -.04 y + .319; como el límite inferior es negativo (-.04) entre esos intervalos está la posibilidad de encontrar r = 0, por eso decimos que no es estadísticamente significativa; porque puede ser r = 0 en la población. Siempre que los límites extremos son de distinto signo, la correlación no es estadísticamente significativa (el cero es un valor probable porque está comprendido entre esos límites). Cuando un coeficiente de correlación calculado en una muestra es estadísticamente significativo, la información que tenemos sobre la magnitud de la correlación en la población representada por esa muestra es por lo tanto muy imprecisa, aunque podemos afirmar que no es cero. Para estimar la magnitud de la correlación en la población con una mayor precisión (entre unos límites estrechos) nos hacen falta muestras muy grandes porque al aumentar el tamaño de la muestra disminuye el error típico. Podemos verlo de manera más gráfica calculando los intervalos de confianza (límites máximo y mínimo en la población) de un coeficiente de .20 calculado en muestras de tamaño progresivamente mayor (tabla 7). Un coeficiente de correlación de r = .20 calculado con una muestra grande nos da una idea más precisa (límites extremos más estrechos ) de dónde se encuentra este valor en la población. Con frecuencia vemos en la literatura experimental resultados conflictivos: correlaciones grandes y positivas en una muestra y bajas o incluso negativas en
144
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Tabla 7
otras muestras… esta conflictividad suele ser aparente como podemos comprobar si calculamos entre qué límites pueden oscilar estos coeficientes: cualquiera de los dos coeficientes podrían caer dentro de los límites del otro 11. Aquí es oportuno hacer dos observaciones: 1. Cuando calculamos los intervalos de confianza de un coeficiente de correlación (o de cualquier otro estadístico) estamos comprobando también si ese coeficiente de correlación es estadísticamente significativo (si está dentro de lo probable una correlación igual a cero en la población). Por ejemplo, con N = 120 obtenemos una correlación de r = .15. Este coeficiente lo hemos calculado en una muestra concreta y ahora nos preguntamos entre qué límites se encuentra ese coeficiente de correlación en la población representada por esa muestra. El error típico es (fórmula [10]) 1 / 120 –1 = .0916, luego los límites estarán entre .15 ± (1.96)(.0916); como (1.96)(.0916) = .179, los límites estarán entre .15 ± .179: Límite mínimo: .15-.179 = -.03
Límite máximo: .15 + .179 = .33
En la población esa correlación de .15, calculada en 120 sujetos, se encuentra entre -.03 y + .33, el límite mínimo tiene signo menos, luego cero es un valor posible; no se trata por lo tanto de una correlación estadísticamente Los intervalos de confianza del coeficiente de correlación también podemos calcularlos muy fácilmente en programas de Internet (Anexo II; uno muy cómodo es el de VassarStats ). 11
145
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
significativa. Siempre que entre los valores extremos posibles (máximo y mínimo) de la correlación hay un cambio de signo, entra como posible el valor cero y la correlación ya no es en ese caso estadísticamente significativa (puede ser cero en la población). 2. Los intervalos de confianza son más informativos que el decir simplemente si un coeficiente de correlación es o no es estadísticamente significativo; nos dicen entre qué valores probables puede oscilar ese coeficiente en la población representada por la muestra. Lo que suele recomendarse es aportar también los intervalos de confianza. 3.7. Cómo valorar la magnitud de la correlación ¿Cuándo un coeficiente de correlación es suficientemente alto? No vamos a tener una respuesta clara y de aplicación universal, pero sí se pueden dar orientaciones para valorar la magnitud de estos coeficientes. 3.7.1. Orientaciones generales Una vez que hemos comprobado que un coeficiente de correlación es estadísticamente significativo (= muy improbable por azar y que por lo tanto se puede interpretar como indicador de una verdadera relación distinta de cero), la cuestión siguiente es valorar la magnitud del coeficiente. Como criterio orientador (sin convertirlo en norma) se suelen sugerir las valoraciones indicadas en la tabla 8. Tabla 8
un valor de r entre:
indica una relación:
0 y .20 ...................................... muy baja, .20 y .40 .................................... baja .40 y .60 .................................... moderada .60 y .80 .................................... apreciable, más bien alta .80 y 1 ....................................... alta o muy alta Las valoraciones anteriores, y otras semejantes que pueden encontrarse en libros de texto, son orientadoras y hay que interpretarlas con cautela. Estas valoraciones suelen darse teniendo en cuenta la mera magnitud, pero una correlación baja puede tener interés interpretativo12. Cohen (1988:77-81) establece (y justifica) como criterio orientador (y provisional) estas valoraciones: correlación pequeña r = .10, media r = .30 y grande r = .50. Basa sus va12
146
CONCEPTO DE CORRELACIÓN YCOVARIANZA
a) Una correlación no significativa o simplemente muy baja, puede ser tan informativa e interesante como una correlación alta. El descubrir una no relación puede tener tanto interés como verificar que sí existe relación. También puede suceder que se dé una clara relación, pero no linear sino curvilínea, y esto puede apreciarse en un diagrama de dispersión (el coeficiente eta, h, es el apropiado para relaciones curvilíneas). b) Un coeficiente de correlación puede también calificarse como alto o bajo añadiendo y matizando en este contexto. Las correlaciones muy bajas a veces se deben no a que las relación es efectivamente baja, sino a que medimos mal las variables, con instrumentos poco precisos que no detectan bien las diferencias entre los sujetos, etc. En un cuadro general de coeficientes más bien bajos, obtenidos con instrumentos semejantes y en un mismo planteamiento de investigación, pueden destacar los coeficientes altos en términos relativos. c) Para valorar la magnitud de un coeficiente de correlación, r 2 (o coeficiente de determinación, que expresa la proporción de variación conjunta) puede parecer más útil que el valor de r (y así suele a veces indicarse) ya que aparentemente este valor expresa el impacto de una variable sobre la otra variable. Como los valores de r 2 son mucho más bajos que los de r (si r = .30, r 2 = .09) el utilizarlos como criterio para valorar la magnitud o la importancia de un coeficiente de correlación tiene sus riesgos porque los coeficientes bajos pueden ser también informativos o sugerir preguntas de interés como indicamos en el apartado siguiente. 3.7.2. Sobre la interpretación y utilidad de los coeficientes de correlación bajos Los coeficientes de correlación altos o moderadamente altos no ofrecen especiales problemas; en general resultan gratificantes para el investigador. Son los coeficientes bajos, aunque sean estadísticamente significativos, los que a veces nos cuesta interpretar adecuadamente. Por eso les dedicamos una especial atención (en el apartado siguiente sugerimos posibles causas que pueden explicar coeficientes muy bajos donde cabría esperarlos mayores). La primera observación sobre estos coeficientes muy bajos (como cuando son mucho menores de .30), es que simplemente expresan una relación enloraciones en que en las ciencias de la conducta las correlaciones suelen ser bajas. Este autor es conocido (y citado) por las valoraciones que hace sobre las magnitudes de determinados estadísticos (son citadas sobre todo sus valoraciones sobre el tamaño del efecto). En otro apartado (3.7.3.) damos posibles explicaciones de coeficientes de correlación bajos.
147
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
tre las dos variables (matizando siempre tal como la medimos ) que es muy pequeña. Con muestras grandes es normal encontrar correlaciones estadísticamente significativas pero tan pequeñas que pueden ser prácticamente irrelevantes. Aun así estos coeficientes pequeños pueden darnos información útil o buenas pistas para pensar al menos por qué no encontramos una relación apreciable donde cabría esperarla (este punto lo tratamos en el apartado siguiente). Además, dadas las limitaciones de nuestros instrumentos de medición, la relación real puede ser mayor de la que somos capaces de cuantificar (una imagen que nos puede ayudar es la de un iceberg : lo que somos capaces de ver y cuantificar es mucho menor que lo que está sumergido). 1º Los coeficientes bajos (por ejemplo de .30) son poco útiles (o inútiles) desde una perspectiva práctica; por ejemplo para predecir resultados. Si dos variables están relacionadas, conociendo la puntuación de un sujeto en una variable, podemos predecir (o estimar) cuál será su puntuación en la otra variable. Por eso se habla de la validez predictiva de los tests (admisiones, selección, etc.). Aun así tests con baja validez predictiva pueden ser predictores útiles unidos a otros en correlaciones múltiples (que no tratamos ahora), pero esta utilidad habría que comprobarla 13. En estos casos ( validez predictiva de los tests ) también hay que tener en cuenta lo que explicamos en el apartado los coeficientes de correlación corregidos por restricción de la amplitud. 2º Coeficientes de correlación muy pequeños, si son significativos (es decir, que probablemente no son cero en la población), pueden estar indicando alguna ley psicológica14; el que la correlación sea pequeña puede significar no que sea realmente pequeña sino que medimos muy pobremente las variables o que esta correlación está contaminada por otras variables que no tenemos en cuenta; casi nunca medimos variables puras (así la inteligencia, tal como la medimos, puede estar contaminada por niveles de educación, capacidad lectora, etc.). 3º Algunos autores15 señalan que una correlación de .30 (aparentemente baja) viene a indicar el tipo de relación que un observador puede detectar ca sualmente; es una relación detectable a simple vista; por ejemplo, cuando un profesor cae en la cuenta, al cabo de los años, de que entre los alumnos que se sientan en las últimas filas y junto a una ventana hay más suspensos que entre los que se sientan en la primera fila… esa relación observable podría ser del orden de r = .30 y ciertamente relevante. El tema de la predicción, obviamente muy relacionado con la correlación, no lo estamos tratando aquí; puede verse tratado en el documento correlación y regresión ( www.upcomillas.es/personal/peter ). 14 Guilford y Fruchter (1973: 92). 15 Por ejemplo Cohen P. (1981) y Cohen J. (1988:80), y también otros autores hacen la misma observación. Cohen J. (1988:80) cita coeficientes de correlación importantes que son de este tipo de magnitud (.30). 13
148
CONCEPTO DE CORRELACIÓN YCOVARIANZA
4º Cuando las dos variables son dicotómicas (una puede ser participar o no participar en una terapia, en un nuevo método, experiencia, etc. y la otra mejorar o no mejorar, sobrevivir o no sobrevivir, etc.) el coeficiente de correlación es igual al tanto por ciento de éxito; así una correlación de .20 (que indica que solamente hay un 4% de varianza común) quiere decir que con ese tratamiento han mejorado, sobrevivido, etc., un 20% más de los que hubieran sobrevivido de no seguir ese tratamiento16. Este es un dato importante para valorar los coeficientes de correlación, que aunque sean bajos pueden indicar un éxito cualitativamente importante (¿es despreciable un 4% de supervivientes (si r = .04) que de otra manera no hubieran sobrevivido?). Sobre esta última valoración e interpretación de los coeficientes de correlación hacemos dos observaciones: 1ª Aunque literalmente se refiere a la correlación entre dos variables dicotómicas (un caso especial de la correlación de Pearson que en principio requiere que al menos una variable sea continua), esta interpretación es también válida cuando las variables son continuas (como escalas tipo Likert).17 2ª Aunque este tipo de comprobaciones (por ejemplo eficacia de una terapia) las hacemos habitualmente comparando medias (comparando dos grupos, uno experimental y otro de control) los resultados (t de Student) se pueden convertir fácilmente en un coeficiente de correlación que añade una información complementaria que no nos aporta la t de Student, pues nos permite valorar la magnitud (y por lo tanto la importancia ) de la diferencia.18 Aunque estos planteamientos no sean los que más nos interesen ahora mismo al tratar de la correlación de Pearson, no sobra intuir el valor informativo que puede tener una correlación pequeña. Esta interpretación (denominada Binomial Effect Size Display, BESD) elaborada por Rosenthal y Rubin (1979, 1982; Rosenthal, 1987); la recogen también otros autores (por ejemplo Hunter y Schmidt, 1990:202; Cohen, 1988:533) que revalorizan la información que pueden aportar a veces coeficientes pequeños de correlación en determinadas situaciones. En los primeros autores citados pueden encontrarse una explicación más detallada y tablas que facilitan esta interpretación. Sobre el Binomial Effect Size Display puede verse en Internet Randolph y Edmondson (2005), que exponen su utilidad y limitaciones y también cómo calcular este Binomial Effect Size Display a partir del tamaño del efecto (d de Cohen) si se ha hecho un contraste de medias (la t de Student puede transformarse en un coeficiente de correlación). 17 Rosenthal (1987: 114-115). 18 Las fórmulas para convertir los valores de t en r y viceversa suelen verse tratando del tamaño del efecto en el contexto del contraste de medias. 16
149
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
5º Hay que tener en cuenta la situación y el uso del coeficiente. Un valor pequeño (por ejemplo de r =.20) puede ser poco útil (o nada útil) con fines predictivos, y ser sin embargo de interés en una investigación teórica; a veces lo que interesa es constatar si se da alguna relación. Estas consideraciones sobre los coeficientes pequeños de cor relación hay que complementarlas con otras sobre las posibles causas de estos valores bajos, sobre todo si cabría esperar que fueran mayores. Nos introducen en otras reflexiones útiles para el investigador. 3.7.3. Explicaciones posibles de coeficientes de correlación muy bajos Una correlación baja puede significar simplemente eso, que la relación entre esas dos variables es pequeña. Sin embargo una correlación baja donde hubiéramos esperado un valor mayor nos invita a preguntarnos el por qué de esa correlación baja o nula. Puede que sea baja tal como la hemos medido y además en una determinada muestra, pero que en la realidad, en la vida, la relación sea mayor y más clara. Explicaciones posibles de coeficientes de correlación bajos. Las posibles explicaciones (más que causas) de los coeficientes de correlación muy bajos pueden ayudarnos en su interpretación y explicación. a) Poca fiabilidad , o poca precisión, en los instrumentos de medición Entre dos variables puede haber una verdadera relación, pero no detectable si medimos con poca precisión, sin diferenciar adecuadamente a unos sujetos de otros. Debemos tener en cuenta que a veces intentamos medir sentimientos, profundos, recuerdos del pasado, valoraciones difíciles de hacer , etc., con preguntas sencillas, que los sujetos a veces responden rápidamente y sin especial cuidado 19; quizás no tenemos otra manera mejor de hacerlo en un momento dado, pero en cuanto instrumentos de medición resultan muy pobres (aunque pueden ser muy útiles). Con las preguntas de muchos cuestionarios lo que hacemos con frecuencia es intentar atrapar sentimientos con un cazamariposas. A veces podemos sospechar que una correlación muy pequeña, sobre todo detectada con instrumentos muy pobres, es simplemente la punta del iceberg ; la realidad sumergida (o sugerida como hipótesis) puede ser mucho mayor. Para Cohen (1988:79) muchas de las correlaciones que podemos buscar en las ciencias blandas de la conducta son del orden de .10 ya que en las variables, tal como las operacionalizamos, hay muchos ruidos (falta de fiabilidad o de fidelidad al constructo teórico, etc.). El mismo autor cita a Thurstone cuando dice que en psicología medimos a los hombres por sus sombras. 19
150
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Es posible aplicar las fórmulas de corrección por atenuación que dan una estimación de la correlación que podríamos obtener si la fiabilidad fuera perfecta. De estas fórmulas (que suponen una comprensión adecuada de lo que es la fiabilidad) tratamos más adelante. b) Homogeneidad de la muestra La relación verificada (que es lo que indica el coeficiente de correlación) supone diferencias entre los sujetos en las variables cuya relación nos interesa comprobar . Con muestras muy homogéneas los coeficientes son bajos; con muestras heterogéneas es más fácil detectar relaciones. Por ejemplo la relación comprobada mediante el coeficiente r entre inteligencia y rendimiento escolar puede ser muy baja o nula si los alumnos han sido seleccionados precisamente por su inteligencia (no hay diferencias, o muy pequeñas, en una de las variables). c) Instrumentos poco discriminantes También puede suceder que el poco matiz de algunas medidas no recoge las diferencias que de hecho se dan, e impide encontrar coeficientes de correlación altos. Se trata en definitiva de limitaciones en el instrumento de medi da. Con frecuencia es éste el caso cuando: a) Una de las variables son calificaciones escolares que apenas diferencian a los alumnos, o son notas medias que tienen a parecerse mucho entre sí. b) Cuando medimos una variable con unas preguntas que admiten pocas respuestas (como sí o no, o poco, algo, mucho, cuando los sujetos podrían matizar más) y que por lo tanto no recogen la diversidad que de hecho puede estar presente en la muestra. La homogeneidad de la muestra puede estar provocada por el mismo instrumento, que no discrimina lo suficiente, y sin diferencias claras en la muestra y en ambas variables no se detectan relaciones. Este punto hay que tenerlo en cuenta en la construcción de instrumentos de medida (tests, escalas, cuestionarios…). 3.8. Los coeficientes de correlación cuando unimos o separamos submuestras Este apartado es de interés porque muchas veces los sujetos de nuestras muestras se pueden subdividir de muchas maneras (cursos, carreras, profesiones, sexos, procedencia), y también en las variables que correlacionamos
151
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
cabe distinguir varias subvariables (por ejemplo, en vez de, o además de, una nota media como criterio de rendimiento se pueden utilizar las notas de las distintas asignaturas y también otros criterios disponibles). En dos muestras distintas podemos encontrar una correlación alta entre, por ejemplo, un test de inteligencia y calificaciones en una asignatura, y al unir las dos muestras podemos encontrarnos con que la correlación baja apreciablemente. Esto puede suceder si las medias en esa asignatura son muy distintas en las dos muestras (como puede suceder si se trata de profesores distintos, o con distinto criterio para calificar, etc.) Calculando coeficientes de correlación uniendo muestras distintas o separándolas podemos hacer que aumenten o disminuyan las diferencias en una o en las dos variables y esto naturalmente afecta a los coeficientes de correlación. Presentamos (de manera un tanto exagerada para que quede más claro) algunos casos típicos que ponen de relieve lo que puede suceder al unir o separar muestras. Cuando una muestra está compuesta por submuestras (ambos sexos, di versas edades, o una muestra subdividible por cualquier otra variable) puede merecer la pena calcular la correlación dentro de cada submuestra; con frecuencia aparecen correlaciones en subgrupos concretos sin que aparezcan en la muestra general; y al revés, puede no haber una relación apreciable en una submuestra y aparecen relaciones importantes cuando las unimos en una sola muestra. Los gráficos siguientes ( diagramas de dispersión, con datos ficticios) ilustran situaciones que pueden ser frecuentes y en las que los coeficientes de correlación varían mucho si los calculamos en submuestras distintas o en toda la muestra20. En el diagrama I (figura 6) tenemos que dentro de cada muestra r = 0, en cambio si unimos las dos muestras en una sola, la correlación pasa a ser muy alta. Una muestra tiene las dos medias más altas que la otra, y al unirlas en una sola muestra tienden a coincidir los altos y los bajos en las dos variables. De hecho un mismo coeficiente de correlación puede corresponder a diagramas de dispersión muy distintos en los que el mismo coeficiente no se podría interpretar de la misma manera, por eso para interpretar estos coeficientes es muy aconsejable tener a la vista el diagrama de dispersión. Un ejemplo muy ilustrativo son los cuatro diagramas de dispersión que con datos ficticios publicó Anscombe (1973); los cuatro diagramas de dispersión son muy distintos pero corresponden a un idéntico coeficiente de correlación de .82; estos diagramas los reproducen con su explicación algunos autores (por ejemplo Fox; 1993:246 y Etxcheberria, 1999:49) y también podemos encontrarlos con facilidad en Internet (por ejemplo Behrens, 1997); también en Internet Dallal (2001) reproduce (en correlation coefficients ) ocho diagramas muy distintos que corresponden a un mismo coeficiente de correlación de .70 20
152
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Figura 6: DIAGRAMA I
9 8
Caso 1º
7 Subgrupo B, r = 0.00
6 Y
5 4
Subgrupo A, r = 0.00 Todos, r = 0.82
3 2 1 1
2
3
4
5
6
7
8
9
X
Éste podría ser el caso de la correlación entre peso (X) y edad (Y) en un grupo de niños de cinco años y en otro de diez años. En cada grupo la correlación es cero; las diferencias en edad (meses, semanas) y en peso son pequeñas y sobre todo no son sistemáticas (dos meses más de edad no implica pesar medio kilo más…). En cambio si juntamos los dos grupos y calculamos la correlación con todos sube a .82 (muy alta): ahora coinciden altos en edad altos en peso y bajos en edad-bajos en peso. Como ejemplo puede ser irrele vante, pero es claro En el diagrama II (figura 7) tenemos el caso opuesto: dentro de cada grupo la correlación es alta, pero baja apreciablemente al unirlos en un solo grupo. Posiblemente ambos grupos proceden de poblaciones distintas por lo que respecta a las medias en la variable X (y esto podría comprobarse).
153
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Figura 7: DIAGRAMA II 9 8
Todos, r = 0.30
Caso 2º
7 6 Y
5 4
Subgrupo B
Subgrupo A r = 0.84
r = 0.84
3 2 1 1
2
3
4
5
6
7
8
9
X
En el ejemplo del diagrama II (figura 7) la variable Y podría ser un test de inteligencia abstracta, y la variable X notas en matemáticas. En ambos grupos las medias en Y ( inteligencia ) son parecidas, pero las medias en X (notas en matemáticas ) son claramente diferentes. En ambos casos los más inteligentes según ese test son también los que mejores notas sacan; en cada clase hay una relación alta y clara entre el test (Y) y las notas (X), pero esta relación baja si calculamos la correlación juntando las dos clases en un mismo grupo. ¿Por qué? En este ejemplo podría tratarse de profesores distintos, uno califica más bajo y el otro más alto… al juntar a todos los alumnos de las dos clases se neutralizan las diferencias y queda menos claro lo de altos en las dos o bajos en las dos… En un caso como éste se podría calcular la correlación por separado en cada muestra y luego calcular la correlación media. Esto es frecuente también que suceda cuando una de las variables es la nota media de varias asignaturas; estas notas medias neutralizan las diferencias en rendimiento académico. En estos casos puede ser preferible comprobar la correlación en cada muestra por separado y calcular después la correlación media.
154
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Figura 8: DIAGRAMA III
9 8
Caso 3º
7 6 Y
Subgrupo B, r = 0.00
5 Todos, r = 0.92
4 3 Subgrupo A, r = 0.83
2 1 1
2
3
4
5
6
7
8
9
X
En el diagrama III (figura 8) tenemos un caso distinto pero frecuente cuando ha habido procesos de selección. En toda la muestra la correlación es muy alta, sin embargo si la calculamos en la submuestra con puntuaciones más altas en una o las dos variables, la correlación baja e incluso puede ser negativa. Si una variable es un test de inteligencia (X) utilizado para seleccionar candidatos en una universidad, y la otra variable (Y) es rendimiento académico, tendríamos que dentro de los seleccionados (los únicos de los que tenemos datos en las dos variables) la correlación obtenida entre inteligencia y rendimiento es muy baja e incluso puede ser negativa. Con la selección eliminamos diferencias en una variable (X), y sin diferencias sistemáticas en las dos variables no hay relación comprobable. Éste es un caso típico cuando se desea ver si los tests utilizados en las pruebas de admisión (o cualquier otro dato de entrada ) tiene que ver con el éxito posterior . En el caso representado en la figura 8 no han sido admitidos los que no han llegado a 6 en la prueba de admisión (X) con lo que tenemos datos en X de todos (admitidos y no admitidos), pero en Y (éxito académico) sólo tenemos datos de los admitidos. Hemos homogeneizado la muestra y entre los
155
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
seleccionados no se detecta ninguna relación entre el test de admisión (X, un presunto predictor ) y éxito académico. Veremos métodos para calcular una estimación de la correlación entre las dos variables en toda la muestra, si disponemos de la correlación en el grupo seleccionado (en el que tenemos datos de las dos variables) y además la varianza de toda la muestra en una de las dos variables (en este caso del test de inteligencia utilizado en la selección). Estas estimaciones son útiles para poder apreciar y valorar la eficacia de un test supuestamente predictivo, independientemente de las correlaciones (quizás muy bajas) que hayamos obtenido (volvemos a este punto al tratar de los coeficientes de correlación corregidos por restricción de la amplitud, nº 4.2). 3.9. Influjo en la correlación de las puntuaciones extremas (outliers) Una puntuación extrema o atípica ( outlier en inglés) es la que se aparta mucho de las demás. Si una variable es la edad y la muestra es de niños de 12 a 14 años, si incluimos un sujeto de 40 años se trata evidentemente de una puntuación extrema en la variable edad. Estas puntuaciones extremas o atípicas pueden influir mucho en el coeficiente de correlación. Lo vemos claramente en el diagrama IV de la figura 9. Figura 9: DIAGRAMA IV 9 8
r = .64
7 6 Y
5 4 3 r = .00
2 1 1
2
3
4
5 X
156
6
7
8
9
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Si calculamos la correlación con los sujetos encerrados en el recuadro tenemos r = 0, no hay ninguna relación como se aprecia a simple vista en el diagrama, pero si añadimos un sujeto más con puntuaciones muy altas en las dos variables (altas en términos relativos, comparadas con los de los demás sujetos), la correlación sube de 0 a .64. También pueden bajar como podemos ver en el diagrama V de la figura 10. Figura 10: DIAGRAMA V 9 8 r = .71 7 6 Y
5 4 3 r = .15
2 1 1
2
3
4
5
6
7
8
9
X
En los sujetos encerrados en el recuadro vemos una correlación más bien alta (r = .71) que baja a .15 si incluimos un solo sujeto con una puntuación muy alta en una variable (en X) y muy baja en la otra (en Y). El efecto de estas puntuaciones atípicas ( outliers ) es muy grande en muestras pequeñas (como en las de estos ejemplos ficticios); en muestras muy grandes puede ser inapreciable, pero aun así estas puntuaciones que se salen de lo normal pueden distorsionar la información de un coeficiente de correlación. Estas puntuaciones pueden estar indicando a veces respuestas intencionadamente exageradas o simplemente que el sujeto no entendió la pregunta, pero también pueden reflejar respuestas sinceras de sujetos realmente atípicos.
157
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Con respecto a estas puntuaciones atípicas: a) Puede ser de interés hacer un análisis cualitativo de los sujetos con este tipo de respuestas ¿Qué característica tienen en común? Aquí puede haber resultados interpretables. b) Se puede presentar el valor de la correlación con o sin estos sujetos atípicos; esto puede ser más aconsejable en muestras pequeñas. c) Ciertamente en muchos estudios se prescinde de estos sujetos porque distorsionan el valor de los coeficientes de correlación y no muestran la relación entre las variables que podemos esperar en sujetos normales; por alguna razón estas respuestas no son normales y es preferible no contabilizar a esos sujetos. En estos casos conviene indicarlo, lo mismo que el criterio que se ha seguido para identificar los datos atípicos 21. d) Sobre cuándo una puntuación se aparta realmente de lo normal no hay unanimidad en los criterios, pero una norma aceptable es prescindir de los sujetos que en cualquiera de las variables tengan una puntuación típica superior a 3 (positiva o negativa) 22. 4. COEFICIENTES DE CORRELACIÓN CORREGIDOS Los coeficientes de correlación pueden resultar a veces de alguna manera deformados (demasiado altos o demasiado bajos) por diversas causas, de manera que no dan una idea clara sobre la verdadera relación entre dos variables. Tenemos por ejemplo estos tres casos de los que vamos a tratar a continuación: 1º Una baja relación donde la esperamos mayor puede deberse a la baja fiabilidad de los instrumentos de medición, y no tanto a que las variables no estén claramente relacionadas; al menos las correlaciones serían mayores con una fiabilidad mayor en los instrumentos. 2º También una baja relación puede deberse a que la muestra en la que se ha calculado ha sido artificialmente homogeneizada, han disminuido En grandes estudios correlacionales se suele prescindir de estos sujetos atípicos (por ejemplo con puntuaciones típicas en alguna variable superiores a z = 2), e incluso esta supresión está prevista en programas como el SPSS. 22 Orientación de Osborne y Overbay (2004) que recomiendan la exclusión de estas puntuaciones ( there are strong arguments for removal or alteration of outliers ) y exponen los diversos posibles orígenes de estos outliers. Otra alternativa propuesta por otros autores consiste en recodificar los outliers y sustituir estas puntuaciones por las puntuaciones máxima y mínima presentes en el resto de los datos ( truncation ). Estas puntuaciones atípicas también afectan a la t de Student y al análisis de varianza. 21
158
CONCEPTO DE CORRELACIÓN YCOVARIANZA
las diferencias en una de las variables y naturalmente bajan los coeficientes de correlación (explicado antes a propósito del diagrama III, figura 8). 3º Cuando calculamos la correlación entre una parte y el todo (como entre un ítem y la puntuación total de la que forma parte ese ítem) en este caso la correlación sube artificialmente y da una idea incorrecta sobre la verdadera relación entre esa parte y el todo. Para estas situaciones, que son frecuentes, disponemos de fórmulas correctoras que nos dan una estimación de la verdadera correlación (o la correlación exacta como en el caso 3º). 4.1. Correlación y fiabilidad: los coeficientes de correlación corregidos por atenuación Ya hemos indicado antes que la verdadera relación puede ser mayor que la que muestra un determinado coeficiente, debido a la falta de fiabilidad de los instrumentos de medición. Si el instrumento (test, escala, etc.) no detecta con precisión las diferencias que hay entre los sujetos, la correlación calculada puede ser inferior a la real (o superior en el caso de las correlaciones parciales )23. Este apartado, que es importante situarlo en el contexto de los coeficientes de correlación, supone un estudio previo de lo que son los coeficientes de fiabilidad, pero se puede entender con sólo una noción básica de lo que es la fiabilidad (precisión en la medida). 4.1.1. Fórmula de corrección por atenuación Disponemos de unas fórmulas que nos permiten estimar cual sería el coeficiente de correlación si la fiabilidad fuera perfecta. Se denominan fórmulas de corrección por atenuación porque el coeficiente de correlación está atenuado (disminuido) por la falta de fiabilidad de los instrumentos. La fórmula general de la correlación corregida por atenuación es: r xx y r yy son los coeficientes de fiabilidad de cada medida; en el denominador puede estar también sólo la fiabilidad de uno de los instrumentos si la del otro nos es desconocida, como aparece más adelante en la fórmula [13]. Una buena exposición de los efectos de la baja fiabilidad en los coeficientes de correlación y de la corrección por atenuación puede verse en Osborne (2003). 23
159
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Por ejemplo: tenemos un coeficiente de correlación entre dos variable de .25; los coeficientes de fiabilidad de los dos instrumentos son .70 uno (suficientemente alto) y .40 (muy bajo) el otro. Podemos preguntarnos ¿Cuál es la estimación de la correlación entre estas dos variables si las midiéramos con una fiabilidad ideal?:
Para poder aplicar esta fórmula con resultados fiables: 1) Los coeficientes de fiabilidad que aparecen en el denominador deben estar calculados en muestras grandes 24. 2) Los coeficientes de fiabilidad deben calcularse mediante los procedimientos que dan las mejores estimaciones de la fiabilidad (como las fórmulas Kuder-Richardson 20 y el coeficiente a de Cronbach). Cuando el coeficiente de fiabilidad es más bien una estimación pobre y aproximada, la correlación corregida por atenuación puede incluso superar el valor de 1. 3) Los coeficientes de fiabilidad deben calcularse solamente en medidas claramente unidimensionales, es decir, que miden un único rasgo 25. 4.1.2. Cuándo debe hacerse esta corrección por atenuación 1º Cuando interese saber hasta qué punto dos variables están relacionadas, independientemente de los errores de medición de los instrumentos utilizados. Esto sucede en muchos planteamientos de investigación teórica. Si por ejemplo calculamos la correlación entre autoeficacia académica y autorregulación en el estudio, lo que realmente nos interesa conocer es hasta qué punto ambas variables van juntas. Si las medidas que de hecho utilizamos (tests, escalas, etc.) tienen una fiabilidad baja (clasifican mal a los sujetos) la correlación sin corregir puede sugerir que las dos variables están menos relacionadas que lo que de hecho están. Estos coeficientes de correlación corregidos son interesantes para apreciar lo que podemos estimar que es el verdadero valor de una relación, pero no tienen utilidad práctica (por ejemplo para hacer estudios de predicción) porque de hecho medimos con los instrumentos que tenemos, con Según Nunnally (1978) no deben ser inferiores a N =300. Cuando se utiliza esta corrección por atenuación en medidas que no son unidimensionales, el valor de la fiabilidad puede superar el valor de 1 (Schmitt, 1996). 24 25
160
CONCEPTO DE CORRELACIÓN YCOVARIANZA
todas sus imperfecciones y en este caso es preferible no hacer estas correcciones por atenuación. 2º También suele aplicarse la fórmula de corrección por atenuación cuando se calcula la correlación entre dos formas paralelas del mismo test, como una forma de fiabilidad (para comprobar si las dos versiones del mismo test ordenan a los sujetos de manera semejante). En este caso es discutible el calcular el error típico (que se calcula a partir de los coeficientes de fiabilidad, que en este caso es un coeficiente de correlación), porque este error (o margen de oscilación de las puntuaciones individuales si los sujetos respondieran varias veces al mismo test) puede parecer menor de lo que realmente es. En general siempre que de estos cálculos se derivan de alguna manera datos que van a influir en decisiones o diagnósticos de sujetos, hay que tener en cuenta los errores de medición (la falta de fiabilidad de los instrumentos) en vez de suponer que no existen. Para la toma de decisiones tenemos que asumir las limitaciones que nuestros instrumentos tienen de hecho. 3º Otra serie de aplicaciones de la corrección por atenuación tienen que ver con lo que suele denominarse validez predictiva, o correlación entre un predictor X y un criterio Y. El predictor puede ser, por ejemplo, un examen o un test de admisión, y el criterio (que se desea predecir) pueden ser calificaciones, un examen final, o cualquier otra medida que refleje éxito. En estos casos el problema está en el criterio: la falta de fiabilidad del criterio hace bajar la correlación entre predictor y criterio, y el test predictor puede parecer menos válido de lo que realmente es. En estos casos se aplica esta fórmula: r xy = correlación calculada entre el predictor (X) y el criterio (Y) r yy = fiabilidad del criterio Si comparamos esta fórmula con la anterior, vemos que hemos suprimido del denominador la fiabilidad del predictor; sólo se ha corregido la correlación por la falta de fiabilidad en el criterio. Lo que nos interesa conocer en estos casos es la correlación entre el pre dictor (X, por ejemplo un examen de ingreso), con los errores y la fiabilidad que de hecho tenga, y el criterio (Y) si tuviera la máxima fiabilidad . Esta cor relación nos indicará mejor la calidad del predictor. En los problemas de predicción, la fiabilidad del predictor impone un límite en su capacidad de predecir, y con esa limitación hay que contar. En cambio la falta de fiabilidad del criterio lo que hace es obscurecer la capacidad
161
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
predictora del test o instrumento utilizado como predictor. Muchos de los llamados coeficientes de validez (que en este caso no son otra cosa que coeficientes de correlación entre predictor y criterio) aportan de hecho poca información o son de interpretación ambigua porque no se ha tenido en cuenta la fiabilidad del criterio. Un problema que suele encontrarse en estos planteamientos es la dificultad de calcular la fiabilidad del criterio. Frecuentemente todo el interés se centra en el predictor (qué test se utiliza, etc.) y se descuida la calidad y fiabilidad del criterio (o variable que se pretende predecir , por ejemplo notas, éxito académico, etc.) 26 4.1.3. Otras estimaciones de la correlación modificando la fiabilidad Existen otras fórmulas para estimar la correlación que obtendríamos entre un predictor (X) y un criterio (Y), no si tuvieran la máxima fiabilidad, sino simplemente una fiabilidad distinta. Por fiabilidad distinta no hay que entender una fiabilidad mayor necesariamente, también podría ser menor . Puede suceder que con tests más breves (y probablemente de una fiabilidad menor pero con el consiguiente ahorro económico, de tiempo, etc.) obtengamos casi los mismos resultados que con tests más largos. Este planteamiento puede tener su interés porque la fiabilidad depende (en parte) del número de ítems (otras fórmulas relacionan la longitud del test y fiabilidad). La fiabilidad perfecta no la tenemos nunca, pero sí podemos conseguir que aumente mejorando la calidad de los ítems y aumentando su número. A unque este tipo de planteamientos se presentan sobre todo cuando interesa predecir el éxito (en selección de personal, por ejemplo) estas fórmulas son aplicables también para analizar cualquier coeficiente de correlación entre dos variables que en un sentido más propio no puedan calificarse como predictor y criterio. Lo que se plantea con más frecuencia es estimar la cor relación entre X e Y si aumentamos la fiabilidad de ambos instrumentos (añadiendo más ítems). La fórmula aplicable en estos casos es la siguiente:
Cuando se pretende predecir éxito académico (a partir de un test, de datos pre vios) el criterio suele ser nota media final con frecuencia poco fiable o de fiabilidad imposible de calcular. En estos casos (y otros) conviene disponer de varios criterios de éxito (número de sobresalientes, de suspensos, notas en determinadas asignaturas, etc.) 26
162
CONCEPTO DE CORRELACIÓN YCOVARIANZA
r xy = correlación obtenida entre X e Y r’ xx y r’ yy = coeficientes de fiabilidad distintos (nuevos, deseados) r xx y r yy = coeficientes de fiabilidad obtenidos de hecho Si solamente vamos a modificar el coeficiente de fiabilidad de uno de los dos instrumentos (X en este caso, pero podría ser Y) la fórmula es ésta:
r xy r’ xx r xx
= correlación obtenida entre X e Y = coeficientes de fiabilidad en X distinto = coeficientes de fiabilidad obtenido en X
El coeficiente de fiabilidad de X distinto puede ser menor, por ejemplo en una versión reducida (y más económica o más cómoda) del mismo test. En este caso (frecuente) podemos suponer que no nos es fácil modificar, e incluso calcular, la fiabilidad del criterio. 4.1.4. Relación entre longitud del test y fiabilidad y longitud del test y correlación Existen otras fórmulas que relacionan: a) El número de ítems y la fiabilidad de cualquier test (al aumentar el número de ítems la fiabilidad tiende a aumentar); las fórmulas que relacionan el número de ítems y la fiabilidad suelen verse en el contexto de la fiabilidad. b) La correlación entre X e Y y el número de ítems (la longitud) de X (X es el test predictor que se controla con más facilidad). Estas fórmulas, y otras (como las que vemos en el apartado siguiente), pueden encontrarse con facilidad en textos de psicometría y de estadística aplicada a la educación 27. Cuando se trata de aumentar el número de ítems (para que suban la fiabilidad o un coeficiente de correlación), se supone que los nuevos ítems son del mismo estilo (miden lo mismo, son de formulación parecida y de semeLas fórmulas que relacionan la fiabilidad y el número de ítems pueden verse en Morales, Urosa y Blanco (2003). 27
163
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
jante dificultad, etc.) que los que ya tenemos; como esto no suele ser así exactamente, habría que hablar de estimaciones de la nueva fiabilidad o correlación al aumentar el número de ítems. Estas fórmulas son de una utilidad en general muy limitada, pero pueden tener su interés cuando nos interesa construir o modificar un test para que tenga una clara validez predictiva o al menos una mayor validez (es decir, una mayor cor relación entre el predictor y el criterio) que la que disponemos (por ejemplo en procesos de selección, admisiones, etc.; buscamos una correlación clara con criterios definidos); a la vez podemos controlar la fiabilidad del test predictivo aumentando el número de ítems. Estas fórmulas suelen aplicarse: a) En aquellos tests que se pueden manipular con facilidad porque resulta fácil aumentar el número de ítems, como puede ser un examen objetivo de conocimientos. b) En situaciones en las que es de gran interés la validez predictiva (como en procesos de admisión o selección, que por otra parte tampoco suelen limitarse a un test). No es habitual utilizar estas fórmulas con otros tipos de tests (por ejemplo en tests de personalidad, inteligencia, etc.) ya hechos y publicados, y que ya tienen el número de ítems decidido por el constructor del test. 4.2. Los coeficientes de correlación corregidos por restricción de la amplitud Ya hemos visto que cuando la muestra es más homogénea (los sujetos son muy parecidos unos a otros en las dos o en una de las dos variables) baja el valor del coeficiente de cor relación. No se comprueban relaciones si los sujetos no son distintos en las dos variables. El que los coeficientes de correlación sean menores cuando la muestra es homogénea plantea también problemas de validez predictiva en situaciones de selección. Vamos a suponer que ponemos un test de selección (el test X, el predictor) para admitir a los futuros alumnos de una universidad y nos quedamos con los mejores, los que puntúan muy alto en el test X. Entre los alumnos admitidos habrá menos diferencias en lo que mida el test X que entre todos los que se presentaron a las pruebas de admisión; hemos homogeneizado la muestra mediante el proceso de selección. Posteriormente queremos comprobar la validez del test X, y calculamos la correlación entre el test X y el criterio Y (por ejemplo calificaciones, o una
164
CONCEPTO DE CORRELACIÓN YCOVARIANZA
prueba objetiva de rendimiento). Podemos encontrarnos con que la correlación es muy pequeña y concluir que el test no es válido (hay una relación muy pequeña entre el predictor y el criterio). Esta conclusión puede ser discutible: la correlación la hemos calculado solamente con los alumnos admitidos y no con todos los que se presentaron inicialmente y de los que tenemos datos en el test X. La varianza en X de los admitidos es lógicamente más pequeña que la varianza calculada en todos los que se presentaron, admitidos y no admitidos, y una varianza menor (grupo más homogéneo) hace bajar la correlación entre X e Y. En estas situaciones podemos estimar la correlación entre X e Y en el caso de que todos hubieran sido admitidos. Esta correlación (se trata de una estimación), calculada con todos los presentados, es la que podría darnos una idea mejor sobre la validez predictiva del test X. Esta correlación estimada se puede calcular mediante esta fórmula:
R xy = estimación de r xy si la calculáramos en toda la muestra inicial; r xy = correlación entre X e Y obtenida en la muestra seleccionada; si = desviación típica en X calculada en toda la muestra inicial (admitidos y no admitidos) ss = desviación típica calculada en X en la muestra seleccionada (admitidos solamente) Ésta es la fór mula que suele encontrarse en los textos (y por esta razón la ponemos aquí), pero esta otra expresión [17] de la misma fórmula [16] puede resultar más sencilla28: si
donde U = –––– ss
y R xy y r xy como antes
Puede verse comentada en Hunter y Schmidt (1990, pp.125ss); los coeficientes de correlación corregidos por restricción de la amplitud están bien tratados en Guilford y Fruchter (1973) 28
165
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Por ejemplo: en un test de selección para entrar en una universidad encontramos que En la muestra inicial (todos los candidatos que se presentan a la selección, incluidos naturalmente los que no admitidos) la desviación típica es sinicial = 6 En la muestra seleccionada la desviación típica es sseleccionada = 3 La correlación entre el test de selección y un criterio (por ejemplo, nota media al terminar el primer curso) es de .30; esta correlación la calculamos solamente en la muestra seleccionada, como es natural. Podemos preguntarnos ¿Cuál hubiera sido esta correlación si la hubiéramos podido calcular en toda la muestra que se presentó al examen de admisiones? Substituyendo tenemos: En la primera fórmula [16]:
En la segunda fórmula [17] (U = 6/3 = 2)
El diferente redondeo de los decimales en los diferentes pasos hace que los resultados no sean siempre exactamente iguales, pero la diferencia es pequeña. Vemos que la correlación ha subido de .31 (calculada con los seleccionados) a .41 (una estimación de la que hubiéramos obtenido si todos hubieran sido admitidos). 4.3. Corrección de las correlaciones de una parte con el todo A veces nos interesa conocer la correlación entre una parte y un total al que esa parte también contribuye. El ejemplo más común (no el único posible) es cuando calculamos la correlación entre cada uno de los ítems de un test o escala y el total del test. Este cálculo es interesante: a mayor correlación entre un ítem y el total, más tiene que ver ese ítem con lo que miden los demás ítems (son los que
166
CONCEPTO DE CORRELACIÓN YCOVARIANZA
discriminan más, y los que mejor representan el constructo subyacente o ras go que se desea medir). En la construcción y análisis de instrumentos de medición este paso es de mucho interés. El problema surge del hecho de que ese ítem también está sumado en el total, con lo que la correlación resultante es artificialmente alta. En realidad lo que nos interesa es la correlación de cada ítem con la suma de todos los demás, es decir, con el total menos el ítem en cuestión. En algunos programas de ordenador 29 ya está programada la correlación de cada ítem con el total menos el ítem, pero no siempre disponemos de estos programas. A veces lo más cómodo (cuando no se dispone de un programa adecuado) es calcular la correlación de cada ítem con el total, sin más 30. En este caso estas correlaciones artificialmente altas podemos dejarlas en su magnitud exacta aplicando después la fórmula [18].
r i(T-i) = Correlación entre un ítem (o parte de un total) y el total menos ese ítem (o correlación entre un ítem y la suma de todos los demás) r iT = Correlación ítem-total si y sT: desviaciones típicas del ítem y del total Sobre esta corrección: a) Suponemos que la correlación de cada ítem con el total (con la suma de todos los ítems, r iT ) está calculada con un programa de ordenador, lo mismo que las desviaciones típicas de los ítems y de los totales. Con estos datos es fácil aplicar esta fórmula [18] (o programarla). b) Cuando los ítems son muchos la diferencia entre r iT y r i(T-i) es pequeña. c) En estas situaciones y para valorar estos coeficientes, es útil estimar cuál sería el valor medio de la correlación de cada ítem con el total cuando 1) realmente no hay relación (correlación cero entre los ítems) y 2) todos los ítems o partes tuvieran igual varianza; en este caso la fórmula [18] nos da la estimación de la correlación de cada ítem con el total 31: donde k es el número de ítems 29 30 31
Como en el SPSS, en Analizar-Escalas-Análisis de la Fiabilidad. Podemos hacerlo fácilmente con una hoja de cálculo tipo EXCEL. Guilford y Fruchter, 1973:321.
167
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
5. CORRELACIONES PARCIALES Una correlación parcial entre dos variables es una correlación que anula o neutraliza una tercera variable (o más variables): es la correlación entre dos variables igualando a todos los sujetos en otras variables. Aquí tratamos solamente de las correlaciones parciales de primer orden. Se denominan correlaciones parciales de primer orden aquellas en la que neutralizamos (o mantenemos constante) solamente una tercera variable; en las correlaciones parciales de segundo orden neutralizamos dos variables; el procedimiento es similar aunque la fórmula es algo más complicada si no la tenemos ya programada. En cambio las correlaciones parciales de primer orden son sencillas y muy útiles. La correlación parcial, como todos los coeficientes de correlación relacionados con el coeficiente r de Pearson, comprueba solamente relaciones rectilíneas. 5.1. Utilidad de las correlaciones parciales La correlación parcial es útil para controlar variables y puede substituir determinados diseños experimentales en los que se pretende no tener en cuenta el influjo de una o dos determinadas variables Los casos en que se utiliza más son aquellos en los que se pretende controlar variables como la edad y la inteligencia. Por ejemplo la correlación entre peso y altura en un grupo de niños de distinta edad se verá influida por la edad . Los niños mayores en edad también serán de más peso y de mayor estatura. La misma correlación entre peso y altura en grupo de niños de la misma edad será menor. La diversidad en edad hace que la relación entre peso y altura aumente. Si queremos conocer la relación entre peso y altura independientemente de la edad, podríamos hacer el cálculo utilizando una muestra de la misma edad, o comprobando la correlación por separado en grupos homogéneos en edad. Otra manera de calcular la correlación entre peso y altura prescindiendo de la edad (o suponiendo que todos los sujetos tienen la misma edad) es a través de las correlaciones parciales. 5.2. Fórmula de las correlaciones parciales de primer orden
168
CONCEPTO DE CORRELACIÓN YCOVARIANZA
r 12.3 es la correlación entre las variables 1 y 2 neutralizando la variable 3 (como si todos los sujetos estuvieran igualados en la variable 3) Lo veremos en un ejemplo32. En la tabla 9 tenemos las correlaciones entre Inglés, Matemáticas (dos exámenes) y dos tests de inteligencia, abstracta y verbal. El número de sujetos es de 2172 (datos reales). Tabla 9 1. Inglés 1. Inglés 1 2. Matemáticas .338 3. Intel. Verbal .330 4. Intel. Abstracta .224
2. Matemáticas 3 Intel. verbal 4.Intel. abstracta 1 .392 379
1 .423
1
Entre Inglés y Matemáticas tenemos una correlación de .338. Podemos pensar que en buena medida esta relación está influida por la inteligencia verbal. ¿Cuál sería la correlación entre Inglés y Matemáticas si todos los sujetos tuvieran idéntica inteligencia verbal (tal como la mide un test determinado)? Aplicamos la fórmula anterior; los subíndices 1 y 2 corresponden a las variables 1 y 2 (Inglés y Matemáticas); la variable 3 es la inteligencia verbal (r 12.3: después del punto se pone el símbolo de la variable anulada).
Vemos que la correlación entre Inglés y Matemáticas baja de .338 a .240 cuando neutralizamos las diferencias en inteligencia verbal. Podemos preguntarnos lo mismo con respecto a la inteligencia abstracta, ¿cual será la relación entre Inglés y Matemáticas suponiendo que todos los sujetos están igualados en inteligencia abstracta? Utilizamos la misma fórmula, pero teniendo en cuenta que el sufijo 3 de la fórmula denota ahora la variable 4 que corresponde a la inteligencia abstracta, por lo que en la fórmula podemos substituir el 3 por el 4 para evitar confusiones. También podemos calcular las correlaciones parciales en programas de Internet (Anexo II) como VassarStats, lo mismo que las correlaciones múltiples de las que no estamos tratando. 32
169
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La correlación entre Inglés y Matemáticas también baja (de .338 a .281) cuando igualamos a todos los sujetos en inteligencia abstracta, pero menos que cuando los igualamos en inteligencia verbal, ya que el Inglés tiene una mayor relación con la inteligencia verbal (.330) que con la abstracta (.224). Si quisiéramos neutralizar simultáneamente las dos variables de inteligencia tendríamos que utilizar la fór mula de las correlaciones parciales de segun do orden. 5.3. Cuándo una correlación parcial es estadísticamente significativa Los grados de libertad son en este caso N - m, donde N es el número de sujetos y m el número de variables. En nuestro ejemplo (cuatro variables) los grados de libertad son N - 4; en este caso 2172 - 3 = 2168. Para verificar si un coeficiente de correlación parcial es estadísticamente significativo podemos aplicar esta fórmula (con más seguridad cuando N > 100): N = número de sujetos m = número de variables. En las tablas de la distribución normal vemos: z > 1.96, p< .05 z > 2.56, p < .01 z > 3.30, p < .001 El denominador de la fórmula (1/ N-m) es el error típico (desviación típica) de la distribución de correlaciones parciales cuando la media es cero. También podemos calcular directamente el valor necesario de r para unos grados de libertad (N -m) determinados, así para p < .05, necesitamos este valor de r:
170
CONCEPTO DE CORRELACIÓN YCOVARIANZA
En los ejemplos utilizados, con un número tan grande de sujetos, todos los coeficientes son claramente significativos, independientemente de que su magnitud la juzguemos grande o pequeña. También pueden calcularse correlaciones parciales de segundo orden (y tercer orden, etc.) con las que neutralizamos más de una variable; las fórmulas son parecidas pero algo más complejas y normalmente se hacen con programas de ordenador. 6. CÓMO SIMPLIFICAR UNA MATRIZ DE CORRELACIONES : EL CLUSTER ANALYSIS 33 Qué pretendemos con el cluster analysis: simplemente simplificar la in formación de una matriz de correlaciones, verificando cómo tienden a agruparse las variables. Se trata por lo tanto de reducir la información para facilitar la interpretación. Si las distintas variables se pueden agrupar en unos pocos conjuntos en los que podemos ver un significado común a un ni vel más genérico, resulta más fácil la interpretación, sobre todo cuando hay muchos ítems. Al final del proceso vamos a agrupar los ítems que tienden a tener correlaciones más altas entre sí que con los demás, dándonos una idea de la estructura subyacente. Hay varios procedimientos para hacer este cluster analysis, algunos más complicados que el expuesto aquí, pero éste es sencillo y con frecuencia suficientemente orientador. Y a a otro nivel tenemos el análisis factorial, que podemos hacer con programas de ordenador, pero el cluster analysis que explicamos aquí puede dar una buena idea sobre la estructura de una serie de variables a partir de la matriz de intercorrelaciones. Lo explicamos con un ejemplo. Los datos (tabla 10) corresponden a un cuestionario de comunicación interpersonal34; los ítems son temas posibles de conversación (puestos aquí de manera abreviada; son temas pretendidamente distintos en niveles de intimidad); una puntuación alta en un ítem quiere decir que uno se abre con facilidad en ese ámbito temático.
Cluster analysis es obviamente una expresión inglesa; en español suele traducirse como análisis de agrupamientos y quizás más frecuentemente análisis de clusters; también está aceptado el uso de la expresión inglesa, cluster analysis. 34 El cuestionario es una adaptación de uno de los que presenta Jourard (1971). 33
171
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Tabla 10: M ATRIZ DE INTERCORRELACIONES ( CUESTIONARIO DE COMUNICACIÓN N = 158, ALUMNAS DE LA UNIV . COMILLAS, 1990)
2 1. Política 2. Lo que me gusta de TV. 3. Moral sexual 4. Lo que me gusta en el otro sexo 5. Limitac. propias 6. Limit. en mis padres 7. Problemas sexuales 8. Dinero de que dispongo 9. Mi aspecto físico 10. Lo que más me gusta en mí 11. Plan fut. profesional 12. Mis depresiones 13. Divers. favoritas 14. Economía familiar 15. Sentim. profundos
3
4
5
6
7
8
9
10
11
12
13
14
15
.392
.371 .291 .256 .105 .211 .234 .193 .316 .222 .190 .335 .297 .282
1
.327 .268 .315 .158 .117 .251 .260 .254 .287 .261 .455 .295 .243
.327
1
.673 .466 .355 .391 .337 .426 .348 .384 .359 .469 .243 .401
.226
.673
.315
.466 .473
.158
.335 .415 .391
.117
.391 .321 .188 .237
.251
.237 .315 .310 .334 .261
.260
.426 .503 .557 .409 .312 .378
.254
.348 .490 .522 .333 .300 .388 .487
.287
.384 .435 .347 .328 .156 .405 .333 .330
.261
.359 .562 .566 .368 .346 .254 .437 .453 .271
.455
.469 .450 .393 .374 .170 .320 .359 .382 .457 .319
.295
.243 .246 .229 .478 .290 .599 .291 .290 .260 .235 .223
.243
.401 .398 .514 .304 .313 .220 .475 .435 .129 .551 .395 .269
1
.473 .415 .321 .315 .503 .490 .435 .562 .450 .246 .398
1
.391 .188 .310 .557 .522 .347 .566 .393 .229 .514 1
.237 .334 .409 .333 .328 .368 .374 .478 .304 1
172
.261 .312 .300 .156 .346 .170 .290 .313 1
.378 .388 .405 .254 .320 .599 .220
1
.487 .333 .437 .359 .291 .475
1
.330 .453 .382 .290 .435 1
.271 .457 .260 .129 1
.319 .235 .551 1
.223 .395 1
.269 1
CONCEPTO DE CORRELACIÓN YCOVARIANZA
1. Como paso previo se anota cuál es la correlación mayor de cada ítem (no es necesario teniendo la matriz a la vista, pero se facilita el proceso). El tener a la vista las segundas correlaciones mayores también ayuda. En este caso, las correlaciones mayores de cada ítem las tenemos en la tabla 11. Tabla 11: Ítem nº Tiene su mayor correlación con el ítem nº 1 2 3 4 5 6 7 8
2 (.392) 13 (.455) 4 (.673) 3 (.673) 12 (.566) 14 (.478) 3 (.391) 14 (.599)
Item nº
Tiene su mayor correlación con el ítem nº
9 10 11 12 13 14 15
5 (.557) 5 (.522) 13 (.457) 5 (.566) 3 (.469) 8 (.599) 12 (.551)
2. Y uno se pregunta ¿cual es la mayor correlación de todas? Y se dibuja a modo de sociograma. En este caso la correlación mayor está entre el 3 y el 4: 3 4 3. Y ahora nos preguntamos: de los ítems que quedan ¿hay alguno que tenga su correlación más alta con el 3 o con el 4? Pues sí, el 7 tiene su correlación mayor con el 3, y también el 13 tiene su mayor relación con el 3 y además no la tiene baja con el 4, con lo que el cluster quedaría así: 3 4 7
13
Aquí tenemos ya un curioso primer cluster provisional que habrá que examinar mejor más adelante, porque el ítem nº 2 tiene su mayor cor relación con el 13 (atendiendo al contenido el 13 (diversiones) pega más con el 2). Los ítems 3, 4 y 7 son de un contenido más íntimo. Ya podemos ir intuyendo a dónde nos va a llevar este cluster analysis 4. Ya no queda ningún ítem que tenga su mayor relación con el nº 3 o con el nº 4. Volvemos a comenzar para localizar un segundo cluster: de las
173
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
correlaciones mayores de cada ítem que nos quedan, ¿cual es la ma yor? Es la correlación entre el 8 y el 14, y ya tenemos el núcleo de un segundo cluster . 8 14 Y nos preguntamos como antes: de las correlaciones mayores de los ítems que nos quedan ¿alguna lo es con el ítem 8 o 14? Sí, el 6, que tiene su mayor relación con el 14; y tenemos un segundo cluster de tipo familiar-económico. 8 14 6 5. Continuamos con nuestra búsqueda y de todas las correlaciones má ximas de cada ítem que nos van quedando observamos que la mayor es la del 5 y 12, y que además el 9 y el 10 tienen su mayor relación con el 5, y el 15 la tiene con el 12, con lo que nos queda un tercer cluster que emerge del yo secreto y confidencial: 5 12 9 10
15
6. Vamos a por otro cluster . La correlación mayor que nos queda es la del ítem 2 y 13. Pero resulta que el 13 ya está en el primer cluster . De todas maneras vamos a ver qué pasa con este cluster ; el 13 habrá que dejarlo en este cluster o en el primero de todos. 2 13 Los ítems que tienen su mayor correlación con el 2 o con el 13 son el 1 (con el 2), y el 11 (con el 13); además el 1 no va mal con el 13, tiene ahí su tercera mayor correlación y no muy baja en este contexto. Nos quedaría provisionalmente algo así: 2 13 1
11
Este cluster tiene coherencia conceptual pues se trata de ítems que pertenecen aparentemente al yo abierto. Sin embargo el 13 nos estropea el conjunto porque también está en el primer cluster. Dentro de la
174
CONCEPTO DE CORRELACIÓN YCOVARIANZA
imprecisión de estos métodos, una segunda regla para asignar un ítem a un cluster es meterlo con el que tenga una correlación media ma yor . Vamos a ver qué pasa con el ítem 13: Correlaciones del 13 con el primer cluster: .469 (con el 3) .450 (con el 4) correlación media = .363 .170 (con el 7) Correlaciones del 13 con el último cluster: .455 (con el 2) .335 (con el 1) correlación media = .416 .457 (con el 11) Decididamente el 13 tiene que ver más con los ítems del último cluster; lo dejamos en éste y lo quitamos del primer cluster que hemos localizado. Nos quedan finalmente los clusters puestos en la tabla 12; en cada uno se puede calcular la correlación media (que indica claridad, consistencia interítem): Tabla 12 cluster 1º
cluster 2º
cluster 3º
cluster 4º
3
8
5
12
2
13
15
1
11
4
7
14
6
9
10
correlación media: r = .462
correlación media: r = .438
correlación media: r = .499
correlación media: r = .358
relación con el sexo
dinero y familia
cosas más personales
temas fáciles
El procedimiento es sencillo: 1º Para comenzar en cada ítem buscamos con qué otro ítem tiene su ma yor correlación (su pareja más clara; y no viene mal tener presente también con qué ítem su segunda mayor correlación) 2º Se localiza la correlación mayor de todas, y ya tenemos dos ítems que serán el núcleo del primer cluster; 3º Se localizan los ítems que tienen sus mayores correlaciones con cualquiera de los dos ítems localizados en el paso anterior, y ya tenemos el primer cluster
175
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
4º Buscamos la correlación mayor de las que nos quedan, y ya tenemos el núcleo de un segundo cluster , y se sigue el proceso visto en el paso anterior. 5º Los ítems dudosos los situamos en el cluster con el que tiene su mayor correlación media Este método es sencillo pero puede ser un tanto impreciso (depende de los datos). Ahora vendría el análisis cualitativo (intentando encontrar sentido a los ítems que van juntos en el mismo cluster) y análisis cuantitativos adicionales: 1º Una correlación media más alta indica cluster (análogo a los factores rotados del análisis factorial) más claro, más definido; 2º Las medias de cada cluster (no medias de las correlaciones sino de los ítems) darían el nivel de apertura o secretismo de estos cluster s; 3º Habría que ver o explorar relaciones inter-cluster. 4º Un estudio más completo nos llevaría a explorar diferencias entre grupos (por ejemplo según el sexo) en los distintos factores (clusters) o en cada ítem; también se podrían explorar relaciones entre ítems o clusters y otras variables conocidas. 7. COEFICIENTES DE CORRELACIÓN MÁS IMPORTANTES Nos hemos centrado en el coeficiente r de Pearson, pero hay otros muchos coeficientes de relación o asociación. En la tabla 13 damos una breve información sobre los más utilizados. Esta información puede servir de guía o de referencia rápida, aunque para utilizar algunos de estos coeficientes sea necesario buscar información adicional. De estos coeficientes el más utilizado e importante es el primero, el coeficiente r de Pearson. Los coeficientes 2, 3 y 4 podemos decir que pertenecen a la familia de los coeficientes de Pearson; son aplicaciones especiales de este coeficiente. Los coeficientes 5 y el 6 (rho y tau) son apropiados para datos ordinales, cuando el dato que manejamos es el rang o o número de orden del sujeto (u objeto) y son especialmente útiles con muestras pequeñas o muy pequeñas35. Los coeficientes 7, 8 y 9 son apropiados para datos nominales (sujetos clasificados en categorías) y están relacionados con el ji cuadrado, de hecho se utilizan como complemento del ji cuadrado. El coeficiente 7 (phi), para datos genuinamente dicotómicos (1 ó 0) podemos también calcularlo con las mismas fórmulas que el coeficiente r de Pearson. Estos coeficientes para datos ordinales suelen venir bien explicados en los textos de métodos estadísticos no paramétricos. 35
176
CONCEPTO DE CORRELACIÓN YCOVARIANZA
Tabla 13 coeficiente
variables
comentarios
1
Coeficiente r de Pearson (productomomento)
las dos continuas
• Es el coeficiente mejor en conjunto, el más estable y el más utilizado; cuando no se especifica otra cosa se supone que es éste el coeficiente calculado; • Supone que la distribución de las variables es normal (en la población, no en la muestra utilizada; esta suposición también es necesaria en otros coeficientes derivados del de Pearson); • Aunque hay varias fórmulas para su cálculo, ninguna es cómoda; el cálculo suele estar programado en calculadoras y programas estadísticos; • Existen tablas para comprobar el nivel de significación en muestras pequeñas, o se utiliza la fórmula apropiada en muestras grandes; • El coeficiente r de Pearson puede transformase en el estadígrafo Z de Fisher (mediante tablas) que permite resolver determinados problemas, como calcular medias de correlaciones (aunque es preferible calcular la media ponderada, multiplicando cada coeficiente por su N) o comprobar si dos coeficientes de correlación son estadísticamente distintos; • Se trata siempre de correlaciones lineares, como todos los demás, excepto el coeficiente h (eta) para relaciones cur vilíneas.
2
Coeficiente biserial puntual (r bp )
una continua y otra dicotómica
• Se trata de un caso par ticular del coeficiente r de Pearson, y aunque hay fórmulas específicas y métodos rápidos mediante gráficos (ábaco de Dingman) se pueden utilizar las fórmulas de la r de Pearson y las calculadoras y programas que tienen este coeficiente ya programado;
177
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
coeficiente
variables
comentarios
2
Coeficiente biserial puntual (r bp )
una continua y otra dicotómica
3
• Es una estimación de la r de Pearson, Coeficiente una variable pero menos fiable que la r o la r pb; de correlación continua, y otra para los mismos datos da un coefibiserial (r b ) dicotomizada ciente mayor que r pb; artificialmente (continua pero • A veces el coeficiente máximo es ma yor que 1 (en distribuciones no nordividida en dos males, bimodales); categorías, como apto y no apto) • En general no es aconsejable si hay otras alternativas, y en caso de duda es preferible r o r pb; a veces puede ser útil el dicotomizar una variable por falta de datos fiables; en este caso se debe dicotomizar la variable continua por la mediana.
• Para comprobar el nivel de significación se pueden utilizar las mismas fórmulas y tablas que con la r de Pearson; • Aunque es en todo equivalente al coeficiente r de Pearson, el término con que se denomina (biserial-puntual) indica que una de las variables es dicotómica (1 ó 0); • Este coeficiente se puede utilizar cuando una variable es genuinamente dicotómica, es decir, no dicotomizada artificialmente (como puede ser clasificar a los sujetos entre apto y no apto); en estos casos el coeficiente apropiado es el biserial; • Tenemos variables dicotómicas en sentido propio cuando sólo hay dos clasificaciones que se excluyen mutuamente, como varón-mujer, verdadero-falso, acierto-error (en tests objetivos), etc.; también pueden tratarse como variables dicotómicas las que teóricamente son continuas (como alcohólico-no alcohólico, apto-no apto, bueno-malo) cuando existe un claro punto de infle xión, una distribución bimodal que permite clasificar a los sujetos en una genuina dicotomía (1 ó 0).
178
CONCEPTO DE CORRELACIÓN YCOVARIANZA
coeficiente
variables
comentarios
4
Coeficiente de correlación tetracórica (r t )
las dos variables • Es una estimación aproximada del coeficiente r de Pearson y menos fiable; continuas no se debe emplear con pocos casos pero (200 sujetos o más); no es fácil comdicotomizadas probar su nivel de significación; artificialmente • Si se puede, es preferible utilizar otra alternativa (r de Pearson o f )
5
Coeficiente rho ( r ) de Spearman (también se utiliza el símbolo sr ).
las dos variables • continuas pero ordenadas por rangos (el rango o • número de orden es el dato que se • utiliza)
6
Coeficiente t ) de Tau ( Kendall
las dos variables • No es comparable directamente con el coeficiente r de Pearson; continuas y ordenadas por • Fácil y útil con muestras muy pequeñas (10 sujetos o menos; si son más rangos es preferible el coeficiente ? de Spearman); • Existen tablas y fórmulas para comprobar su significación; una modalidad es el coeficiente de correlación parcial con el mismo método.
7
Coeficiente f ) phi (
las dos variables • Relacionado con el ?2; el valor de significación es el mismo que el de ?2; no dicotómicas admite valores negativos; • Una limitación es que el valor máximo no es 1 necesariamente; sólo se puede alcanzar cuando la proporción de unos es idéntica en las dos variables; • Especialmente útil para calcular las correlaciones entre ítems dicotómicos (de pruebas objetivas, tests, etc.).
Es la mejor alternativa no paramétrica al coeficiente r de Pearson; se trata del coeficiente r calculado con los rangos o número de orden de cada puntuación; Da un coeficiente algo inferior a la r de Pearson calculado con los mismos datos directos; Fácil y rápido de cálculo; muy útil con datos ordinales y con no más de 30 sujetos o pares de puntuaciones; • Existen tablas y fórmulas para comprobar su significación.
179
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
8
coeficiente
variables
comentarios
Coeficiente phi ( F ) de Cramer
las dos variables categóricas pero con más de dos criterios de clasificación en una o en las dos variables
• Derivado también del c2, el valor de significación es el mismo que el de c2; es el coeficiente apropiado cuando hay más de dos filas o columnas. Un coeficiente semejante es el coeficiente T de Tschuprow; • Varía de 0 a 1 independientemente del tamaño de la tabla y por esto es una alternativa preferible al coeficiente C de Contingencia; no admite valores negativos.
las dos variables de Contingencia divididas en dos o más categorías
• Es el coeficiente relacionado con c2 más utilizado aunque no es siempre el preferible; es significativo si lo es el c2; • El valor máximo nunca es 1 y depende del número de filas y columnas por lo que sólo son comparables los coeficientes que proceden de cuadros con idéntico número de filas y columnas; no admite valores negativos.
(k = número de columnas o filas, el que sea menor) 9
Coeficiente C
10 Coeficiente eta ( h )
• Es el coeficiente apropiado para relaciones curvilíneas; si se calcula el coeficiente r de Pearson cuando hay relación curvilínea, el valor resultante es más bajo; • El valor de h es siempre positivo.
las dos variables continuas
8. COEFICIENTE DE CORRELACIÓN : RESUMEN 1. El coeficiente de correlación expresa en qué grado los sujetos (u objetos, elementos…) están ordenados de la misma manera en dos variables simultáneamente; así en el caso de relación positiva y alta los sujetos tienen puntuaciones altas o bajas en las dos variable simultáneamente. 2. Correlación y covarianza expresan grado de relación; su interpretación es básicamente la misma; el coeficiente de correlación se calcula con puntuaciones típicas y la covarianza con puntuaciones directas.
180
CONCEPTO DE CORRELACIÓN YCOVARIANZA
3. Un coeficiente de correlación se puede interpretar sin entender por qué o cómo cuantifica el grado de relación; sin embargo es fácil entenderlo y ayuda a la interpretación porque pone de relieve la importancia de las diferencias. Podemos cuantificar (medir) el grado de relación entre dos variables porque: a) Si hay relación positiva 1. Los sujetos tenderán a estar o por encima de la media en las dos variables o por debajo de la media en las dos variables; 2. Las diferencias (expresadas en puntuaciones z) con respecto a las dos medias serán del mismo signo, luego el producto de estas diferencias será positivo y su suma grande (y dividida por N nos da el coeficiente de correlación). b) Si hay relación negativa Los sujetos tenderán a estar simultáneamente por encima de la media en una variable y por debajo de la media en la otra; las diferencias con respecto a la media tenderán distinto signo y al multiplicar una por la otra el signo será negativo (- por +); la suma de estos productos será grande pero con signo menos. c) si no hay relación 1. Unos sujetos estarán por encima de la media en las dos variables, otros por debajo de la media en las dos variables, otros por encima de la media en una variable y por debajo de la media en la otra variable… 2. Las diferencias (expresadas en puntuaciones z) con respecto a las dos medias serán unas del mismo signo (y su producto positivo) y otras de signos distintos (y su producto negativo). la suma de estos productos tenderá hacia cero en la medida en que no haya relación. 4. Los valores extremos posibles son 0 (ausencia de relación) y ±1 (máxima relación). Si r = 1, el orden (posición relativa) de los sujetos es el mismo en las dos variables. Como conocemos los valores más altos y más bajos posibles, podemos apreciar y valorar la magnitud de la relación (poca hasta .30, alta a partir de .75…). 5. La magnitud del coeficiente es independiente del signo; r =-.95 expresa más relación que r = +.75; el que la relación sea positiva o negativa es algo distinto de que sea grande o pequeña. 6. Una correlación no puede interpretarse como prueba de una relación causal.
181
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
7. Un coeficiente de correlación estadísticamente significativo quiere decir que es muy improbable si no hay relación en la población: en muestras semejantes obtendríamos un coeficiente de cor relación distinto de cero (pero no necesariamente de magnitud semejante al que hemos obtenido en nuestra muestra). 8. A partir del coeficiente de correlación obtenido en una muestra y del tamaño N de esa muestra, podemos estimar entre qué límites se encuentra esa correlación en la población (intervalos de confianza). 9. Un coeficiente de correlación no significativo no es prueba de que no haya relación en la población (podríamos encontrarla quizás en muestras mayores, o utilizando otras medidas más precisas, etc.) 10. Los coeficientes de correlación tienden a bajar cuando: a) Las muestras son homogéneas (sin diferencias en ambas variables no se detectan relaciones). b) Los instrumentos de medición discriminan poco (no establecen bien las diferencias entre los sujetos). c) La fiabilidad de los instrumentos es baja.
182
CONCEPTO DE CORRELACIÓN YCOVARIANZA
A NEXO I Tablas del coeficiente de correlación r de Pearson (N entre 3 y 102) Grados de libertad. = N-2
05
.01
.001
1 2 3 4 5
.9969 .9500 .8783 .8114 .7545
.9998 .9900 .9587 .9172 .8745
.9999 .9990 .9911 .9740 .9507
6 7 8 9 10
.7067 .6664 .6319 .6021 .5760
.8343 .977 .7646 .7348 .7079
.9249 .8982 .8721 .8471 .8233
11 12 13 14 15
.5529 .5324 .5139 .4973 .4821
.6835 .6614 .6411 .6226 .6055
.8010 .7800 .7603 .7420 .7246
16 17 18 19 20
.4683 .4555 .4438 .4329 .4227
.5897 .5751 .5614 .5487 .5368
.7084 .6932 .6787 .6652 .6523
25 30 35 40 45
.3809 .3494 .3246 .3044 .2875
.4869 .4487 .4182 .3932 .3721
.5974 .5541 .5189 .4896 .4648
50 55 60 65 70
.2732 .2609 .2500 .2405 .2319
.3541 .3386 .3248 .3127 .3017
.4433 .4244 .4078 .3931 .3799
183
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Grados de libertad = N-2
.05
.01
.001
75 80 85 90 95 98 100
.2242 .2172 .2108 .2050 .1996 .1986 .1946
.2919 .2830 .2748 .2673 .2604 .2591 .2540
.3678 .3568 .3468 .3375 .3291 .3274 .3211
Con muestras grandes:
y consultar las tablas de la distribución normal; z >1.96, p<.05 z >2.56, p<.01 z >3.3, p<.001 o consultar alguna dirección de Internet (Anexo siguiente). A NEXO II: L A CORRELACIÓN EN INTERNET (Los números entre paréntesis corresponden a las direcciones puestas al final). 1. La probabilidad exacta de cualquier valor de r http://graphpad.com/quickcalcs/PValue1.cfm (1) (se introducen el valor de r y los grados de libertad o N-2) http://depar tment.obg.cuhk.edu.hk/ResearchSupport/Correlation_coeff.asp (2) (se introduce el valor de r y el tamaño N de la muestra). http://faculty.vassar.edu/lowry/VassarStats.html (3) 2. Valores mínimos de r estadísticamente significativos (p =.05, .01 y .001 para cualquier valor de N) http://department.obg.cuhk.edu.hk/ResearchSupport/Minimum_correlation.asp (2) 3. Intervalos de confianza (dados r y N) http://faculty.vassar.edu/lowry/VassarStats.html (3) http://glass.ed.asu.edu/stats/analysis/rci.html (6)
184
CONCEPTO DE CORRELACIÓN YCOVARIANZA
4. Correlación parcial http://faculty.vassar.edu/lowry/par.html (3) (se introducen los coeficientes de correlación entre tres variables (o cuatro) y calcula la correlación parcial ente dos coeficientes igualando a los sujetos en las variables restantes). http://home.clara.net/sisa/correl.htm (ver help correlation) (4) 5. Correlación múltiple http://home.clara.net/sisa/correl.htm (ver help correlation) (4) 6. Diferencias estadísticamente significativas entre dos (o más) coeficientes de correlación http://department.obg.cuhk.edu.hk/ResearchSupport/HomoCor.asp (2) (calculados en muestras distintas) http://faculty.vassar.edu/lowry/VassarStats.html (3) (calculados en muestras distintas) http://home.clara.net/sisa/correl.htm (ver help correlation) (4) (de la misma muestra o de distintas muestras) http://www.psych.ku.edu/preacher/corrtest/corrtest.htm (en muestras distintas) (7) 7. Cálculo del coeficiente de correlación http://calculators.stat.ucla.edu/correlation.php (5) http://faculty.vassar.edu/lowry/VassarStats.html ( 3) Direcciones originales (‘Home’): (1) GraphPad, Free Online Calculators for Scientists, http://graphpad.com/quickcalcs/index.cfm (2) Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp (3) VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html (4) SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index.htm#TOP (5) Statistics Calculators, UCLA Department of Statistics, http://calculators.stat.ucla.edu/ (6) Glass, Gene. V., Arizona State University College of Education, Online Analysis of Data http://glass.ed.asu.edu/stats/analysis/ (o Gene V Glass Intro to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources for Statistics, en Online statistical calculators that can perform many different analyses. (7) quantpsy.org, Kristopher J. Preacher, University of Kansas http://www.psych.ku.edu/preacher/
185
CAPÍTULO 6
LA FIABILIDAD DE LOS TESTS Y ESCALAS
1. CONCEPTOS PRELIMINARES BÁSICOS Antes de entrar en explicaciones muy precisas y en fórmulas concretas, nos es útil hacer una aproximación conceptual a lo que entendemos por fiabilidad en nuestro contexto (los tests, la medición en las ciencias sociales) porque lo que entendemos aquí por fiabilidad es de alguna manera análogo a lo que entendemos por fiabilidad en otras situaciones de la vida corriente. También es útil desde el principio distinguir la fiabilidad de conceptos como el de validez que utilizamos en los mismos contextos y situaciones y en referencia al uso de los tests. 1.1. Equivocidad del concepto de fiabilidad El concepto de fiabilidad, tal como lo aplicamos en la medición en las ciencias humanas, desemboca en diversos métodos o enfoques de comprobación que se traducen en unos coeficientes de fiabilidad que a su vez suponen conceptos o definiciones distintas de lo que es la fiabilidad, por lo que tenemos en principio un concepto equívoco más que unívoco (salvo en un sentido muy genérico). Por esta razón cuando en situaciones aplicadas se habla de la fiabilidad o de coeficientes de fiabilidad, hay que especificar de qué fiabilidad se trata. Esto quedará más claro al hablar de los distintos enfoques, pero conviene tenerlo en cuenta desde el principio.
187
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
1.2. Fiabilidad y precisión de la medida Aun así cabe hablar de un concepto más genérico de fiabilidad con el que se relacionan los otros conceptos más específicos. En principio la fiabilidad expresa el grado de precisión de la medida. Con una fiabilidad alta los sujetos medidos con el mismo instrumento en ocasiones sucesivas hubieran quedado ordenados de manera semejante. Si baja la fiabilidad, sube el error, los resultados hubieran variado más de una medición a otra. Ninguna medición es perfecta; en otro tipo de ámbitos una manera de verificar la precisión es medir lo mismo varias veces, o varios observadores independientes miden lo mismo para obtener una media que se estima más precisa que lo que un único observador ha estimado, como cuando se desea comprobar la densidad de una determinada especie animal en un determinado hábitat . En la medición psicológica y educacional, que es la que nos interesa aquí, no es posible o no es tan fácil utilizar procedimientos o estrategias que se utilizan más en otros campos de la ciencia; tendremos que buscar otros enfoques para apreciar e incluso cuantificar la precisión de nuestras medidas (como puede ser la precisión de un instrumento para medir conocimientos, actitudes, un rasgo de personalidad, etc.). Lo que importa destacar aquí es la asociación entre los conceptos de fiabilidad y precisión o exactitud . 1.3. Fiabilidad y margen de error en al medida Ya hemos indicado que si fiabilidad significa precisión, a menor fiabilidad subirá el margen de error de nuestras medidas. En muchas aplicaciones prácticas el interés de los coeficientes de fiabilidad está precisamente en que nos permiten calcular ese margen de error que a su vez nos permiten relativizar los resultados individuales, por eso junto a la fiabilidad hay que estudiar el error típico de la medida (apartados 9.2 y 11, referido a resultados escolares). 1.4. Fiabilidad y predictibilidad Otro concepto que nos ayuda a comprender qué entendemos por fiabilidad es el de consistencia o predictibilidad . Nos fiamos de un amigo cuando sabemos cómo va a reaccionar ante un problema que le llevemos, y esto lo sabemos porque tenemos experiencias repetidas. De manera análoga un jugador de fútbol es fiable si sabemos de antemano que va a hacer un buen partido, y de nuevo esto lo sabemos porque ya ha jugado bien en otras muchas ocasiones (aunque esto no quiere decir que siempre juegue bien).
188
LA FIABILIDAD DE LOS TETS Y ESCALAS
1.5. Fiabilidad y validez El concepto de fiabilidad es distinto del concepto de la validez. En el sentido más usual del término (no el único), un instrumento es válido si comprueba o mide aquello que pretendemos medir. Un instrumento puede ser válido, porque mide lo que decimos que mide y queremos medir, pero lo puede medir con un margen de error grande; con instrumentos parecidos o en mediciones sucesivas hubiéramos obtenido resultados distintos. También puede haber una fiabilidad alta (los sujetos están clasificados, ordenados, con poco margen de error) y a la vez el instrumento puede carecer de validez, porque no mide lo que se pretende o lo que se dice que se está midiendo (por ejemplo si un test de inteligencia lo que mide realmente es en buena par te capacidad lectora, o si un examen supuestamente de comprensión lo que se verifica es memoria y repetición, etc.)1. 1.6. Fiabilidad y validez: errores sistemáticos y errores aleatorios En estos dibujos (figuras 1 y 2) tenemos dos representaciones gráficas que pueden ayudarnos a comprender lo que es validez y lo que es fiabilidad . Figura 1
Figura 2
Validez: Controlamos los errores sistemáticos
Fiabilidad: Controlamos los errores aleatorios
Podemos imaginar a dos tiradores apuntando a un blanco. Cuando hay validez (figura 1, cuando el tiro es válido) se apunta al blanco aunque puede haber poca precisión en el tiro. Los errores son aleatorios (falta de fiabilidad; El tema de la validez no lo tratamos de manera expresa; puede verse tratado en Morales, Urosa y Blanco (2003. págs 126 y ss.) y de manera más extensa en Morales (2006, cap. 12 y 13). 1
189
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
fruto de defectos del arma, inestabilidad en el pulso, etc.), pero no son sistemáticos (apuntamos al blanco que queremos ). Cuando hay fiabilidad hay precisión en el tiro. En este ejemplo (figura 2) no hay validez: se apunta sistemáticamente fuera del blanco, aunque hay una mayor fiabilidad o precisión (los tiros están más próximos entre sí). Para evitar los errores aleatorios (y que aumente la fiabilidad) habrá que mejorar el instrumento. Para evitar los errores sistemáticos habrá que apuntar bien al blanco, y para eso hay que saber dónde está, y no a otro sitio. La comprobación de la validez sigue otros métodos distintos (análisis del contenido de los ítems, verificar determinadas hipótesis sobre el significado pretendido, etc.) y salvo en casos específicos (como cuando se habla de validez predictiva) no se concreta en el cálculo de un coeficiente determinado. De lo que vamos diciendo se desprende que en primer lugar nos debe preocupar la validez más que la precisión: podemos medir muy bien lo que no queríamos medir (memoria en vez de comprensión, por ejemplo en un examen). 1.7. La fiabilidad no es una característica de los instrumentos La fiabilidad no es una característica de un instrumento; es una característica de unos resultados, de unas puntuaciones obtenidas en una muestra determinada. Esto es importante aunque en el lenguaje habitual nos refiramos a la fiabilidad como si fuera una propiedad del instrumento. Esta manera de hablar (este test tiene una fiabilidad de…) es muy frecuente, pero hay que entender lo que realmente queremos decir. Lo que sucede es que un mismo instrumento puede medir o clasificar bien a los sujetos de una muestra, con mucha precisión, y mal, con un margen de error grande, a los sujetos de otra muestra. Con un mismo instrumento se mide y se ordena mejor a los sujetos cuando estos sujetos son muy distintos entre sí, y al revés, baja la fiabilidad si la muestra es más homogénea. Podemos visualizarlo con la imagen de una balanza de poca precisión: si pesamos objetos que pesan entre 4 Kg. y 10 Kg. no establecerá diferencias en peso entre objetos que pesan casi lo mismo y sólo se diferencian en miligramos; en cambio esa misma balanza distinguirá bien entre objetos con diferencias en peso de varios kilos. La balanza es la misma, pero su precisión ( fiabilidad al distinguir según unos objetos pesen más o menos) depende de las diferencias en peso de los objetos. La fiabilidad se debe calcular con cada nueva muestra, sin aducir la fiabilidad obtenida con otras muestras como aval o prueba de la fiabilidad del instrumento2. El calcular el coeficiente de fiabilidad en cada nueva muestra es una de las recomendaciones de la American Psychological Association (Wilkinson and Task Force on Statisti2
190
LA FIABILIDAD DE LOS TETS Y ESCALAS
Todo esto quedará mejor entendido al examinar las variables que inciden en que un coeficiente de fiabilidad sea alto o bajo, pero es importante ver desde el principio que en sentido propio la fiabilidad no es la propiedad de un determinado instrumento, sino del conjunto de puntuaciones con él obtenido y que puede variar de una situación a otra (y como en el ejemplo de la balanza, va a estar en función de las diferencias entre los sujetos). 1.8. Fiabilidad y diferencias: teoría clásica de la fiabilidad En última instancia lo que nos va a decir un coeficiente de fiabilidad es si el instrumento diferencia adecuadamente a los sujetos en aquello que mide el test o escala. Con un test o escala pretendemos diferenciar a los sujetos; establecer quién tiene más o menos del rasgo que medimos. Los tests, sobre todo los que miden rasgos psicológicos, no nos serían útiles si de alguna manera no establecieran diferencias entre los sujetos. Ya veremos que, por lo tanto, no hay fiabilidad sin diferencias. Por estas razones la fiabilidad de un test de conocimientos o de un examen (prueba objetiva) no se puede interpretar automáticamente como un indicador de la calidad del test, como comentamos en el apartado 11 sobre la interpretación de estos coeficientes cuando se trata de medir conocimientos. A esta teoría de la fiabilidad basada en las diferencias se le suele denominar teoría clásica de la fiabilidad. 2. ENFOQUES Y MÉTODOS EN EL CÁLCULO DE LA FIABILIDAD En el cálculo de la fiabilidad hay tres enfoques que, aunque parten de modelos teóricos idénticos o parecidos, siguen procedimientos distintos y sus resultados no pueden interpretarse exactamente del mismo modo; por eso hemos dicho al principio que el concepto de fiabilidad es en cierto modo equívoco. Estos tres enfoques son 1º) el test-retest, 2º) el de las pruebas paralelas y 3º) los coeficientes de consistencia interna. 2.1. Método: Test-retest Los sujetos responden dos veces al mismo test, dejando entre las dos veces un intervalo de tiempo. El coeficiente de correlación entre las dos ocasiones es lo que denominamos coeficiente de fiabilidad test-retest . El intervalo de tiempo puede ser de días, semanas o meses, pero no tan grande cal Inference, APA Board of Scientific Affairs (1999); American Psychological Association (2001) y también está recomendado por la política editorial de buenas revistas (Thompson, 1994).
191
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
que los sujetos hayan podido cambiar. Una correlación grande indica que en las dos veces los sujetos han quedado ordenados de la misma o parecida manera. El intervalo de tiempo debe especificarse siempre (y suele estar en torno a las dos o tres semanas). a) Este método corresponde al concepto más intuitivo de fiabilidad: un instrumento es fiable si en veces sucesivas aporta los mismos resultados. b) No tiene sentido utilizarlo cuando está previsto un cambio en los sujetos, o cuando entre la primera y segunda vez se puede dar un aprendizaje. Por esto no es un método apto para comprobar la fiabilidad de un instrumento de medición escolar porque puede haber aprendizaje de una vez a otra, aprendizaje que puede incluso estar provocado por el mismo instrumento. La fiabilidad del tipo test-retest tiene más sentido en la medición de rasgos y actitudes más estables. c) Este coeficiente de correlación podemos entenderlo como un coeficiente o indicador de estabilidad o de no ambigüedad en la medida en que ambas ocasiones los resultados son parecidos (los sujetos entendieron lo mismo de la misma manera y respondieron de manera idéntica o casi idéntica). d) Una fiabilidad alta de este tipo no es garantía de una fiabilidad alta con otro de los enfoques, sobre todo con el de consistencia interna que veremos enseguida y que es el más importante. Puede haber una fiabilidad alta de este tipo, test-retest, con ítems que preguntan cosas muy distintas (como peso, altura, sexo, gusto por la música, año de nacimiento, etc.), pero con poca (o ninguna) consistencia interna porque se están preguntando cosas distintas cuyas respuestas no tendría sentido sumar en un total. 2.2. Método: Pruebas paralelas Se utiliza cuando se preparan dos versiones del mismo test; los ítems son distintos en cada test pero con ambos se pretende medir lo mismo. En este caso el coeficiente de fiabilidad es la correlación entre las dos for mas paralelas , respondidas por los mismos sujetos. a) Puede interpretarse como un coeficiente o indicador de equivalencia entre los dos tests: si la correlación es alta, las dos formas del mismo test dan resultados parecidos, ordenan a los sujetos de manera parecida, ambas formas son intercambiables. Si la correlación entre las dos for mas (respondidas con días u horas de diferencia) es baja, la conclusión más razonable no es que los sujetos han cambiado, sino que las dos formas no están equilibradas en sus contenidos y de alguna manera miden cosas distintas o con énfasis distintos.
192
LA FIABILIDAD DE LOS TETS Y ESCALAS
b) Una confirmación adicional de que las dos formas son realmente paralelas es comprobar si la correlación media inter-ítem dentro de cada forma es de magnitud similar, lo mismo que la correlación de los ítems de una forma con los de la otra versión. c) Este tipo de fiabilidad, o prueba de equivalencia, es necesario siempre que se disponga de dos o más versiones del mismo test, y su uso queda en la práctica restringido a esta circunstancia no frecuente. 2.3. Método: Coeficientes de consistencia interna3 Este es el enfoque más utilizado y al que le vamos a dar una mayor extensión. Hay que hablar de enfoque más que de método pues son muchas las posibles fórmulas en que se puede concretar en el cálculo de la fiabilidad. Cuando se habla de fiabilidad sin más matizaciones, hay que entender que se trata de fiabilidad en el sentido de consistencia interna. Lo que expresan directamente estos coeficientes es hasta qué punto las respuestas son lo suficientemente coherentes (relacionadas entre sí) como para poder concluir que todos los ítems miden lo mismo, y por lo tanto son sumables en una puntuación total única que representa, mide un rasgo bien definido. Por esta razón se denominan coeficientes de consistencia interna, y se aducen como garantía de unidimensionalidad , es decir, de que un único rasgo subyace a todos los ítems. Hay que advertir sin embargo que un alto coeficiente de fiabilidad no es prueba de unidimensionalidad (tratado con más amplitud en el apartado 9.1). El resto de la teoría sobre la fiabilidad que exponemos a continuación responde fundamentalmente a la fiabilidad entendida como consistencia interna. Cuando se habla de la fiabilidad de un instr umento y no se especifica otra cosa, suele entenderse que se trata de la fiabilidad entendida como consistencia interna. 3. LOS COEFICIENTES DE CONSISTENCIA INTERNA: CONCEPTO Y FÓRMULA BÁSICA DE LA FIABILIDAD
Como punto de partida podemos pensar que cuando observamos diferencias entre los sujetos, estas diferencias, que se manifiestan en que sus Los coeficientes de consistencia interna también suelen denominarse coeficientes de homogeneidad como si se tratara de términos sinónimos, pero este término ( coeficiente de homogeneidad ) es impropio (como advierte Schmitt, 1996). La consistencia interna se refiere a las correlaciones entre los ítems ( relación empírica ) y la homogeneidad se refiere a la unidimensionalidad ( relación lógica, conceptua l) de un conjunto de ítems que supuestamente expresan el mismo rasgo. 3
193
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
puntuaciones totales (al sumar todas sus respuestas a los ítems) son distintas, se deben: 1º En parte a que los sujetos son distintos en aquello que se les está midiendo; si se trata de un examen hay diferencias porque unos saben más y otros saben menos. 2º Las diferencias observadas se deben también en parte a lo que llamamos genéricamente errores de medición; por ejemplo, en este caso, las respuestas distintas pueden estar ocasionadas por preguntas ambiguas, por la diferente capacidad lectora de los sujetos, etc.; no todo lo que hay de diferencia se debe a que unos saben más y otros saben menos. La puntuación total de un sujeto podemos por lo tanto descomponerla así: X t = X v + X e
[1]
X t = X v =
X e =
puntuación total de un sujeto, puntuación observada; puntuación verdadera, que representa lo que un sujeto realmente sabe o siente (depende de qué se esté preguntando o midiendo). puntuación debida a errores de medición, que puede tener signo más o signo menos.
Lo que decimos de cada puntuación individual lo podemos decir también de las diferencias entre todos los sujetos: Diferencias observadas entre los sujetos
=
Diferencias verdaderas los sujetos son distintos en lo que estamos midiendo.
+
Diferencias falsas (errores de medición)
Hablando con propiedad, más que de diferencias concretas hay que hablar de varianza, que cuantifica todo lo que hay de diferencia entre los sujetos. La fórmula básica de la fiabilidad parte del hecho de que la varianza se puede descomponer. La varianza de las puntuaciones totales de un test podemos descomponerla así [2]: 2 + s2 s2t = s v [2] e
194
LA FIABILIDAD DE LOS TETS Y ESCALAS 2 = s v
Varianza total, expresa todo lo que hay de diferente en las puntuaciones totales; unos sujetos tienen puntuaciones totales más altas, otros más bajas, etc.; la varianza será mayor si los sujetos difieren mucho entre sí. Si lo que pretendemos con un instrumento de medida es clasificar, detectar diferencias, una varianza grande estará asociada en principio a una mayor fiabilidad. s2e = Varianza verdadera; expresa todo lo que hay de diferente debido a que los sujetos son distintos en lo que pretendemos medir, o dicho de otra manera, expresa todo lo que hay de diferente debido a lo que los ítems tienen en común, de relación, y que es precisamente lo que queremos medir. El término verdadero no hay que entenderlo en un sentido cuasi filosófico, aquí la varianza verdadera es la que se debe a respuestas coherentes (o respuestas relacionadas), y esta coherencia (o relación verificada ) en las respuestas suponemos que se debe a que todos los ítems del mismo test miden lo mismo. s2t = V arianza debida a errores de medición, o debida a que los ítems miden en parte cosas distintas, a lo que no tienen en común. Puede haber otras fuentes de error (respuestas descuidadas, falta de motivación al responder, etc.), pero la fuente de error que controlamos es la debida a falta de relación entre los ítems, que pueden medir cosas distintas o no muy relacionadas. El error aquí viene a ser igual a inco herencia en las respuestas, cualquiera que sea su origen (incoherencia sería aquí responder no cuando se ha respondido sí a un ítem de formulación supuestamente equivalente). Suponemos que los errores de medición no están relacionados con las puntuaciones verdaderas; no hay más error en las puntuaciones más altas o menos en las más bajas y los errores de medición se reparten aleatoriamente; con este supuesto la fórmula [2] es correcta. La fiabilidad no es otra cosa que la proporción de varianza verdadera, y la fórmula básica de la fiabilidad [3] se desprende de la fórmula anterior [2] (r 11 es el símbolo general de los coeficientes de fiabilidad): 2 s v
r 11 = ––––– s2t
[3]
Por varianza verdadera entendemos lo que acabamos de explicar; la varianza total no ofrece mayor problema, es la que calculamos en los totales de todos los sujetos; cómo hacemos operativa la varianza verdadera lo veremos al explicar las fórmulas (de Cronbach y Kuder-Richardson). Expresando la fórmula [3] en términos verbales tenemos que
195
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
todo lo que discriminan los ítems por lo que tienen de relacionados fiabilidad = ——————————————————————————— todo lo que discriminan de hecho al sumarlos en una puntuación total
o expresado de otra manera varianza debida a lo que hay de coherente en las respuestas
fiabilidad = ——————————————————————————— varianza debida tanto a lo que hay de coherente como de no coherente en las respuestas
Por respuestas coherentes hay que entender que no se responde de manera distinta a ítems que supuestamente y según la intención del autor del instrumento, expresan el mismo rasgo. En una escala de actitud hacia la música sería coherente estar de acuerdo con estos dos ítems: me sirve de descanso escuchar música clásica y la educación musical es muy importante en la formación de los niños; lo coherente es estar de acuerdo con las dos afirmaciones o no estar tan de acuerdo también con las dos. Un sujeto que esté de acuerdo con una y no con la otra es de hecho incoherente según lo que pretende el autor del instrumento (medir la misma actitud a través de los dos ítems). Esta incoherencia de hecho no quiere decir que el sujeto no sea coherente con lo que piensa; lo que puede y suele suceder es que los ítems pueden estar mal redactados, pueden ser ambiguos, medir cosas distintas, etc.; por estas razones la fiabilidad hay que verificarla experimentalmente. En la varianza total (todo lo que hay de diferencias individuales en las puntuaciones totales) influye tanto lo que se responde de manera coherente o relacionada, como lo que hay de incoherente o inconsistente (por la causa que sea); la fiabilidad expresa la proporción de consistencia o coherencia empírica. En el denominador tenemos la varianza de los totales, por lo tanto la fiabilidad indica la proporción de varianza debida a lo que los ítems tienen en común. Una fiabilidad de .80, por ejemplo, significa que el 80% de la varianza se debe a lo que los ítems tienen en común (o de relacionado de hecho). 4. R EQUISITOS PARA UNA FIABILIDAD ALTA Si nos fijamos en la fórmula anterior [3] (y quizás con más claridad si nos fijamos en la misma fórmula expresada con palabras), vemos que aumentará la fiabilidad si aumenta el numerador; ahora bien, es importante entender que aumentará el numerador si por parte de los sujetos hay respuestas distintas (no todos los sujetos responden de la misma manera) y a la vez relacionadas, de manera que tendremos una fiabilidad alta:
196
LA FIABILIDAD DE LOS TETS Y ESCALAS
1º Cuando haya diferencias en las respuestas a los ítems, es decir, cuando los ítems discriminan; si las respuestas son muy parecidas (todos de acuerdo, o en desacuerdo, etc.) la varianza de los ítems baja y también la fiabilidad; 2º Y además los ítems (las respuestas) estén relacionadas entre sí , hay coherencia, consistencia interna; cuando si se responde muy de acuerdo a un ítem, también se responde de manera parecida a ítems distintos pero que expresan, suponemos, el mismo rasgo; hay una tendencia generalizada responder o en la zona del acuerdo o en la zona del desacuerdo. Entender cómo estos dos requisitos (respuestas distintas en los sujetos y relacionadas) influyen en la fiabilidad es también entender en qué consiste la fiabilidad en cuanto consistencia interna. Esto lo podemos ver con facilidad en un ejemplo ficticio y muy simple en el que dos muestras de cuatro sujetos responden a un test de dos ítems con respuestas sí o no (1 ó 0) (tabla 1). Tabla1
Podemos pensar que se trata de una escala de integración familiar compuesta por dos ítems y respondida por dos grupos de cuatro sujetos cada uno. Los ítems en este ejemplo podrían ser: 1. En casa me lo paso muy bien con mis padres [sí=1 y no =0] 2. A veces me gustaría marcharme de casa [sí = 0 y no = 1] En estos ejemplos podemos observar: 1º Las desviaciones típicas (lo mismo que las varianzas, s2 ) de los ítems son idénticas en los dos casos, además son las máximas posibles (porque el 50% está de acuerdo y el otro 50% está en desacuerdo, máxima dispersión). Desviaciones típicas grandes en los ítems (lo que supone
197
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
que distintos sujetos responden de distinta manera al mismo ítem) contribuyen a aumentar la fiabilidad, pero vemos que no es condición suficiente: con las mismas desviaciones típicas en los ítems el coeficiente de fiabilidad es 1 (grupo A) en un caso y 0 en otro (grupo B). 2º La diferencia entre los grupos A y B está en las correlaciones inter-ítem: la máxima posible en A (r = 1), y la más baja posible en B (r = 0). La correlación es grande cuando las respuestas son coherentes, cuando se responde básicamente de la misma manera a todos los ítems; la correlación es pequeña cuando las respuestas son incoherentes. Cuando las respuestas son coherentes (simplificando: unos dicen que sí a todo y otros dicen que no a todo), la puntuación total está más diversificada porque se acumulan puntuaciones muy altas o muy bajas en los ítems; consecuentemente la desviación típica (o la varianza) de los totales será mayor. Con respuestas diferentes y además coherentes, los sujetos quedan más diversificados, mejor clasificados por sus puntuaciones totales, y esta diversidad de los totales se refleja en una mayor desviación típica o varianza. Esta diversidad coherente de las respuestas (y que la vemos de manera exagerada en el grupo A del ejemplo anterior) queda recogida en la fórmula de la fiabilidad o de consistencia interna. Para que suba la fiabilidad hace falta por lo tanto lo que ya hemos indicado antes: 1º que unos y otros sujetos respondan de manera distinta a los ítems 2º y que además esas respuestas a los ítems de cada sujeto sean coherentes. Si esto es así, las diferencias en los totales se deberán a que los sujetos han respondido de manera distinta y coherente a los distintos ítems. Esto hace que los totales sean distintos, para unos sujetos y otros, según tengan más o menos del rasgo que deseamos medir . unos van acumulando valores altos en sus respuestas, y otros van acumulando valores bajos. Lo que significa la fiabilidad, y las condiciones de una fiabilidad alta, podemos verlo en otro ejemplo (obviamente ficticio, tabla 2). Imaginemos que se trata ahora de una escala de actitud hacia la música compuesta por tres ítems, con respuestas continuas de 1 ( máximo desacuerdo ) a 5 ( máximo acuerdo) respondida por seis sujetos:
198
LA FIABILIDAD DE LOS TETS Y ESCALAS
Tabla 2
Qué vemos fácilmente en estos datos: 1. Los ítems miden lo mismo conceptualmente; al menos es lo que intentamos al redactarlos; 2. Los sujetos son distintos en las respuestas a cada ítem, por eso hay varianza (diferencias) en los ítems; a unos les gusta más la música, a otros menos; 3. Los ítems están relacionados: si tomamos los ítems de dos en dos vemos que los sujetos tienden a puntuar alto en los dos o bajo en los dos (más o menos). Esta relación podemos verificarla experimentalmente calculando los coeficientes de correlación: r 12 = .95, r 13 = .81 y r 23 = .734 (en ejemplos reales, con más ítems y más sujetos, no suelen ser tan altos). 4. Consecuentemente el puntuar alto en un ítem supone un total más alto en toda la escala; esto podemos verificarlo experimentalmente calculando la cor relación de cada ítem con la suma de los otros dos (correlación ítem-total): r 1t = .93, r 2t = .88 y r 3t = .79. Un procedimiento que nos daría la misma información es comparar en cada ítem a los sujetos con totales más altos y totales más bajos; si los mismos ítems diferencian simultáneamente a los mismos sujetos, es que los ítems están relacionados. 5. Los sujetos van acumulando puntuaciones altas o bajas en cada ítem, por lo tanto quedan muy diferenciados en la puntuación total: están bien ordenados o clasificados. 6. Nos encontramos con una coherencia global en las respuestas, todos los ítems están relacionados; esta coherencia global es la que estimamos en los coeficientes de fiabilidad (de consistencia interna; en el ejemplo ficticio de la tabla 2 el coeficiente de fiabilidad es a = .9244. 7. Esta relación entre los ítems es la que comprobamos experimentalmente y nos permite sumarlos en una sola puntuación total porque Sobre cómo construir escalas de actitudes y cómo hacer estos análisis puede verse Morales, Urosa y Blanco (2003). 4
199
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
nos confirma (aunque no necesariamente) que todos miden lo mismo. Si un ítem no está claramente relacionado con los demás, puede ser que esté midiendo otra cosa. 8. La relación conceptual (homogeneidad de los ítems) la suponemos (procuramos que todos los ítems expresen el mismo rasgo, aunque podemos equivocarnos), pero la comprobamos empíricamente en cada ítem (mediante la correlación de cada ítem con todos los demás) y en el conjunto de todo el instrumento (coeficiente de fiabilidad). Sin embargo puede haber relación empírica (un ítem correlaciona bien con los demás) sin que eso signifique que hay una clara relación conceptual. Si él ejemplo de la tabla 2 en vez del ítem me entusiasma la ópera (que claramente expresa gusto por la música) ponemos en mi casa tengo un piano, que podría expresar gusto por la música pero también, y con más claridad, indica nivel económico (algo distinto al gusto por la música, con unas respuestas no sumables con las demás), y los dos melómanos del ejemplo son además ricos y tienen un piano en casa y los dos a quienes no gusta o gusta menos la música son de ni vel económico inferior y por supuesto no tienen un piano en su casa, tendríamos que este ítem, en mi casa tengo un piano, está contribu yendo a la fiabilidad de la escala sin que podamos decir que está midiendo lo mismo que los demás. Los números no entienden de significados, de ahí la insistencia en los controles conceptuales. 9. El coeficiente de fiabilidad aumenta por lo tanto: a) si hay diferencias en las respuestas a cada ítem b) y si además hay relación entre los ítems (es decir, hay coherencia en las respuestas). 10.La fiabilidad supone también que los sujetos son distintos en aquello que es común a todos los ítems. El mismo test o escala, con los mismos ítems, puede tener una fiabilidad alta en una muestra y baja en otra: si todos responden a los ítems de idéntica manera: a) los ítems tendrán varianzas pequeñas y b) interrelaciones pequeñas, y por lo tanto bajará la fiabilidad. La fiabilidad viene a expresar la capacidad del instrumento para discriminar, para diferenciar a los sujetos a través de sus respuestas a todos los ítems. Es más probable encontrar una fiabilidad alta en una muestra grande, porque es más probable también que haya sujetos más extremos en lo que estamos midiendo. En sentido propio la fiabilidad no es una propiedad del test o escala, sino de las puntuaciones obtenidas con el instrumento en una muestra dada.
200
LA FIABILIDAD DE LOS TETS Y ESCALAS
5. L AS FÓRMULAS DE K UDER R ICHARDSON 20 Y a DE CRONBACH Las dos fórmulas posiblemente más utilizadas son las de Kuder-Richardson 20 y el coeficiente a de Cronbach. En realidad se trata de la misma fórmula, una (Kuder-Richardson) expresada para ítems dicotómicos (con respuestas de unos y ceros ) y otra (Cronbach) para ítems continuos (con varias respuestas graduadas de menos a más, como en las escalas de actitudes). Los nombres distintos se deben a que los autores difieren en sus modelos teóricos, aunque estén relacionados, y los desarrollaron en tiempos distintos (Kuder y Richardson en 1937, Cronbach en 1951). Para hacer operativa la fórmula [3] 2 s v
r 11 = ––––– s2t
[3]
El denominador no ofrece mayor problema, se trata de la varianza de las puntuaciones totales del test o instrumento utilizado. El numerador, o varianza verdadera, lo expresamos a través de la suma de las covarianzas de los ítems. Es útil recordar aquí qué es la co-varianza. Conceptualmente la co-varianza es lo mismo que la co-relación; en el coeficiente de cor relación utilizamos puntuaciones típicas y en la covarianza utilizamos puntuaciones directas, pero en ambos casos se expresa lo mismo y si entendemos qué es la correlación, entendemos también qué es la covarianza o variación conjunta. La varianza verdadera la definimos operativamente como la suma de las covarianzas de los ítems. La covarianza entre dos ítems expresa lo que dos ítems discriminan por estar relacionados, esto es lo que denominamos en estas fórmulas varianza verdadera, por lo tanto la fórmula [3] podemos expresarla poniendo en el numerador la suma de las covarianzas entre los ítems: o lo que es lo mismo
ya que
La covarianza entre dos ítems ( s xy ) es igual al producto de su correlación (r xy ) por sus desviaciones típicas ( s x y s y ): ahí tenemos la varianza verdadera: diferencias en las respuestas a los ítems (expresadas por las desviaciones típicas) y relacionadas (relación expresada por los coeficientes de correlación entre los ítems). Se trata por lo tanto de relaciones empíricas, verificadas, no meramente lógicas o conceptuales.
201
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Esta fórmula [5] de la fiabilidad no es, por supuesto cómoda para calcularla (tenemos otras alternativas) pero pone de manifiesto qué es lo que influye en la fiabilidad, por eso es importante. Aumentará la fiabilidad si aumenta el numerador. Y lo que tenemos en el numerador (fórmula [5]) es la suma de las covarianzas de los ítems ( Ss xy = Sr xy s x s y ) que expresa a) todo lo que discriminan los ítems (y ahí están sus desviaciones típicas) y b) por estar relacionados (y tenemos también las correlaciones inter-ítem). Si nos fijamos en la fórmula [5] vemos que si los ítems no discriminan (no establecen diferencias) sus desviaciones típicas serán pequeñas, bajará el numerador y bajará la fiabilidad. Pero no basta con que haya diferencias en los ítems, además tienen que estar relacionados; la correlación entre los ítems también está en el numerador de la fórmula [5]: si las desviaciones son grandes (como en el grupo B de la tabla 1) pero los ítems no están relacionados (= respuestas no coherentes), bajará la fiabilidad, porque esa no relación entre los ítems hace que las puntuaciones totales estén menos diferenciadas, como sucede en el grupo B. En este caso vemos que cuando las desviaciones de los ítems son muy grandes, pero la correlación inter-ítem es igual a 0, la fiabilidad es también igual a 0. La fiabilidad expresa por lo tanto cuánto hay de diferencias en los totales debidas a respuestas coherentes (o proporción de varianza verdadera o debida a que los ítems están relacionados ). Por eso se denomina a estos coeficientes coeficientes de consistencia interna: son mayores cuando las relaciones entre los ítems son mayores. La expresión varianza verdadera puede ser equívoca; en este contexto varianza verdadera es la debida a que los ítems están relacionados, son respondidos de manera básicamente coherente, pero no prueba o implica que de verdad todos los ítems midan lo mismo. Esta relación empírica, verificable, entre los ítems nos sirve para apoyar o confirmar (pero no probar ) la relación conceptual que debe haber entre los ítems (ya que pretendidamente miden lo mismo), aunque esta prueba no es absoluta y definitiva y requerirá matizaciones adicionales (dos ítems pueden estar muy relacionados entre sí sin que se pueda decir que miden lo mismo, como podrían ser edad y altura). La fórmula [4] puede transformarse en otra de cálculo más sencillo. Se puede demostrar fácilmente que la varianza de un compuesto (como la varianza de los totales de un test, que está compuesto de una serie de ítems que se suman en una puntuación final) es igual a la suma de las covarianzas entre los ítems (entre las partes del compuesto) más la suma de las varianzas de los ítems: de donde
202
LA FIABILIDAD DE LOS TETS Y ESCALAS
y sustituyendo en [4] tenemos que de donde
La fórmula que sin embargo utilizamos es esta otra y que corresponde al coeficiente s de Cronbach [8]: número de ítems suma de las varianzas de los ítems varianza de los totales
La expresión [k/(k-1)] (k= número de ítems) la añadimos para que el valor máximo de este coeficiente pueda llegar a la unidad. El segundo miembro de esta fórmula [8], que es el que realmente cuantifica la proporción de varianza debida a lo que los ítems tienen en común o de relacionado, puede alcanzar un valor máximo de [(k-1)/k] y esto solamente en el caso improbable de que todas las varianzas y covarianzas sean iguales. Como [(k-1)/k] x [k/(k1)]= 1, al añadir a la fórmula el factor [k/(k-1)] hacemos que el valor máximo posible sea 1. La fórmula [8], tal como está expresada, corresponde al a de Cronbach (para ítems continuos); en la fórmula Kuder-Richardson 20 (para ítems dicotómicos, respuesta 1 ó 0) sustituimos Ss2i por Spq pues pq es la varianza de los ítems dicotómicos (p = proporción de unos y q = proporción de ceros ). La parte de la fórmula [8] que realmente clarifica el sentido de la fiabilidad está en el segundo miembro que, como hemos visto, equivale a Sr xy s x s y / s2t (suma de las covarianzas de todos los ítems dividida por la varianza de los totales, fórmulas [4] y [5]). 6. F ACTORES QUE INCIDEN EN LA MAGNITUD DEL COEFICIENTE DE FIABILIDAD Es útil tener a la vista los factores o variables que inciden en coeficientes de fiabilidad altos. Cuando construimos y probamos un instrumento de medición psicológica o educacional nos interesa que su fiabilidad no sea baja y conviene tener a la vista qué podemos hacer para obtener coeficientes altos. Además el tener en cuenta estos factores que inciden en la magnitud del coeficiente de fiabilidad nos ayuda a interpretar casos concretos. En general los coeficientes de fiabilidad tienden a aumentar:
203
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
1º Cuando la muestra es heterogénea; es más fácil clasificar a los sujetos cuando son muy distintos entre sí. Con muestras de sujetos muy parecidos en el rasgo que queremos medir, todos responderán de manera parecida, y las varianzas de los ítems y sus intercorrelaciones serán pequeñas. 2º Cuando la muestra es grande porque en muestras grandes es más probable que haya sujetos muy distintos (es la heterogeneidad de la muestra, y no el número de sujetos, lo que incide directamente en la fiabilidad); aunque también podemos obtener un coeficiente alto en muestras pequeñas si los sujetos son muy diferentes en aquello que es común a todos los ítems y que pretendemos medir. 3º Cuando las respuestas a los ítems son más de dos , porque en este caso hay una mayor probabilidad de que las respuestas difieran más, de que se manifiesten las diferencias que de hecho existen. Cuando el número de respuestas supera la capacidad de discriminación de los sujetos, la fiabilidad baja porque las respuestas son más inconsistentes; en tor no a 6 ó 7, e incluso menos, suele situarse el número óptimo de respuestas. Lo más claro experimentalmente es que la fiabilidad sube al pasar de dos respuestas a tres. 4º Cuando los ítems son muchos (más oportunidad de que los sujetos queden más diferenciados en la puntuación total) aunque un número de ítems grande puede dar una idea equívoca de la homogeneidad del instr umento como indicaremos más adelante ( muchos ítems poco relacionados entre sí pueden llevar una fiabilidad alta en todo el instrumento sin que quede muy claro qué se está midiendo). 5º Cuando la formulación de los ítems es muy semejante , muy repetitiva (si hay diferencias entre los sujetos, aparecerán en todos los ítems y subirán sus intercorrelaciones) aunque ésta no es una característica necesariamente deseable en un instrumento (que mediría un constructo definido con límites muy estrechos). En general los constructos o rasgos definidos con un nivel alto de complejidad requerirán ítems más diversificados y la fiabilidad tenderá a ser menor. 7. INTERPRETACIÓN DE LOS COEFICIENTES DE CONSISTENCIA INTERNA Basándonos en estas fórmulas y en sus modelos teóricos, estos coeficientes podemos interpretarlos de las siguientes maneras (unas interpretaciones se derivan de las otras): 1 . Expresa directamente lo que ya hemos indicado: la proporción de varianza debida a lo que los ítems tienen de relacionado, de co-
204
LA FIABILIDAD DE LOS TETS Y ESCALAS
mún; un coeficiente de .70 indica que el 70% de la varianza (diferencias en los totales, que es lo que cuantifica la varianza) se debe a lo que los ítems tienen en común (de estar relacionado, de coherencia en las respuestas), y un 30% de la varianza se debe a errores de medición o a lo que de hecho tienen los ítems de no relacionado. De esta interpretación podemos decir que es una interpretación literal, que se desprende directamente de la lectura de la fórmula (Suma de covarianzas/Varianza total). Estos coeficientes, dicho en otras palabras, expresan en qué grado los ítems discriminan o diferencian a los sujetos simultáneamente. De alguna manera son un indicador de relación global entre los ítems (aunque no equivalen a la correlación media entre los ítems). 2. Consecuentemente interpretamos estos coeficientes como indicadores de la homogeneidad de los ítems (es decir, de que todos los ítems miden lo mismo, por eso se denominan coeficientes de consistencia interna ) ; pero esto es ya una interpretación: suponemos que si las respuestas están relacionadas es porque los ítems expresan o son indicadores del mismo rasgo, aunque no hay que confundir relación empírica (verificada, relación de hecho en las respuestas y es esto lo que cuantificamos con estas fórmulas) con homogeneidad conceptual . Esta relación o consistencia interna comprobada de los ítems es la que legitima su suma en una puntuación total, que es la que utilizamos e interpretamos como descriptor del rasgo (ciencia, una actitud, un rasgo de personalidad, etc.) que suponemos presente en todos los ítems. 3. Son una estimación del coeficiente de correlación que pode mos esperar con un test similar , con el mismo número y tipo de ítems. Esta interpretación se deriva directamente del modelo teórico propuesto por Cronbach. De un universo o población de posibles ítems hemos escogido una muestra de ítems que es la que conforma nuestro instrumento. Si la fiabilidad es alta, con otra muestra de ítems de la misma población de ítems obtendríamos unos resultados semejantes (los sujetos quedarían ordenados de manera similar). Un uso impor tante de estos coeficientes es poder comunicar hasta qué punto los resultados obtenidos con un determinado instrumento son repetibles, en el sentido de si con un test semejante los resultados hubieran sido similares. La fiabilidad es en este sentido un indicador de la eficacia del instrumento. Si estos coeficientes son una estimación de la correlación del test con otro similar, podemos concluir que con otro test semejante los sujetos hubieran quedado ordenados, clasificados, de manera parecida. 4. En términos generales el coeficiente de fiabilidad nos dice si un test discrimina adecuadamente , si clasifica bien a los sujetos, si detecta bien las diferencias que existen entre los sujetos de una muestra. Diferencias ¿En qué? En aquello que es común a todos los ítems y que es lo que pre-
205
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
tendemos medir. Es más, sin diferencias entre los sujetos no puede haber un coeficiente de fiabilidad alto. La fiabilidad es una característica positiva siempre que interese detectar diferencias que suponemos que existen. Esto sucede cuando medimos rasgos de personalidad, actitudes, etc., medir es, de alguna manera, establecer diferencias. 5. Una observación importante: la interpretación de estos coeficientes, como característica positiva o deseable, puede ser distinta cuando se trata de comprobar resultados escolares en los que no hay diferencias o no se pretende que existan, por ejemplo en un examen de objetivos mínimos, o si se trata de verificar si todos los alumnos han conseguido determinados objetivos. A la valoración de la fiabilidad en exámenes y pr uebas escolares le dedicamos más adelante un comentario específico (apartado 11). La valoración de una fiabilidad alta como característica positiva o de cali dad de un test es más clara en los tests de personalidad, inteligencia, etc., o en las escalas de actitudes: en estos casos pretendemos diferenciar a los sujetos, captar las diferencias que de hecho se dan en cualquier rasgo; digamos que en estos casos las diferencias son esperadas y legítimas. Además en este tipo de tests también pretendemos medir (en un sentido analógico) un único rasgo expresado por todos los ítems, mientras que en el caso de un examen de conocimientos puede haber habilidades muy distintas, con poca relación entre sí, en el mismo examen (aunque tampoco esto es lo más habitual). Aun con estas observaciones, en un examen largo, tipo test, con muchos o bastantes alumnos, entre los que esperamos legítimamente que haya diferencias, una fiabilidad baja sí puede ser un indicador de baja calidad del instrumento, que no recoge diferencias que probablemente sí existen. 6. Índice de precisión. Hemos visto que el coeficiente de fiabilidad expresa una proporción, la proporción de varianza verdadera o varianza debida a lo que los ítems tienen en común. También sabemos que un coeficiente de correlación elevado al cuadrado (r 2, índice de determinación) expresa una proporción (la proporción de varianza compartida por dos variables). Esto quiere decir que la raíz cuadrada de una proporción equivale a un coeficiente de correlación (si r 2 = proporción, tenemos que = r). En este caso la raíz cuadrada de un coeficiente de fiabilidad equivale al coeficiente de correlación entre las puntuaciones obtenidas (con nuestro instrumento) y las puntuaciones verdaderas (obtenidas con un test ideal que midiera lo mismo). Este coeficiente se denomina índice de precisión (también índice, no coeficiente, de fiabilidad). índice de precisión ó r observadas.verdaderas =
[9]
Una fiabilidad de .75 indicaría una correlación de .86 con las puntuaciones verdaderas. Este índice expresa el valor máximo que puede al-
206
LA FIABILIDAD DE LOS TETS Y ESCALAS
canzar el coeficiente de fiabilidad. No es de mucha utilidad, pero se puede utilizar junto con el coeficiente de fiabilidad. 7. La interpretación del coeficiente de fiabilidad se complementa con el cálculo y uso del error típico o margen de error ; es la oscilación probable de las puntuaciones si los sujetos hubieran respondido a una serie de tests paralelos; a mayor fiabilidad (a mayor precisión) bajará la magnitud del error probable. Tratamos del error típico en otro apartado (9.2); el error típico, como veremos, puede ser de utilidad más práctica que el coeficiente de fiabilidad. 8. CUÁNDO UN COEFICIENTE DE FIABILIDAD ES SUFICIENTEMENTE ALTO Esta pregunta no tiene una respuesta nítida; cada coeficiente hay que valorarlo en su situación: tipo de instrumento (define un rasgo muy simple o muy complejo), de muestra (muy homogénea o más heterogénea) y uso pretendido del instrumento (mera investigación sobre grupos, o toma de decisiones sobre sujetos). En la práctica la valoración depende sobre todo del uso que se vaya a hacer del instrumento (de las puntuaciones con él obtenidas). Como orientación podemos especificar tres usos posibles de los tests y algunos valores orientadores (tabla 3). Tabla 3
Estas valoraciones, como otras similares que pueden encontrarse en libros de texto y en diversos autores, son sólo orientadoras5. Lo que se quiere poner Nunnally (1978) propone un mínimum de .70; para Guilford (1954:388-389) una fiabilidad de sólo .50 es suficiente para investigaciones de carácter básico; Pfeiffer, Heslin y Jones (1976) y otros indican .85 si se van a tomar decisiones sobre sujetos concretos; en algunos tests bien conocidos (de Cattell) se citan coeficientes inferiores a .50 (Gómez Fernández, 1981). No hay un valor mínimo sagrado para aceptar un coeficiente de fiabilidad como adecuado; medidas con una fiabilidad relativamente baja pueden ser muy útiles (Schmitt, 1996). Por otra parte coeficientes muy altos; pueden indicar excesiva redundancia en los ítems (muy repetitivos) por esta razón hay autores que recomiendan un máximum de .90 (Streiner, 2003). Como referencia adicional podemos indicar que la fiabilidad media en artículos de buenas revistas de Psicología de la Educación está en torno a .83 (Osborne, 2003). 5
207
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
de manifiesto es que no es lo mismo investigar (comparar medias de grupos, etc.) que tomar decisiones sobre individuos. Si se van a tomar decisiones sobre sujetos concretos (como aprobar, excluir, recomendar tratamiento psiquiátrico, etc.) hay que proceder con más cautela, teniendo en cuenta además que no todas las posibles decisiones son de igual importancia. Cuando baja la fiabilidad sube el error típico (o margen de error en la puntuación individual) que con una forma paralela del mismo test o en otra situación, etc., podría ser distinta. Los grupos son más estables que los individuos, y el margen de error que pueda haber es de menor importancia (el error típico de la media es menor que la desviación típica de la muestra). Por lo demás si se trata de tomar decisiones sobre individuos concretos se puede tener en cuenta el error típico y tomar la decisión en función de la banda de posibles puntuaciones individuales más que en función de la puntuación concreta obtenida de hecho; de esta manera asumimos la menor fiabilidad del instrumento. En este sentido importa menos la poca fiabilidad de un test si en la interpretación de los resultados individuales tenemos en cuanta el error típico (del que tratamos en 9.2). Por otra parte tampoco se suelen tomar decisiones importantes en función del resultado de un único test. En el caso de informar sobre grupos se pueden especificar los intervalos de confianza de la media (margen de error o de oscilación de la media, que se verá en el lugar apropiado). Los valores del coeficiente de fiabilidad oscilan entre 0 y 1, pero ocasionalmente podemos encontrar valores negativos, simplemente porque no se cumplen en un grado apreciable las condiciones de estos modelos (Black, 1999:286); en este caso (valor negativo) podemos interpretar este coeficiente como cero6. 9. UTILIDAD DE LOS COEFICIENTES DE FIABILIDAD Vamos a fijarnos en tres ventajas o usos frecuentes de estos coeficientes: 1º Nos confirman en principio que todos los ítems miden lo mismo, y de hecho estos coeficientes se utilizan como un control de calidad, aunque esta interpretación es discutible y habrá que entenderla y relativizarla. Más bien habría que decir que un coeficiente alto de fiabilidad Valores negativos del coeficiente de fiabilidad pueden encontrarse cuando hay substanciales correlaciones negativas entre los ítems; esto puede suceder cuando está mal la clave de corrección y hay ítems con una formulación positiva y negativa que tienen la misma clave; también puede suceder que los ítems realmente miden constructos distintos y no hay suficiente varianza compartida; en estos casos la fiabilidad puede considerarse igual a cero (Streiner, 2003). 6
208
LA FIABILIDAD DE LOS TETS Y ESCALAS
apoya (pero no prueba ) la hipótesis de que todos los ítems miden básicamente el mismo rasgo o atributo. 2º Los coeficientes de fiabilidad permiten calcular el error típico de las puntuaciones individuales; este error típico puede incluso ser de un interés mayor que el coeficiente de fiabilidad porque tiene aplicaciones prácticas como veremos en su lugar. 3º Los coeficientes de fiabilidad obtenidos nos permiten estimar los coeficientes de correlación que hubiéramos obtenido entre dos variables si su fiabilidad fuera perfecta (y que se denominan coeficientes de correlación corregidos por atenuación). 9.1. Fiabilidad y unidimensionalidad: apoyo a la interpretación uni dimensional del rasgo medido Como vamos exponiendo, la consistencia interna que manifiesta el coeficiente de fiabilidad apoya (pero no prueba ) la interpretación de que todos los ítems miden lo mismo (es lo que entendemos por unidimensionalidad; que el instrumento mide un único rasgo bien definido); esto es lo que en principio se pretende cuando se construye un test o escala. Ésta es la interpretación y valoración más común de estos coeficientes. Simplificando, lo que decimos es esto: si unos sujetos tienden a estar de acuerdo con todos los ítems y otros responden en la zona del desacuerdo a los mismos ítems, esta coherencia de las respuestas nos dice que todos los ítems miden el mismo rasgo. Esta interpretación, que es válida en principio, hay que relativizarla, porque en la fiabilidad influyen variables ajenas a la redacción de los ítems, que por otra par te pueden ser buenos (con criterios conceptuales) pero no para cualquier muestra o para cualquier finalidad. El interpretar una fiabilidad alta como indicador claro de que todos los ítems miden lo mismo no se puede aceptar ingenuamente; el coeficiente de fiabilidad no es una medida de unidimensionalidad. Esto es importante porque precisamente se aduce este coeficiente como prueba de que los ítems miden lo mismo, de que todos los ítems expresan bien un mismo rasgo, y esto no está siempre tan claro. Por otra parte (como ya se ha indicado en el nº 7) una de las interpretaciones standard de estos coeficientes (en la misma línea de apoyo a la unidimensionalidad del test) es que expresan la correlación que obtendríamos con un test paralelo. Podemos concebir un test (o escala de actitudes, etc.) como compuesto por una muestra aleatoria de ítems tomada de un universo o población de ítems que miden lo mismo: la fiabilidad indicaría la correlación de nuestro test con otro de idéntico número de ítems tomados del mismo universo. En primer lugar no hay un valor óptimo del coeficiente de fiabilidad y por otra parte esta interpretación (derivada del modelo de Cron-
209
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
bach) supone al menos una condición que no suele darse en la práctica: que todas las correlaciones ítem-total son de la misma magnitud. En la práctica es preferible hablar de una estimación de esa correlación, que será más exacta si somos muy restrictivos en la selección de los ítems. Hay que matizar la interpretación de estos coeficientes porque no dependen exclusivamente de la redacción de los ítems, también dependen de la complejidad o simplicidad de la definición del rasgo que queremos medir, y además (y frecuentemente sobre todo) influyen en la fiabilidad características de la muestra. Hablando con propiedad, la fiabilidad ya sabemos que no es una característica del instrumento de medición sino de las puntuaciones con él obtenidas en una situación dada y con una muestra determinada. En estas observaciones nos fijamos sobre todo en los coeficientes de fiabilidad más bien altos, porque no indican necesariamente que el instrumento es bueno, también prestaremos atención a los coeficientes bajos, que pueden tener su explicación e incluso ser compatibles con un buen instrumento. Vamos a explicar por qué un coeficiente alto no expresa necesariamente que los ítems son suficientemente homogéneos como para concluir que to dos miden lo mismo, que hay suficiente homogeneidad conceptual como para sumarlos en una única puntuación que refleja lo un sujeto tiene del ras go que estamos midiendo y que consideramos expresado por la formulación de los ítems. Nos fijaremos en tres puntos: 1º) Esta consistencia interna que cuantifican los coeficientes de fiabilidad expresa una relación de hecho, estadística, empírica, entre los ítems, pero la relación empírica no supone necesariamente que hay coherencia conceptual (que todos expresan bien el mismo rasgo). 2º) Una fiabilidad alta puede deberse a un número grande de ítems que en ocasiones no se prestan a una interpretación clara como descriptores de un único rasgo, bien definido. 3º) Una fiabilidad alta puede deberse también a una concepción del rasgo muy limitada, expresada a través de ítems de contenido casi idéntico, muy repetitivos. Todo esto hay que tenerlo en cuenta para valorar estos coeficientes y no dar necesariamente por bueno un instrumento porque hemos obtenido una fiabilidad alta7.
7
Sobre los usos y abusos del coeficiente a puede verse Schmitt (1996).
210
LA FIABILIDAD DE LOS TETS Y ESCALAS
9.1.1. Una fiabilidad alta no es prueba inequívoca de que todos los ítems miden lo mismo: necesidad de controles conceptuales Puede suceder que los ítems estén relacionados de hecho pero que expresen cosas distintas (o suficientemente distintas) y que por lo tanto sea cuestionable el sumarlos como si realmente midieran lo mismo; al menos esa puntuación total puede no ser de interpretación clara. Ya lo hemos comentado a propósito de dos supuestos ítems de una escala de actitud hacia la mú sica (apartado nº 4) y que es oportuno repetir aquí: 1. En mi tiempo libre me gusta escuchar música 2. En mi casa tenemos un piano Estos dos ítems son un ejemplo pretendidamente exagerado (porque ob viamente no describen el mismo rasgo), pero es claro para ilustrar que relación empírica (la que expresan estos coeficientes de fiabilidad) no es lo mismo que relación conceptual (que de entrada todos los ítems midan un mismo rasgo interpretable). Si a los que más les gusta la música tienen además un piano en casa, obtendremos una correlación alta entre estos dos ítems pero sería discutible considerar los dos ítems homogéneos como si midieran lo mismo, a pesar de un coeficiente de fiabilidad alto. El tener un piano en ca sa mide o expresa nivel económico aunque el tener un piano en casa coincida de hecho (no necesariamente pero tendría su lógica) con una actitud más favorable hacia la música. Hace falta un control cualitativo y no meramente estadístico de la homogeneidad de los ítems. Además de la fiabilidad que podemos calcular tenemos que considerar la homogeneidad conceptual de los ítems. Aunque esta homogeneidad conceptual la suponemos (al menos es lo que se intenta), un índice alto de homogeneidad empírica (consistencia interna), calculada (correlaciones) no es garantía de homogeneidad conceptual. Cuando decimos que todos los ítems miden lo mismo, que son homogéneos, porque la fiabilidad es alta, lo que realmente queremos decir es que las respuestas están de hecho relacionadas pero no que los ítems (las preguntas) estén bien redactadas en torno a un mismo constructo o rasgo claramente definido. Hace falta también una evaluación cualitativa y conceptual de los ítems para poder afirmar que todos los ítems miden lo mismo, expresan el mismo rasgo tal como lo hemos concebido. Por otra parte varios subconjuntos de ítems muy relacionados entre sí pero marginalmente relacionados con otros subconjuntos de ítems pueden dar un coeficiente de fiabilidad alto en todo el instrumento y sin embargo un análisis conceptual de estos subconjuntos (más otros análisis estadísticos, como
211
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
el análisis factorial ) nos pueden llevar a la conclusión de que los subconjuntos de ítems miden rasgos suficientemente distintos como para que sea cuestionable sumarlos en un total único. Consistencia interna (tal como la cuantifican estos coeficientes) y unidimensionalidad son conceptos distintos, por eso decimos que un coeficiente alto de fiabilidad es un apoyo pero no una prueba de que el conjunto de ítems que componen el instrumento mide un único rasgo bien conceptualizado. 9.1.2. Fiabilidad y número de ítems El coeficiente de fiabilidad aumenta al aumentar el número de ítems; ¿quiere esto decir que los tests más largos son más homogéneos, que sus ítems miden con más claridad el mismo rasgo? Obviamente no; los ítems no están más relacionados entre sí por el mero hecho de ser más en número; el mismo Cronbach (1951) lo expresaba así: un galón de leche no es más homo géneo que un vaso de leche; un test no es más homogéneo por el mero hecho de ser más largo. El que al aumentar el número de ítems aumente la fiabilidad se debe, al menos en parte, a un mero mecanismo estadístico: cuando aumenta el número de ítems (con tal de que estén mínimamente relacionados entre sí) la suma de las covarianzas entre los ítems (numerador de la fór mula [4]) aumenta proporcionalmente más que la varianza de los totales (denominador de la fórmula [4]). Una fiabilidad alta se puede obtener con muchos ítems con relaciones bajas entre sí, e incluso con algunas negativas; y puede suceder también que (como ya hemos indicado) dos (o más) bloques de ítems con claras correlaciones entre los ítems dentro de cada bloque, pero con poca o nula relación con los ítems del otro bloque den para todo el test un coeficiente alto de fiabilidad. En este caso la homogeneidad del conjunto, y la interpretación de las puntuaciones como si expresaran un único rasgo bien definido puede ser cuestionable. Por lo tanto: a) No se debe buscar una fiabilidad alta aumentando sin más el número de ítems, sin pensar bien si son realmente válidos para expresar sin confusión el rasgo que deseamos medir. Una fiabilidad alta no es un indicador cuasi automático de la calidad de un test, sobre todo si es muy largo; hace falta siempre una evaluación conceptual de los ítems (además de verificar empíricamente su correlación con el total del instrumento). b) Con frecuencia con un conjunto menor de ítems se puede conseguir una fiabilidad semejante o no mucho más baja que si utilizamos todos los ítems seleccionados en primer lugar, y varios subconjuntos de ítems pueden tener coeficientes de fiabilidad muy parecidos.
212
LA FIABILIDAD DE LOS TETS Y ESCALAS
c) La fiabilidad también sube al aumentar el número de respuestas de los ítems (esto es más claro si pasamos de dos a tres o más respuestas); con un número menor de ítems pero con más respuestas se puede conseguir una fiabilidad semejante a la que conseguiríamos con más ítems y menos respuestas. No hay que olvidar nunca que la validez es más importante que la fiabilidad; lo que más importa en primer lugar es que los ítems reflejen bien el rasgo que se desea medir. 9.1.3. Fiabilidad y simplicidad o complejidad del rasgo medido Un coeficiente alto puede estar indicando que los ítems tienen homogeneidad conceptual, pero porque son excesivamente repetitivos, porque estamos midiendo un constructo o rasgo definido de manera muy limitada. Con pocos ítems muy repetitivos obtenemos con facilidad una fiabilidad alta. Una definición muy simple de un rasgo no es necesariamente una mala característica cuando se trata hacer un instrumento de medición (puede ser incluso preferible según lo que se pretenda medir) pero hay que tener en cuenta esta simplicidad de la concepción del rasgo en la interpretación, y más teniendo en cuenta que los nombres con que designamos a instrumentos y rasgos suelen ser muy genéricos (autoestima, motivación, asertividad) y la interpretación no debe hacerse en función del nombre del instrumento sino del contenido de los ítems que lo componen. Los nombres breves son cómodos, pero con frecuencia requieren alguna explicación adicional. Un ejemplo claro y frecuente de un rasgo que a veces se mide de manera muy simple y otras de manera más compleja es la autoestima. Se puede preparar un instrumento de autoestima general, que incluirá múltiples aspectos (académico, social, familiar, etc.), o se puede construir un instrumento para medir la autoestima en un sentido muy restringido, como sería la autoestima académica. También se pueden construir instrumentos pluridimensionales: se mide un rasgo complejo con todos los ítems del instrumento, y con una definición más bien genérica pero que tiene sentido (autoestima, asertividad, etc.) pero que a su vez se puede descomponer en subescalas más específicas; la fiabilidad puede calcularse tanto en todo el instrumento como en las subescalas que miden aspectos más simples. 9.2. El error típico de la medida Una utilidad importante de los coeficientes de fiabilidad puede estar no en la magnitud misma de estos coeficientes, sino en los cálculos posteriores
213
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
que podemos hacer a partir de los mismos. Uno de estos cálculos es el del error típico de la medida. El error típico de la medida es de especial utilidad cuando se van a hacer interpretaciones individuales, sobre todo si se derivan consecuencias importantes para los sujetos (aprobar, ser seleccionado para un puesto de trabajo, etc.), y con más razón si se juzga que la fiabilidad del instrumento dista de ser óptima. Ya hemos indicado en otro lugar que una fiabilidad alta es importante cuando los resultados (de un test) van a influir en la toma de decisiones sobre los sujetos (y el aprobar o suspender a un sujeto es una decisión importante). 9.2.1. Concepto y fórmula del error típico El error típico de la medida viene a ser la desviación típica de las puntuaciones individuales, e indica el margen de error o variación probable de las puntuaciones individuales. En términos informales podemos decir que el error típico nos indica el margen de oscilación probable de las puntuaciones de una ocasión a otra o entre pruebas hipotéticamente iguales o semejantes. Nos puede servir para relativizar los resultados individuales, y de alguna manera neutralizar la baja fiabilidad de instrumento indicando y teniendo en cuenta los márgenes de error. Vamos a pensar en un ejemplo sencillo, un examen tipo test. Cada alumno tiene un resultado, su número de respuestas correctas. Si cada alumno hubiera respondido a un número indefinido de exámenes, no hubiera obtenido en todos exactamente el mismo resultado; sus posibles resultados se hubieran distribuido según la distribución normal (figura 3). Figura 3
214
LA FIABILIDAD DE LOS TETS Y ESCALAS
Esta distribución hubiera tenido su media y su desviación típica o error tí pico de la medición. Podemos suponer que la puntuación de hecho obtenida es la media de la distribución (aunque esto no es así exactamente, como veremos después al tratar de las puntuaciones verdaderas ). El error típico de la medición se calcula a partir del coeficiente de fiabilidad, y en muchos casos el mejor uso del coeficiente de fiabilidad es utilizarlo para calcular el error típico, (por ejemplo en exámenes o en cualquier test) cuando interese situar a cada uno en su banda de posibles probables resulta dos. Esta banda de posibles resultados será más estrecha (con un error típico menor) cuando la fiabilidad sea alta, y será más amplia cuando baje la fiabilidad. Una baja fiabilidad de un instrumento puede quedar neutralizada si utilizamos el error típico en la interpretación de las puntuaciones individuales. La fórmula del error típico podemos derivarla con facilidad de las fórmulas [2] y [3]. De la fórmula [2] podemos despejar la varianza verdadera: s v 2 = s2t - s2e y substituyendo esta expresión de s v 2 en [3]: s2e
de donde —— = 1- r 11 s2t
s2t – s2e
s2e
s2t
s2t
r11 = ———— = 1- ——
y despejando se tenemos que [10]
error típico
Esta es la fórmula de la desviación típica de los errores de medición, denominada error típico de la medida o de las puntuaciones individuales. Se calcula a partir de la desviación típica (de los totales del test) y del coeficiente de fiabilidad calculados en la muestra. Si un sujeto hubiera respondido a una serie de tests paralelos semejantes, el error típico sería la desviación típica obtenida en esa serie de tests. Se interpreta como cualquier desviación típica e indica la variabilidad probable de las puntuaciones obtenidas, observadas. El error típico es directamente proporcional al número de ítems y en el caso de los tests con respuestas 1 ó 0 (como en las pruebas objetivas) un cálculo rápido (y aproximado) es el dado en la fórmula [11] 8: error típico
[11]
Puede verse explicado en Gardner (1970) y en Burton (2004). Hay varias fórmulas que permiten cálculos aproximados del error típico, del coeficiente de fiabilidad y de otros estadísticos que pueden ser útiles en un momento dado (por ejemplo, y entre otros, Saupe, 1961; McMorris, 1972). 8
215
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Aquí hay que hacer una observación importante. Este error típico se aplica en principio a todos los sujetos por igual; hay un error típico que indica la oscilación probable de cada puntuación. Esto no es así exactamente. Pensemos en un examen: el alumno que sabe todo, en exámenes semejantes seguiría sabiendo todo, y el alumno que no sabe nada, en exámenes semejantes seguiría sin saber nada: la oscilación probable en los extremos es menor que en el centro de la distribución. Ésta es una limitación de esta medida del error probable individual. Aun así es la medida más utilizada aunque hay otras9. Si la distribución es normal (o aproximadamente normal) y las puntuaciones máximas y mínimas obtenidas no son las máximas o mínimas posibles (la amplitud real no es igual a la amplitud máxima posible), éste error tí pico de la medida es más o menos uniforme a lo largo de toda la escala de puntuaciones. Aquí nos limitamos a exponer el error típico habitual, el que se utiliza normalmente y que tiene aplicaciones muy específicas, pero en situaciones aplicadas (como en exámenes) sí conviene caer en la cuenta de que la posible variabilidad individual tiende a ser menor en los extremos de la distribución. 9.2.2. Las puntuaciones verdaderas Un punto importante para el cálculo e interpretación del error típico es que el centro de la distribución de los posibles resultados no es para cada sujeto la puntuación que ha obtenido. Si un sujeto obtiene una puntuación de 120 y el error típico es de se = 4.47, no podemos concluir que hay un 68% de probabilidades (aproximadamente, es la proporción de casos que suelen darse entre ± 1s ) de que su verdadera puntuación está entre 120 ± 4.47. El centro de la distribución no es en este caso la puntuación obtenida, sino la denominada puntuación verdadera (X v ) que se puede estimar mediante la fórmula [12]: ¯ v = [(X-X ¯ ) (r 11 )] + X ¯ [12] Estimación de la puntuación verdadera: X ¯ = 100 y r 11 = .80, la estimación de la puntuación En el caso anterior si X verdadera de un sujeto que tuviera una puntuación de X = 120, sería [(120 100)(.80)] + 100 = 116. Si la fiabilidad es igual a 1, la puntuación obtenida es también la que aquí denominamos verdadera. Siguiendo con el mismo ejemplo, de un sujeto con X =120 y una puntuación verdadera de 116, podemos decir que sus posibles resultados en ese test En Mehrens y Lehmann (1973, pág. 106) puede verse cómo calcular el error típico de cada sujeto; es una fórmula poco utilizada porque resulta laborioso calcularla para cada sujeto y a efectos prácticos son suficientes las expuestas en el texto. 9
216
LA FIABILIDAD DE LOS TETS Y ESCALAS
(con un 5% de probabilidades de equivocarnos) están entre 116 ± (1.96 errores típicos); en este caso entre 116 ± (1.96)(4.47) o entre 107 y 125. Estas puntuaciones verdaderas tienden a ser menores que las obtenidas cuando estas son superiores a la media, y mayores cuando son inferiores a la media. No debemos entender esta puntuación verdadera (aunque éste sea el término utilizado) como expresión de una verdad absoluta, que nos dice exactamente lo que vale o sabe una persona en aquello en la que la hemos medido. Hay que entender más bien esta puntuación verdadera como la puntuación más probable que un sujeto hubiera obtenido si le hubiéramos medido repetidas veces en el mismo rasgo y con el mismo instrumento. Las puntuaciones verdaderas y las puntuaciones observadas tienen una correlación perfecta (el orden de los sujetos es el mismo con las dos puntuaciones) por lo que el cálculo de estas puntuaciones verdaderas no tiene siempre una especial utilidad práctica; sí puede tenerla cuando se desea precisamente utilizar el error típico para precisar con mayor rigor y exactitud entre qué límites o banda de resultados probables se encuentra la verdadera puntuación, como tratamos en el apartado siguiente. 9.2.3. Los intervalos de confianza de las puntuaciones individuales Como el error típico se interpreta como una desviación típica, si el error típico es de 4.47, hay un 68% de probabilidades de que la verdadera puntuación estaría entre 116 ± 4.47 (la puntuación verdadera más-menos un error típico; es la proporción de casos que caen en la distribución normal entre la media más una desviación típica y la media menos una desviación típica, como se representa en la figura 1). Podemos establecer inter valos de confianza con mayor seguridad, y así podríamos decir, con un 95% de probabilidades de acertar (z = 1.96) que la puntuación verdadera se encuentra entre 116 ± 1.96se y en nuestro ejemplo entre 116 ± (1.96)(4.47) o entre 116 ± 8.76 (es decir, entre 107 y 125). El error típico nos sirve para relativizar las puntuaciones obtenidas, y más que pensar en una puntuación concreta, la obtenida por cada sujeto, podemos pensar en una banda de posibles puntuaciones. La puntuación verdadera exacta de cada sujeto (la que hubiera obtenido respondiendo a todos los ítems del universo e ítems o a muchas pruebas paralelas) no la sabemos, pero sí podemos estimar entre qué límites se encuentra, y esto puede ser de utilidad práctica en muchas ocasiones. Cuando en un examen hay una puntuación mínima para el apto, sumando a los que están en el límite un error típico, o margen de oscilación probable, algunos quizás superen holgadamente ese límite; al menos hay un criterio razonablemente objetivo, justificable y común para todos.
217
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
9.3. Coeficientes de correlación corregidos por atenuación En buena medida la utilidad de los coeficientes de fiabilidad está en los cálculos adicionales que podemos hacer. Posiblemente el más importante, y de utilidad práctica, es el del error típico de la medida que ya hemos visto. Otra utilidad de estos coeficientes es que nos permiten calcular el valor de un coeficiente de correlación entre dos variables corregido por atenuación. La correlación calculada entre dos variables queda siempre disminuida, atenuada, por culpa de los errores de medición, es decir, por su no perfecta fiabilidad. La verdadera relación es la que tendríamos si nuestros instrumentos midieran sin error. Esta correlación corregida por atenuación es la que hubiéramos obtenido si hubiésemos podido suprimir los errores de medición en las dos variables (o al menos en una de las dos; no siempre conocemos la fiabilidad de las dos variables). Conociendo la fiabilidad de las dos variables podemos estimar la verdadera relación mediante la fórmula [13]:
En esta fórmula r xy es el coeficiente de correlación obtenido entre dos variables, X e Y, y r xx y r yy son los coeficientes de fiabilidad de cada variable; si conocemos solamente la fiabilidad de una de las dos variables, en el denominador tendremos solamente la raíz cuadrada de la fiabilidad conocida. Por ejemplo si entre dos tests o escalas tenemos una correlación de .30 y los coeficientes de fiabilidad de los dos tests son .50 y .70, la correlación estimada corregida por atenuación sería:
Vemos que la correlación sube apreciablemente; y expresa la relación entre las dos variables independientemente de los errores de medición de los instrumentos utilizados. Sobre estas estimaciones de la correlación entre dos variables (entre las verdaderas puntuaciones de X e Y, sin errores de medición) ya se han hecho una serie de observaciones al tratar sobre los coeficientes de correlación (en el apartado 4.1. del capítulo sobre correlación y covarianza; ése es el contex-
218
LA FIABILIDAD DE LOS TETS Y ESCALAS
to apropiado); conviene tener en cuenta esas observaciones (que no repetimos aquí) sobre 1º en qué condiciones se debe utilizar utiliz ar esta fórmula de corrección por atenuación, 2º en qué situaciones es más útil y 3º otras fórmulas distintas de corrección por atenuación. Conviene repasar estas observaciones antes de aplicar estas fórmulas10. UANDO O TENE TENEMO MOSS UN COEF COEFIC ICIE IENT NTE E DE FIAB FIABIL ILID IDAD AD BAJO BAJO 10. CUAND
Un coeficiente de fiabilidad bajo no indica necesariamente que el instrumento es malo y que no es posible utilizarlo. También También puede suceder que qu e ha ya una razonable homogeneidad razonable homogeneidad conceptual en la formulación de los ítems, y esto se procura siempre, y que esta homogeneidad no se refleje refleje en un coeficiente alto de fiabilidad. En cualquier caso con un coeficiente de fiabilidad bajo y si se van a tomar decisiones sobre los sujetos (una decisión puede ser dar un infor me) me) sí conviene incorporar el error típico a la interpretación. Ahora nos interesa examinar de examinar de dónde puede venir un bajo coeficiente de fiabilidad. 10.1. Inadecuada formulación de los ítems Puede ser que los sujetos entiendan los ítems de una manera distinta a como lo pretende el autor del instrumento. instrumento . Un a Un a veces me gustaría gu staría marcharme de casa podría significar para algunos me gusta viajar, etc. etc. y en este caso las respuestas no serían no serían coherentes con el significado pretendido por el constructor del instrumento ( me me siento mal en casa). casa). La coherencia conceptual prevista la comprobamos con la coherencia que de hecho encontramos en las respuestas. respuestas. En el análisis de ítems, al construir un instrumento, podemos comprobar si los sujetos que responden, parecen entender la formulación con el significado previsto; en caso contrario tendremos que eliminarlos e liminarlos o reformularlos. 10.2. Homogeneidad de la muestra Podemos encontrar nos nos con una homogeneidad una homogeneidad conceptual clara en los ítems y una fiabilidad muy baja. Una causa de la baja fiabilidad puede estar en en que apenas que apenas hay diferencias entre los sujetos (todos o casi todos responden de manera parecida). Si no hay diferencias tampoco habrá relación clara y verificada entre las respuestas porque sin diferencias entre los sujetos los coUna buena exposición de los efectos de la baja fiabilidad en los coeficientes de correlación y de la corrección por atenuación puede verse en Osborne (2003). 10
219
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
eficientes de correlación entre los ítems son muy bajos. b ajos. Por eso la fiabilidad es mayor con muestras heterogéneas, en las que hay mayores diferencias en las respuestas. Con una muestra más variada (o simplemente mayor, donde es más probable que haya sujetos muy diferentes) podemos encontrar una fiabilidad alta. De todas maneras con una fiabilidad baja que no se deba a la mala calidad del instrumento sino a la homogeneidad de la muestra, seguiremos clasificando mal (diferenciando, midiendo mal) a los sujetos de esa muestra. muestra. 10.3. Definición compleja del rasgo medido Por supuesto una fiabilidad baja, sobre todo si la obtenemos obtene mos con una muestra razonablemente heterogénea, puede significar una concepción del rasgo excesivamente compleja o una construcción deficiente del instrumento. Aun así podemos encontrar coeficientes bajos en tests reconocidos como buenos porque miden rasgos definidos con un grado grande de complejidad 11. Rasgos definidos de manera compleja o muy genérica pueden tener ítems poco relacionados entre sí y consecuentemente tendremos una fiabilidad baja aunque esté presente la unidad conceptual pretendida por el autor. autor. Una consecuencia de definir los rasgos que medimos de manera muy compleja es que en estos casos es que se puede llegar a una misma puntuación total por caminos distintos, y esto hay que asumirlo en la interpretación. En cualquier caso la fiabilidad debería estar dentro de unos mínimos aceptables para poder afir mar mar que estamos midiendo, diferenciando a los sujetos según posean más o menos del rasgo que supuestamente medimos12. Cuando la fiabilidad es baja, observando la redacción de los ítems y cómo se relacionan entre sí, podemos llegar a la conclusión que es preferible una concepción más simple del rasgo, sin mezclar ideas relacionadas pero no lo suficiente, o dividir el instrumento en dos (o más) instrumentos y medir aspectos distintos por separado con instrumentos distintos. 10.4. Utilidad del error típico cuando la fiabilidad es baja Una valoración racional del coeficiente de fiabilidad tendrá en cuenta cuent a tanumento, y en to la homogeneidad de la muestra como la complejidad del instr umento, cualquier caso con coeficientes bajos siempre es conveniente utilizar el error tíPara Cattell (1964), que prefiere medir en sus tests rasgos complejos, la consistencia interna no tiene por que ser la máxima posible, sino la máxima compatible con la complejidad deseada en la misma concepción del constructo ( optimum optimum low, low, en expresión de Cattel). 12 Un tratamiento más extenso de la fiabilidad y de la unidimensionalidad de los tests puede verse en Morales (2006, cap. 9 y 10). 11
220
LA FIABILIDAD DE LOS TETS Y ESCALAS
pico en la interpretación de los resultados individuales. Cuando se trata de tomar decisiones sobre sujetos, o de dar un informe de cierta importancia (por ejemplo en un psicodiagnóstico) y la fiabilidad del instrumento es baja, es cuando puede ser de especial utilidad (e incluso de responsabilidad ética) no limitarse a informar con una puntuación o resultado muy preciso, sino con una banda de puntuaciones probables; esta banda o límites probables de la puntuación será mayor cuando el error típico sea mayor (y la fiabilidad más baja). 11. L A FIABILIDAD FIABILIDAD EN EXÁMENES Y PRUEBAS ESCOLARES En primer lugar recordemos que es relativamente frecuente calcular la fiabilidad de las pruebas tipo test (estos test (estos cálculos, y otros, suelen estar programados), pero también se puede calcular la fiabilidad de un examen compuesto por unas pocas preguntas de respuesta abierta, con tal de que en todas las preguntas se utilice la misma clave de corrección. cor rección. Las fórmulas adecuadas las veremos después; en las pruebas pr uebas cuyos ítems puntúan 1 ó 0 (lo habitual con pruebas objetivas) se utiliza alguna de las fórmulas de Kuder-Richardson, y cuando las puntuaciones son continuas (por ejemplo de 0 a 4 o algo similar) se utiliza el coeficiente a de Cronbach. Cuando se trata de exámenes escolares el coeficiente de fiabilidad puede presentar problemas específicos de interpretación. No hay que olvidar que q ue la psicometría clásica trata de las diferencias individuales en medidas psicológicas que parten al menos de dos supuestos: a) Todos los componente componentess (ítems) del del test miden el mismo mismo rasgo. rasgo. b) Los sujetos sujetos son distintos distintos en el rasgo que queremo queremoss medir. medir. Estos dos supuestos no son aplicables siempre y automáticamente automáticamente a los di versos tipos de exámenes y pruebas escolares. En estas pruebas los coeficientes de fiabilidad pueden dar información útil, pero hay que tener cuidado en la interpretación. Es importante pensar en la fiabilidad de los exámenes porque se interpreta y utiliza habitualmente como un control de calidad, y calidad, y se estima que siemque siem pre es bueno que un test de conocimientos (como un examen tipo test ) tenga una fiabilidad alta. En el caso de los exámenes esto puede ser discutible (aunque no en todas las situaciones) y conviene hacer algunas matizaciones. 11.1. Fiabilidad y validez En primer lugar la característica más importante de una prueba escolar (como de cualquier instrumento de medición) no es la fiabilida la fiabilidad d psicométripsicométri-
221
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
ca, sino la validez: una prueba de evaluación o cualquier examen es bueno si comprueba los objetivos deseados (y comunicados comunicados previamente), si condiciona en el alumno un estudio inteligente. Con una prueba objetiva se puede conseguir fácilmente una fiabilidad muy alta, pero se pueden estar comprobando meros conocimientos de memoria cuando quizás el objetivo pretendido era (o debería ser) de comprensión, análisis, etc. La validez es validez es por lo tanto la primera consideración para evaluar la evaluación: evaluación: en principio un instrumento es válido si mide lo que decimos que mide. 11.2. Fiabilidad y diferencias entre los sujetos Por lo que respecta a la fiabilidad, hay que tener en cuenta que en última instancia la fiabilidad expresa la capacidad diferenciadora de un test, y esto es en principio deseable cuando cuand o se trata precisamente de diferenciar. Si un test de inteligencia no diferencia adecuadamente a los más y a los menos inteligentes (y lo mismo diríamos de cualquier otra capacidad o rasgo psicológico) sencillamente no nos sir ve. En definitiva en estos casos casos medir es medir es diferenci diferenciar ar.. Por eso en todo tipo de tests psicológicos, escalas de actitudes, etc., una fiabilidad alta es una característica característica deseable. Entendiendo bien que la fiabilidad fiabilidad no es una característica de un test (aunque ésta sea la expresión habitual) sino de un conjunto de puntuaciones que quedan mejor o peor diferenciadas. Si pensamos en los tests escolares de conocimientos, podemos preguntarnos si las diferencias son deseables, si es verdad que un test que distingue, matiza y establece diferencias nítidas entre los alumnos implica que tenemos un buen test y , sobre todo, unos buenos resultados. Una fiabilidad baja en un examen puede provenir de cualquiera de estas dos circunstancias: sujetos muy igualados o preguntas muy distintas (el saber unas no implica saber otras). a) La clase c lase está muy iguala i gualada, da, apenas hay diferencias pronunciadas o sistemáticas sistem áticas entre los alumnos. No se puede clasificar clasificar bien a los inbue no o malo deberá juzgarlo el profesor. clasificables. clasificables. Que esto sea bueno En un test sencillo de objetivos de objetivos mínimos un buen resultado es que to dos sepan todo, tod o, y y en este est e caso la fiabilida fia bilidad d psicométrica, psicométri ca, sería igual a t odo en cero. cero. Lo mismo puede suceder con un test más difícil, sobre todo grupos pequeños, en los que todos los alumnos tienen un rendimiento alto. b) Las preguntas son muy distintas y distintas y el saber unas cosas no implica saber otras, no hay homogeneidad en los ítems ni se pretende. Esta situación no suele ser la más frecuente en los tests escolares más convencionaconvencionales, pero si no hay homogeneidad en las preguntas de un test (porque se preguntan cosas muy distintas o de manera muy distinta) y el saber
222
LA FIABILIDAD DE LOS TETS Y ESCALAS
unas cosas no implica saber otras, otras, entonces lógicamente bajará la fiabilidad de todo el test (debido a la poca relación entre unas y otras preguntas o ejercicios). En un examen final más o menos largo, donde hay donde hay de todo, fácil y difícil, en una clase relativamente numerosa, en la que hay alumnos más y menos aventajados, una fiabilidad alta en una prueba una prueba objetiva objetiv a nos indicará que detectamos bien diferencias que de hecho existen y que además son legítimas o al menos esperables. Cuando todos saben todo en un examen de esas características, esto puede significar que estamos igualando a la clase por su nivel más bajo y que el profesor no da juego a los más capaces. 11.3. Fiabilidad y calificación También hay que pensar que una fiabilidad alta indica en principio diferenprincipio diferencias consistentes entre los alumnos, pero no indica necesariamente que los de puntuación más baja no lleguen al nivel del apto. Si todos los alumnos están en la parte alta de la distribución pero bien diferenciados, la fiabilidad será alta; en este caso los que saben menos pueden saber lo suficiente; y también puede suceder lo contrario, que los que saben más que los demás no sepan lo suficiente. Lo que sí parece claro es que una fiabilidad alta es deseable en todo instrumento de medida cuya función y utilidad está precisamente en que nos permite conocer si un sujeto tiene mucho o poco del rasgo que estamos midiendo y además y además nos interesa diferenciar interesa diferenciar aa unos sujetos de otros, o al menos es razonable esperar diferencias claras entre los sujetos (como ya se ha indicado en 11.2). Lo que sí puede ser siempre de utilidad en cualquier tipo de examen es calcular y utilizar el error típico de la medida o de las puntuaciones obtenidas (para lo cual necesitamos el coeficiente de fiabilidad) 13, porque nos indica la banda probable de resultados en la que se encuentra cada alumno, y esta banda, aunque sea más imprecisa, refleja mejor que un número exacto de respuestas correctas por correctas por dónde dónde se encuentra cada uno. En lenguaje coloquial podríamos decir que el error típico expresa el margen de mala o buena suerte del alumno ante unas preguntas concretas, y puede ayudar a relativizar una mera suma de respuestas correctas. Si establecemos previamente previamente una puntuación de corte para situar el aprobado, el sumar, por ejemplo, un error I am convinced that t hat the standard error of measurement… is the most important single piece of information to report regarding an instrument, and not a coefficient (Cronbach y Shavelson, 2004).Ya hemos indicado que un cálculo aproximado y rápido del error típico de la media es .43 k donde k es el número de ítems (Burton, 2004). 13
223
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
típico a los alumnos que están en el límite del apto puede ser una buena práctica (como ya se ha indicado en el apartado 9.2.3) 14. CONSISTENCIA A INTERNA INTERNA ÓRMULA LASS DE LOS LOS COEF COEFIC ICIE IENT NTES ES DE CONSISTENCI 12. FÓRMU
Las fórmulas del coeficiente de fiabilidad son muchas, aquí exponemos las más utilizadas. Podemos dividirlas en dos grupos: 1) Fórmulas Fórmulas que se basan basan en la partición partición del del test en dos mitades mitades 2) Fórmulas Fórmulas en las que se utiliza utiliza información información de todos todos los ítems, como como las de Kuder-Richardson Kuder-Richardson y Cronbach. En cada uno de los apartados se incluyen otras fórmulas relacionadas relacionadas o derivadas. También exponemos otras formulas de interés, como las fórmulas que relacionan la fiabilidad con el número de ítems. Aunque vamos a repasar una serie de fórmulas, conviene adelantar (y podría ser suficiente) que las fórmulas preferibles, y que deben utilizarse habitualmente, son las de Kuder-Richardson [18] (para ítems dicotómicos) y el a de Cronbach [20] (para ítems continuos); realmente se trata de la l a misma formula (varían los símbolos) y es la que suele venir programada en los programas informáticos. Como cálculo aproximado y rápido de la fiabilidad la fórmula más cómoda es la formula [19] que veremos después, pero sólo si los ítems son dicotómicos (puntúan 1 ó 0). 12.1. Fórmulas basadas en la partición del test en dos mitades 12.1.1. Cómo dividir un test en dos mitades 1. Como cualquier test puede dividirse en muchas dos mitades, puede hah aber muchos coeficientes de distintos de fiabilidad. El resultado es sólo una estimación que puede infravalorar o supervalorar la fiabilidad. Es habitual la práctica de dividir el test en ítems pares ítems pares e impares, pero puede dividirse en dos mitades cualesquiera. Cada mitad debe tener el mismo número de ítems o muy parecido. 2. Si al dividir el test en dos mitades emparejemos los ítems según sus contenidos (matching), de manera que cada mitad del test conste de ítems muy parecidos, obtendremos una estimación más alta y alta y preferible preferible de la fiabilidad. fiabilidad. Si en un examen tipo test sumamos a los que están justo debajo del límite propuesto para el aprobado dos erres típicos nos ponemos prácticamente en el límite máximo probable al que hubiera llegado ese alumno. 14
224
LA FIABILIDAD DE LOS TETS Y ESCALAS
3. Cuando la mitad (o casi la mitad) de los ítems son positivos son positivos y y la otra mitad son negativos ( favorables o desfavorables al rasgo medido, con distinta clave de corrección), es útil que las dos mitades estén compuestas una por los ítems positivos y otra por los negativos. En este caso la correlación entre los dos tipos de ítems es muy informativa en sí misma, aunque no se calcule después la fiabilidad por este procedimiento. Una correlación entre los dos subtests en torno a .50 o mayor indica suficiente indica suficiente coherencia coherencia entre los dos tipos de ítems, y que no se manifiesta de modo apreciable la aquiescencia o tendencia a mostrar acuerdo (o responder sí) responder sí) a ítems que expresan ideas contradictorias. 12.1.2. Fórmulas De estas fórmulas la primera y más clásica es la de Spearman-Brown; ambos autores derivaron las mismas fórmulas de manera independiente en 1910 (la fórmula básica de estos autores es la [21], de la que se derivan la [14], la [22] y la [23]). La fórmula que se conoce habitualmente como procedimiento de las dos las dos mitades (vamos a ver que además hay otras fórmulas) y no suele faltar en ningún texto cuando se trata de la fiabilidad, es la fórmula [14]. r 12 12 = correlación entre las dos mitades del test. El test se divide en dos [ 14 ] mitades y se calcula la correlación entre ambas como si se tratara de Fórmula de Spearman-Brown dos tests. 2r 12 12 r 11 = — — — 11 1 + r 12 12
1. La correlación entre las dos mitades es la fiabilidad de una de las dos (pruebas paralelas); con esta fórmula [14] se calcula la fiabilidad de todo el test. Observando la fórmula [14] puede verse que si r 12 12 = 1, también tendremos que r 11 11 = 1. 2. La fórmula [14] supone que las dos mitades tienen medias y varianzas idénticas; estos presupuestos no suelen suel en cumplirse nunca, y de hecho con esta fórmula se sobrestima la fiabilidad; por lo que está desaconsejada (a pesar de su uso habitual); la fórmula de las dos mitades preferible es la conocida como dos mo dos mitades alpha alpha (r 2a ) [15]15: Esta fórmula la aconsejan buenos autores (incluido el mismo Cronbach). La importancia del cálculo de la fiabilidad por el procedimiento de las dos mitades es sobre todo histórica; el método de las pruebas paralelas (dos pruebas en vez de dos mitades) y el de consistencia interna (en el que cada ítem funciona como una prueba paralela) parten de la intuición original de las dos mitades de Spearman y Brown. Una crítica y valoración de estas fórmulas puede verse en Charter (2001). 15
225
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En esta fórmula entran también, además de la correlación de las dos mitades, las desviaciones típicas de cada mitad. 3. Otras fórmulas basadas en la partición de un test en dos mitades, y que suelen encontrarse en algunos textos, son la [16] y la [17], que no requieren el cálculo de la correlación entre las dos mitades; de todas maneras en estos casos (partición del test en dos mitades) es siempre preferible la fórmula [15]. s21 y s22 son las varianzas de las dos
mitades, s2t es la varianza de todo el test Fórmula de Flanagan16 s2d
= Es la varianza de la diferencia entre las dos mitades. Cada sujeto tiene dos puntuaciones, una en cada mitad: a cada sujeto se le restan ambas puntuaciones y se calcula la varianza de estas diferencias.
12.2. Fórmulas de Kuder-Richardson y s de Cronbach Se trata de las fórmulas de consistencia interna que hemos justificado anteriormente con mayor amplitud; son las más utilizadas 17. a) Son métodos en principio preferibles porque con los métodos de las dos mitades cabe dividir un test en muchas dos mitades con que las que podemos obtener distintos valores del coeficiente de fiabilidad. El resultado que nos dan las fórmulas de Kuder-Richardson y Cronbach Esta fórmula también se conoce como fórmula de Rulon que es el primero que la expuso (en 1939) aunque Rulon se la atribuye a Flanagan (Traub, 1994). 17 Este coeficiente de fiabilidad (Kuder-Richardson o Cronbach) se calcula en el SPSS en la opción analizar, en escalas. 16
226
LA FIABILIDAD DE LOS TETS Y ESCALAS
equivale a la fiabilidad media que obtendríamos dividiendo un test en todas sus posibles dos mitades; obtenemos un único coeficiente que es una estimación más segura. b) En los modelos teóricos de donde parten estas fórmulas se supone que tanto las varianzas como las intercorrelaciones de los ítems son iguales; esto no suele suceder por lo que estas fórmulas tienden a dar una estimación de la fiabilidad algo baja. c) Las fórmulas de Kuder-Richardson son válidas para ítems dicotómicos (0 ó 1), y el coeficiente s de Cronbach para ítems con repuestas continuas (más de dos repuestas). k = número de ítems Spq = suma de las varianzas de los ítems s2t = varianza de los totales
fórmula Kuder-Richardson 20 (para ítems dicotómicos)
Como ya sabemos, p es la proporción de unos (aciertos, síes, la respuesta que se codifique con un 1) y q es la proporción de ceros (número de unos o de ceros dividido por el número de sujetos). Con ítems dicotómicos ésta es la fórmula [18] que en principio debe utilizarse. Si se tienen calculadas las varianzas o desviaciones típicas de cada ítem, no es muy laboriosa. Si el cálculo resulta laborioso y no se tiene ya programada la fórmula completa de la fiabilidad, hay otras alternativas más sencillas; la más utilizada es la fórmula Kuder-Richardson 21. k es el número de ítems; – 2 X y s t son la media y varianza de los totales fórmula Kuder-Richardson 21
1. Esta fórmula [19] se deriva de la anterior [18] si suponemos que todos los ítems tienen idéntica media. En este caso tendríamos que:
Haciendo las sustituciones oportunas en [18] llegamos a la fórmula [19].
227
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
2. Esta fórmula [19] es sencilla y cómoda, porque solamente requiere el cálculo de la media y varianza de los totales, además del número de ítems, y estos son datos que suelen estar siempre disponibles. La suposición de que todos los ítems tienen idéntica media no suele cumplirse, por lo que esta fórmula sólo da una estimación de la fiabilidad. Se utiliza frecuentemente para calcular la fiabilidad de las pruebas objetivas (exámenes, evaluaciones) hechas por el profesor y por lo menos indica por dónde va la fiabilidad; puede ser suficiente para calcular el error típico y relativizar los resultados individuales. Existen otras aproximaciones de la fór mula Kuder -Richardson 20, pero es ésta la más utilizada. Con ítems continuos, con más de una respuesta como los de las escalas de actitudes, la fórmula apropiada es la del coeficiente a de Cronbach que es una generalización de la Kuder-Richardson 20; es la fórmula [8] que ya vimos antes:
a de Cronbach para ítems continuos
k = número de ítems Ss2i = es la suma de las varianzas de los ítems 2 st= es la varianza de los totales
12.3. Fórmulas que ponen en relación la fiabilidad y el número de ítems 1. La fórmula [14] se deriva de esta otra, denominada fórmula profética de Spearman-Brown y que es la fórmula original de estos autores: r kk = r -ij =
fiabilidad de un test compuesto por k ítems correlación media entre los ítems
En la fórmula [14] hemos supuesto que k =2 y r -ij = r 12. De la fórmula anterior [21] se derivan otras dos especialmente útiles, y que se pueden utilizar aunque la fiabilidad no se calcule por el método de Spearman-Brown.
228
LA FIABILIDAD DE LOS TETS Y ESCALAS
12.3.1. Cuánto aumenta la fiabilidad al aumentar el número de ítems Disponemos de una fórmula que nos dice (siempre de manera aproximada) en cuánto aumentará la fiabilidad si aumentamos el número de ítems multiplicando el número de ítems inicial, que ya tenemos, por un factor n. Es en realidad una aplicación de la misma fór mula. r nn = r 11 = n=
nuevo coeficiente de fiabilidad estimado si multiplicamos el número de ítems que tenemos por el factor n coeficiente de fiabilidad conocido factor por el que multiplicamos el número de ítems
Por ejemplo: tenemos una escala de actitudes de 10 ítems y una fiabilidad de .65. La fiabilidad nos parece baja y nos preguntamos cuál será el coeficiente de fiabilidad si multiplicamos el número de ítems (10) por 2 (n = 2) y llegamos así a 20 ítems (del mismo estilo que ya los que ya tenemos). Aplicando la fórmula anterior [22] tendríamos: multiplicando por 2 el número inicial de ítems llegaríamos a una fiabilidad en torno a .80 Si en la fórmula [22] hacemos n = 2, tendremos la fórmula [14]; r 12 es la fiabilidad de una de las dos mitades, lo que nos dice la fórmula [14] es la fiabilidad del test entero (formado por las dos mitades) 18. 12.3.2. En cuánto debemos aumentar el número de ítems para alcanzar una determinada fiabilidad Posiblemente es más útil la fórmula siguiente [23]. Si tenemos una fiabilidad conocida (r 11 ) y queremos llegar a otra más alta (esperada, r nn ), ¿En cuántos ítems tendríamos que alargar el test? En este caso nos preguntamos por el valor de n, el factor por el que tenemos que multiplicar el número de ítems que ya tenemos. A partir de una fiabilidad obtenida con un número determinado de ítems puede verse en Morales, Urosa y Blanco (2003) una tabla con la fiabilidad que obtendríamos multiplicando el número inicial de ítems por un factor n. 18
229
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
n = factor por el que debemos multiplicar el número de ítems para conseguir una determinada fiabilidad r nn = fiabilidad deseada r 11 = fiabilidad obtenida con el número original de ítems Si, por ejemplo, con 8 ítems hemos conseguido una fiabilidad de .57 y deseamos llegar a una fiabilidad aproximada de r nn = .75, ¿Por qué coeficiente n deberemos multiplicar nuestro número inicial de ítems?
Naturalmente los nuevos ítems deben ser parecidos a los que ya tenemos. Si el número de ítems que necesitamos para alcanzar una fiabilidad aceptable es obviamente excesivo, posiblemente los contenidos del núcleo inicial de ítems no representan bien un rasgo definido con claridad (al menos para la población representada por esa muestra) y es preferible intentar otra cosa. 12.4. Estimación de la fiabilidad en una nueva muestra cuya varianza conocemos a partir de la varianza y fiabilidad calculadas en otra muestra La fiabilidad hay que calcularla en cada muestra. Al obtener los datos con un test en una nueva muestra no se puede aducir la fiabilidad obtenida en otras muestras como prueba o garantía de que en la nueva muestra la fiabilidad será semejante19. En definitiva la fiabilidad indica en qué grado el test diferencia a unos sujetos de otros y esto depende de la heterogeneidad de la muestra; por lo tanto se puede ordenar bien a los sujetos de una muestra y no tan bien a los de otra muestra distinta en la que los sujetos estén más igualados. En nuevas muestras con una varianza menor, lo normal es que la fiabilidad baje. Lo que sí se puede hacer es estimar la fiabilidad en una nueva muestra conociendo su desviación típica a par tir de la fiabilidad obtenida en otra muestra de la que también conocemos la desviación típica (Guilford y Fruchter, 1973:420), bien entendido que se trata solamente de una estimación. El obtener la fiabilidad en cada nueva muestra es una de las recomendaciones de la American Psychological Association (5ª edición, 2001). 19
230
LA FIABILIDAD DE LOS TETS Y ESCALAS
fiabilidad estimada en la nueva muestra so y r oo = desviación típica y fiabilidad ya calculadas (observadas) en una muestra sn = desviación típica en la nueva muestra (en la que deseamos estimar la fiabilidad) r nn =
Por ejemplo, si en una escala de actitudes hemos obtenido en una muestra una desviación típica de 6.86 y una fiabilidad de s = .78 ¿qué fiabilidad podemos esperar en otra muestra cuya desviación típica vemos que es 7.28? 6.682 (1 – .78) Aplicando la fórmula [24]: fiabilidad esperada = 1 – —————— = .8147 7.282 De hecho la fiabilidad calculada en la nueva muestra (ejemplo real) es de 8.15, aunque no siempre obtenemos unas estimaciones tan ajustadas. 13. R ESUMEN: CONCEPTO BÁSICO DE LA FIABILIDAD EN CUANTO CONSISTENCIA INTERNA En el cuadro puesto a continuación tenemos un resumen significativo de lo que significa la fiabilidad en cuanto consistencia interna, cómo se interpreta y en qué condiciones tiende a ser mayor. 1. Cuando ponemos un test o una escala aun grupo de sujetos nos encontramos con diferencias inter-individuales. Estas diferencias o diversidad en sus puntuaciones totales las cuantificamos mediante la desviación típica ( s ) o la varianza ( s2 ). 2. Esta varianza (diferencias) se debe a las respuestas de los sujetos que pueden ser de dos tipos (fijándonos en los casos extremos; hay grados intermedios): coherentes (relacionadas) o incoherentes, por ejemplo:
En mi casa me siento mal A veces me gustaría marcharme de casa
231
respuestas coherentes
respuestas incoherentes
de acuerdo de acuerdo
en desacuerdo de acuerdo
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
3. La incoherencia aquí quiere decir que la respuesta no está en la dirección de las otras, tal como lo pretende el autor del instrumento (y esto por cualquier razón: pregunta ambigua, el que responde lo entiende de otra manera, etc.). Las respuestas coherentes son las respuestas relacionadas. Diversidad (o varianza) total = diversidad debida a respuestas coherentes + diversidad debida a respuestas incoherentes
o en términos más propios, varianza total = varianza verdadera + varianza debida a errores de medición
5. La fiabilidad la definimos como la proporción de varianza verdadera: varianza verdadera fiabilidad = —————————— varianza total En términos más simples: varianza debida a respuestas coherentes (o relacionadas) fiabilidad = ——————————————————————————— varianza debida a respuestas coherentes y no coherentes Decimos respuestas distintas porque suponemos que los sujetos son distintos, unos tienen más y otros menos del rasgo que medimos y decimos repuestas coherentes porque esperamos que cada sujeto responda de manera coherente (de manera parecida si todos los ítems expresan lo mismo). 6. El coeficiente de fiabilidad es un indicador de relación global entre las respuestas; expresa cuánto hay de relación en las respuestas. Esta relación es relación verificada, empírica, no es necesariamente conceptual, aunque la interpretación que se hace es conceptual (los ítems miden lo mismo) Un coeficiente de, por ejemplo, .80 quiere decir que el 80% de la varianza se debe a respuestas coherentes, a lo que los ítems tienen en común o de relacionado; el 80% de la varianza total (de la diversidad que aparece en las puntuaciones totales) se debe a lo que los ítems tienen de relacionado. 7. La fiabilidad aumentará si aumenta el numerador, es decir 1º si hay diferencias en las respuestas y 2º si además las respuestas son coherentes (respuestas coherentes: las que de hecho están relacionadas). 8. Cómo se interpreta un coeficiente de fiabilidad alto: a) El test o escala clasifica, ordena bien a los sujetos en aquello que es común a todos los ítems; b) Con un instrumento parecido encontraríamos resultados parecidos, o si los sujetos respondieran muchas veces al mismo test o a tests semejantes, quedarían ordenados de manera similar (el coeficiente de fiabilidad es una estimación de la correlación esperable con un test paralelo).
232
LA FIABILIDAD DE LOS TETS Y ESCALAS
c) Los ítems miden lo mismo (por eso se llaman coeficientes de consistencia interna); generan respuestas coherentes y a la vez distintas de sujeto a su jeto. (Que los ítems miden lo mismo hay que interpretarlo con cautela; siempre es necesario un análisis conceptual y cualitativo). 9. La fiabilidad tiende a ser mayor: a) cuando los ítems expresan lo mismo; la definición del rasgo se expresa bien en todos los ítems; b) cuando es mayor el número de ítems, (con tal de que sean más o menos semejantes), c ) cuando los ítems tienen un mayor número de respuestas (aunque no necesariamente), d) cuando los sujetos son más diferentes en aquello que se mide ( muestra heterogénea; no se puede clasificar bien a los muy semejantes); e) en muestras grandes (porque hay más probabilidad de que haya sujetos más distintos).
14. COMENTARIOS BIBLIOGRÁFICOS 1. La derivación de las fórmulas más conocidas del coeficiente de fiabili dad y otras relacionadas (como el error típico, etc.) pueden verse en Magnusson (1976). Entre las muchas obras que tratan de estos temas son especialmente recomendables las de Guilford (1954), Guilford y Fruchter, (1973), Nunnally (1978), Nunnally y Bernstein (1994), Thorndike (1982), Traub (1994). También disponemos de buenos artículos (Traub y Roley, 1991; Moss, 1994; Cronbach y Shavelson, 2004, del segundo autor utilizando notas de Cronbach fallecido en 1997, que resumen la historia de estos coeficientes). 2. La fórmula Kuder-Richardson 20 (y con más razón Kuder-Richardson 21, las dos más utilizadas con ítems dicotómicos) supone que todos los ítems tienen idéntica dificultad (media) e idéntica varianza; si esto no es así la fiabilidad resultante es una estimación más bien baja. Existen otros métodos que tienen en cuenta la diferente dificultad de los ítems, pero son más complicados; puede verse por ejemplo, en Horst (1953) y en Guilford y Fruchter (1973). 3. Ya hemos indicado que existen una serie de fórmulas de cálculo muy sencillo que simplifican las de Kuder-Richardson y otras como la del error típico. En general estas fórmulas no son recomendables dada la facilidad de cálculo que proporcionan calculadoras y programas informáticos y además se trata solamente de estimaciones ya que suponen
233
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
unas condiciones que no se suelen darse. Aun así pueden tener su utilidad para cálculos rápidos y aproximativos. Pueden encontrarse estas fórmulas en Saupe (1961) y en McMorris (1972), y para el error típico también en Burton (2004). 4. En las pruebas de rendimiento escolar no es siempre fácil dividir un test o prueba en dos mitades equivalentes para calcular la fiabilidad por el procedimiento de las dos mitades. También se puede calcular a partir de dos mitades de tamaño desigual o incluso a partir de tres partes (con muestras grandes en este caso). Se trata de procedimientos menos conocidos pero que pueden ser de utilidad en un momento dado; pueden encontrarse en Kristof (1974) y en Feldt (1975). 5. En los tests o pruebas objetivas de criterio (en los que hay una puntuación de corte para distinguir al apto del no apto y consecuentemente la distribución deja de ser normal) la fiabilidad se estima de otras maneras (pueden verse diversos índices en Mehrens y Lehmann, 1984, y en Berk, 1978); un índice apropiado y sencillo es el coeficiente de Livingston (puede verse en Mehrens y Lehmann, 1984; Black, 1999:291; en Black, 1999:292, tenemos también el índice de discriminación apropiado en los tests de criterio). 6. El coeficiente de fiabilidad también se puede calcular mediante el análisis de varianza para muestras relacionadas, con los mismos resultados que la fór mula del coeficiente a; puede verse en Hoyt (1941, 1952) y un ejemplo resuelto en Kerlinger (1975: 314-317) y en Fan y Thompson (2001). La relación entre fiabilidad y análisis de varianza también está explicada en Nunnally y Bernstein (1994: 274ss) y en Rosenthal y Rosnow (1991). Posiblemente como mejor se entiende la fiabilidad es desde el análisis de varianza. 7. Cómo calcular los intervalos de confianza de los coeficientes de fiabilidad puede verse en Fan y Thompson (2001); Duhachek y Iacobucci (2004) presentan tablas con el error típico de a para diversos valores del número de sujetos y de ítems y de la correlación media inter-ítem. El aportar estos intervalos de confianza es una de las recomendaciones (guidelines) de la American Psychological Association (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs, 1999). 8. Para verificar si dos coeficientes de fiabilidad ( a ) difieren significativamente puede verse Feldt y Kim (2006). 9. Fiabilidad inter-jueces. Un caso específico es el cálculo de la fiabilidad (o grado de acuerdo) entre diferentes evaluadores, cuando una serie de jueces evalúan una serie de sujetos, situaciones, etc. Puede utilizarse el análisis de varianza para muestras relacionadas que responde a esta pregunta: las diferencias obser vadas (la varianza total): ¿Se deben a que los jueces son distintos en su forma de evaluar, o a que
234
LA FIABILIDAD DE LOS TETS Y ESCALAS
los sujetos evaluados son distintos entre sí? De este análisis se deriva un coeficiente que expresa lo mismo que el coeficiente ?, pero la interpretación se hace sobre la homogeneidad de los jueces (o, con más propiedad, sobre el grado de acuerdo entre los jueces que aquí son los ítems). Este coeficiente da un valor muy parecido a la correlación me dia entre jueces (Rosenthal y Rosnow, 1991)20. Hay también otras medidas de acuerdo entre jueces; pueden verse, entre otros, en Holley y Lienert (1974) y Shrout y Fleiss (1979). El coeficiente kappa ( k ) (Cohen, 1960) para medir el acuerdo entre dos jueces (datos dicotómicos, unos y ceros; k = .60 se interpreta ya como un grado de consensus importante ) es muy popular (puede encontrarse en numerosos textos, por ejemplo Fink, 1998; y sobre su interpretación Stemler, 2004). En Stemler (2004) pueden verse bien expuestos y valorados los diferentes enfoques para medir la fiabilidad de los jueces ( interrater reliability ), también es muy informativo Uebersax ( Statistical Methods for Rater Agreement , last updated: 19 Feb 2008).
La fiabilidad de los jueces calculada a partir del análisis de varianza para muestras relacionadas (disponible en EXCEL) es sencillo y de fácil comprensión por su relación con el coeficiente a de Cronbach; fórmula y explicación en Morales (2007a) . 20
235
CAPÍTULO 7
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
1. INTRODUCCIÓN: ESTADÍSTICA DESCRIPTIVA Y ESTADÍSTICA INFERENCIAL: ESTADÍSTICOS Y PARÁMETROS , POBLACIONES Y MUESTRAS Recordamos algunos conceptos básicos: Una población es un conjunto de elementos (sujetos, objetos) cuyos límites los define el investigador; por ejemplo los alumnos de una universidad, o los de una sola facultad o los de todo el país… Una muestra es un número concreto de elementos extraídos de una población. Una muestra aleatoria es aquella en la que todos los sujetos (u objetos) han tenido la misma probabilidad de ser escogidos; las muestras aleatorias son las que mejor representan las características de la población 1.
La estadística descriptiva tiene por objeto describir las muestras: por ejemplo, la media aritmética (una medida de tendencia central) y la desviación típica (una medida de dispersión) son estadísticos o medidas propias de la estadística descriptiva: nos describen cómo es una muestra. La estadística inferencial nos permite hacer inferencias, sacar conclusiones con respecto a una población: a partir de los datos descriptivos de una Los diversos tipos de muestreo, aleatorio otros, y cómo llevarlos a cabo, pueden verse en muchos textos (como Hernández Sampieri, Fernández Collado y Baptista Lucio, 2000; Salkind, 1998) y en monografías específicas (como Rodríguez Osuna, 1993). Una bre ve exposición de los tipos de muestras puede verse en Internet, en S TATP AC INC (2003) (en Sampling Methods ). 1
237
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
muestra, deducimos los datos o medidas de la población, que en este caso se denominan parámetros. Normalmente el investigador trabaja con muestras, grupos concretos a los cuales tiene acceso o que ha buscado y que puede medir en alguna característica. Las poblaciones son en general inasequibles; se trabaja con pequeñas muestras y se generalizan las conclusiones a las poblaciones a las que pertenecen las muestras. Lo que vamos a ver ahora tiene que ver sobre todo (no exclusivamente) con la generalización a la población de los datos que encontramos en muestras concretas. 2. L AS DISTRIBUCIONES MUESTRALES Y EL ERROR TÍPICO Dos conceptos previos importantes son los de distribución muestral y error típico. En definitiva nos vamos a encontrar con una aplicación de lo que ya sabemos de la distribución normal y de las puntuaciones típicas: en la distribución normal conocemos las probabilidades de obtener una puntuación superior o inferior a cualquier puntuación típica. Ahora se trata básicamente de una aplicación de esta relación. Básicamente ya lo hemos visto al tratar de la significación estadística de los coeficientes de correlación. Qué es una distribución muestral lo podemos ver con facilidad con un caso concreto: 1º Imaginemos una población de sujetos; por ejemplo los alumnos de una universidad. Los límites de la población (qué sujetos, u objetos, pertenecen a una población) lo determina el que investiga. De la misma manera que ponemos como ejemplo de población a los alumnos de una universidad, podríamos decidir que la población que vamos a estudiar son los alumnos de una sola facultad, o los alumnos de todas las universidades del país. 2º De esta población podemos extraer una muestra aleatoria de, por ejemplo, 30 sujetos. Muestra aleatoria quiere decir que todos los sujetos de la población han tenido en principio la misma oportunidad de ser elegidos. Las muestras aleatorias son en principio las que mejor representan las características de la población. Hay varios métodos para elegir muestras aleatorias pero no los tratamos aquí. 3º De esta muestra podemos calcular la media. Seguimos extrayendo muestras aleatorias y calculando sus medias. 4º Al disponer de un número grande de medias tendríamos una distribución de estas medias; esa distribución es una distribución muestral: no se trata de una distribución de puntuaciones individuales sino de medias de muestras.
238
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
Un punto importante es que aunque las muestras no tengan una distribución normal, las medias de estas muestras sí tienden a seguir la distribución normal. 5º La desviación típica de estas distribuciones muestrales se denomina error típico y se puede estimar a partir de los datos de una muestra. Por lo tanto un error típico es la desviación típica de una distribución muestral, y se interpreta como cualquier desviación típica. Dos distribuciones muestrales, con sus errores típicos, nos van a interesar de manera especial: 1) la distribución muestral de las medias; 2) la distribución muestral de las diferencias entre medias de la misma población. Estas distribuciones muestrales son modelos teóricos que a partir de los datos de una muestra nos van a permitir inferir conclusiones acerca de la población a la que pertenece la muestra. Conociendo el error típico de estas distribuciones podemos estimar entre qué limites se encuentra la media de la población o si dos muestras proceden de poblaciones distintas con media distinta. Ahora nos centramos en el error típico de la media. Conviene caer en la cuenta desde el principio de la utilidad del error típico de la media. Es fácil obtener la media de una muestra en cualquier variable de interés, pero con frecuencia lo que nos interesa no es la media como dato descriptivo de una muestra, sino conocer o tener una idea de por dón de anda la media en la población representada por esta muestra. La media de la población no la vamos a conocer , pero sí podremos estimar entre qué valores se encuentra. La media de una muestra podemos interpretarla como una estimación (solamente una estimación sujeta a error) de la media de la población. Esta estimación será más precisa: 1º Si la muestra es aleatoria porque en ese caso representa mejor las características de la población, 2º Si la muestra es grande (si la muestra comprendiera a toda la población tendríamos el dato exacto, no una estimación). El er ror típico, como es la desviación típica de todas las posibles muestras de esa población, nos va a permitir localizar entre qué límites se encuentra la media de la población. Este planteamiento es semejante al que nos encontramos en los sondeos de opinión, como son las encuestas pre-electorales. Si el 48% de los sujetos entrevistados dice que va a votar a un determinado candidato, esto no quiere decir que el 48% exacto de la población le vaya a votar. Sin embargo los datos obtenidos de una muestra nos van a permitir estimar un tanto por ciento
239
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
mínimo probable y un tanto por ciento máximo probable de votantes a ese candidato: entre esos dos tantos por ciento se va a encontrar el tanto por ciento definitivo cuando todos hayan votado. De los datos de una muestra extrapolamos a la población, por eso se trata de estadística inferencial. De manera análoga podemos pensar en distribuciones muestrales de otros estadísticos como proporciones, medianas, coeficientes de correlación, etc., y también en distribuciones muestrales de las diferencias entre proporciones, medianas, coeficientes de correlación, etc., con aplicaciones semejantes a las que vamos a ver con respecto a la media que son las de utilidad más inmediata y frecuente. 3. EL ERROR TÍPICO DE LA MEDIA Según el teorema del límite central, si de cualquier población se extraen muestras aleatorias del mismo tamaño N, al aumentar el número de muestras sus medias se distribuyen normalmente, con media m y una desviación típica, o error típico Esta distribución muestral de las medias es independiente de la distribución de la población: aunque la distribución en la población no sea normal, las medias de las muestras aleatorias extraídas de esa población sí tienden a tener una distribución normal. El error típico de la media (desviación típica de la distribución muestral de las medias) podemos expresarlo de dos maneras:
En la fórmula [1] la desviación típica del numerador se supone calculada dividiendo por N-1 la suma de cua drados (o la suma de las puntuacio – nes diferenciales, X- X, elevadas pre viamente al cuadrado).
En la fórmula [2] la desviación típica se ha calculado dividiendo por N, como es normal hacerlo cuando se calcula la desviación típica como dato descriptivo de la muestra. Ambas fórmulas son equivalentes y dan el mismo resultado; la única diferencia está en cuándo se ha restado 1 a N.
En principio suponemos que la desviación típica de la muestra la hemos calculado dividiendo por N, como dato descriptivo de la dispersión en la muestra, por eso al calcular el er ror típico de la media utilizaremos la fórmula [2].
240
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
La desviación típica del numerador en ambas fórmulas es la calculada en la muestra, pero debería ser la desviación típica calculada con todos los sujetos de la población. Como desconocemos la desviación típica de la población, utilizamos la de la muestra como una estimación de la desviación típica de la población. Observando la fórmula del error típico de la media podemos ver que: 1º Es claro que el error típico de la media será menor que la desviación típica de cualquier muestra: el cociente siempre será menor que el numerador. Esto quiere decir que las medias de las muestras son más estables y tienden a oscilar menos que las puntuaciones individuales; dicho de otra manera, las medias de muestras de la misma población se parecen entre sí más que los sujetos (u objetos) de una muestra entre sí. 2º Observando las fórmulas vemos también que el error típico de la media será más pequeño en la medida en que N sea grande: si aumentamos el denominador, disminuirá el cociente. Es natural que al aumentar el número de sujetos (N) el error sea menor: la media de la muestra se aproximará más a la media de la población. Si N es muy grande, el error tiende a cero; y si N no comprende a una muestra sino a toda la población, el error sería cero: en este caso la media de la población coincide con la media de la muestra y no hay error muestral (o variación esperable de muestra a muestra). 3º Por otra parte si la desviación típica de la muestra es grande, el error típico estimado de la media será también mayor: si aumentamos el numerador, el cociente será mayor. También esto es lógico: una desviación típica grande en una muestra quiere decir que las diferencias entre los sujetos son mayores, y consecuentemente las medias de las diferentes muestras también diferirán más entre sí. 4. UTILIDAD DEL ERROR TÍPICO DE LA MEDIA Vamos a exponer dos usos del error típico de la media. Aquí el más importante es el primero, establecer los límites probables ( intervalos de confian za ) entre los que se encuentra la media de la población, un planteamiento típico y frecuente en estadística inferencial. Veremos también lo mismo aplicado a una proporción, que es la media cuando se trata de datos dicotómicos (1 ó 0). En segundo lugar el error típico de la media nos permite comprobar si una muestra con una determinada media puede considerarse como perteneciente
241
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
a una población cuya media conocemos o establecemos como hipótesis. La media también puede ser una proporción (una proporción es la media cuando los datos son unos y ceros ). Es conveniente exponerlo aquí brevemente, pero lo volveremos a encontrar al tratar del contraste de medias, pues allí veremos un procedimiento más sencillo. Son procedimientos equivalentes. Podemos añadir un tercer uso del error típico de la media, que es determinar el número de sujetos que necesitamos en la muestra para extrapolar los resultados a la población. Cuando a partir de los datos de una muestra nos interesa extrapolar los resultados a la población (por ejemplo cuántos van a votar a un partido político en unas elecciones), lo hacemos con un margen de error (en cuyo cálculo tenemos en cuenta el er ror típico y nuestro nivel de confianza): si queremos un margen de error pequeño, necesitaremos más sujetos… por eso en las fórmulas para determinar el número de sujetos de la muestra entrará el error típico. Este punto lo veremos de manera más sucinta, porque suele verse con más detalle en otro contexto más práctico, al tratar de las muestras, tipos de muestras, número de sujetos necesario según distintas finalidades, etc. 4.1. Establecer entre qué limites (intervalos de confianza) se encuentra la media (m) de la población (establecer parámetros poblacionales) – La media de una muestra (X ) es una estimación de la media de la población ( m ); pero decir que es una estimación quiere decir que está sujeta a error. La media exacta de la población no la conocemos; pero sí podemos estimar entre qué límites extremos se encuentra, y esto a partir de la media de una muestra y del error típico de la media. El error típico de la media no es otra cosa que una estimación de la desviación típica de las medias (de muestras de la misma población), y se interpreta de la misma manera; así por ejemplo según la distribución nor mal, el 95% de las medias se encontrará entre -1.96 s y + 1.96s; aquí s es propiamente s x -, el error típico de la media. – Si tenemos estos datos de una muestra: N = 30, X = 62.8 y s = 7.9, tendremos que (fórmula [2]):
El error típico de la media (o desviación típica de las medias posibles) es en este caso igual a 1.47, y según las probabilidades de la distribución normal podremos afirmar que:
242
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
Hay un 68% de probabilidades de que la media de la población se encuentre entre la media de la muestra más menos un error típico: entre (62.8 - 1.47) y (62.8 + 1.47) = entre 61.33 y 64.27. Hay un 95% de probabilidades de que la media de la población se encuentre entre la media de la muestra más menos 1.96 errores típicos: entre [62.8 - (1.96 x 1.47)] y [62.8 + (1.96 x 1.47)] = entre 59.92 y 65.68. Si deseamos mayor seguridad al establecer los límites probables entre los que se encuentra la media de la población, podemos tomar como límite 2.57 er rores típicos, porque sabemos que entre la media más menos 2.57 desviaciones típicas se encuentra el 99% de los casos. En este caso: El límite inferior de la media de la población sería El límite superior de la media de la población sería
[62.8 - (2.57 x 1.47)] = 59.02 [62.8 + (2.57 x 1.47)] = 66.58
A estos límites, o valores extremos, superior e inferior, de la media en la población se les denomina intervalos de confianza, porque eso es precisamente lo que expresan: entre qué límites podemos situar la media de la población con un determinado grado de confianza o de seguridad (o de probabilidades de no equivocar nos). Los intervalos de confianza suelen denominarse en las encuestas de opinión márgenes de error . Estos intervalos de confianza podemos establecerlos con diversos niveles de seguridad, que vendrán dados por el valor de z que escojamos, por lo que podemos expresarlos así: intervalos de confianza de la media = La cantidad que sumamos y restamos a la media de la muestra podríamos denominarla margen de error al estimar los límites probables de la media en la población y que podemos expresar de esta manera:
Como ya hemos indicado estos límites o márgenes de error serán más ajustados cuando el número de sujetos sea mayor . Es útil visualizar el efecto del tamaño de la muestra en los intervalos de confianza (tabla 1). Queremos saber, por ejemplo, entre qué límites se encuentra la media de la población, estimada
243
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
a partir de una muestra pequeña (N = 10) y de una muestra grande (N = 500), y con un niveles de confianza de .05 (que corresponde a z = 1.96). En ambos casos suponemos en las muestras una media = 8 y una desviación típica = 2. Tabla 1
Lo vemos con más claridad con una representación gráfica: Límites extremos de la media de la población estimados a partir de N = 10 Límites extremos de la media de la población estimados a partir de N = 500 Con más sujetos los límites son más ajustados, hay más precisión; con 10 sujetos situamos la media de la población entre 6.68 y 9.13 (una diferencia de 2.45 puntos), y con 500 sujetos entre 7.82 y 8.18 (una diferencia entre ambos límites de sólo .36). También con un nivel de confianza más estricto (.01, que corresponde a z = 2.57, en vez de .05) tenemos una menor probabilidad de salir falsos profetas, más seguridad, pero los límites son más amplios (una mayor seguridad pero menor precisión). Si en el ejemplo anterior utilizamos .01 en vez de .05 con 500 sujetos veremos la diferencia (tabla 2). Tabla 2
Con una menor probabilidad de error (.01 en vez de .05) los límites extremos de la media en la población son 7.77 y 8.23, una diferencia de .46 en vez de .36
244
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
– Tanto X como s son los valores calculados en una muestra. Naturalmente el valor exacto de la media de la población ( m ) no lo conocemos: puede estar en cualquier punto entre los valores extremos indicados. También puede estar fuera de los límites indicados, pero esto va siendo más improbable cuando establecemos unos intervalos de confianza más estrictos. Es normal operar con un nivel de confianza del 95% (o, lo que es lo mismo, con una probabilidad de error, al situar los límites extremos de la media, de un 5%); en este caso z en la fórmula [3] será igual a 1.96; como se desprende de esta fórmula, a mayor valor de z (mayor seguridad) los límites serán más extremos. Cuando calculamos la media de una muestra en una variable de interés ¿Es útil calcular además entre qué límites se encuentra la media de la población? Con frecuencia nos bastará conocer la media de una muestra concreta como dato infor mativo, pero con frecuencia extrapolamos informalmente de la muestra a la población. Siempre es útil relativizar este tipo de información, y con mayor razón si de hecho (como es frecuente) estamos utilizando la media de una muestra como estimación de la media de la población 2. 4.2. Establecer los intervalos de confianza de una proporción El error típico de una proporción es un caso particular del error típico de la media pero dado el uso frecuente de proporciones y porcentajes es útil verlo por separado y con ejemplos ilustrativos. Cuando los datos son dicotómicos (1 ó 0) la media p es la proporción de sujetos que responden sí o que escogen la respuesta codificada con un 1. Si de 200 sujetos 120 responden sí (ó 1) a una pregunta y 80 responden no (0), la media p es igual a 120/200 = .60: el 60% de los sujetos (o una media del 60%) han respondido sí . El er ror típico de una proporción es el mismo que el error típico de cualquier media, solo que en este caso la media es p, la varianza es pq [proporción de unos por proporción de ceros] y la desviación típica es . La fór mula del error típico de una proporción ( sp ) será por lo tanto:
Una de las recomendaciones de la American Psychological Association es calcular siempre los intervalos de confianza (Wilkinson, Leland and Task Force on Statistical Inference APA Board of Scientific Affairs 1999; American Psychological Association, 2001). 2
245
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En el ejemplo anterior tenemos que N = 200, p =120/200 = .60 y q =.40 (ó 1 - .60) por lo tanto el error típico de la proporción será:
De manera análoga a lo que hemos visto en los intervalos de confianza de la media en variables continuas (fórmulas [3] y [4]), los intervalos de confianza de una proporción p serán: Intervalos de confianza de una proporción = Ahora podemos hacernos esta pregunta: en esa muestra de 200 sujetos han respondido sí 120 sujetos (una media de .60 o el 60%), pero ¿cuántos responderán sí en la población representada por esa muestra? Ya podemos intuir la importancia de esta pregunta si pensamos en los sondeos pre-electorales; lo que interesa realmente no es conocer cuántos sujetos de esa muestra van a votar a un candidato, sino cuántos le votarán el día de las elecciones. La proporción de votantes que dirán sí a ese candidato (o la media de votantes) en la población no la sabemos (habría que preguntar a todos y eso se hará el día de las elecciones), pero sí podemos estimar entre qué límites má ximo y mínimo se encuentra esa proporción con un determinado nivel de confianza (o seguridad de acertar en la predicción); es decir, podemos establecer los márgenes de error. Para responder a esta pregunta calculamos los intervalos de confianza de la media (p = .60) con un nivel de confianza de .05 (un 5% de probabilidades de equivocarnos) que equivale a z = 1.96. La proporción de los que dirán sí a juzgar por los datos de esa muestra estará entre .60 menos 1.96 errores típicos y .60 más 1.96 errores típicos: Límite mínimo: .60 – (1.96)(.0346) = .60 – .0678 = .5322 (el 53%) Límite máximo: .60 + (1.96)(.0346) = .60 + .0678 = .6678 (el 67%) El margen de error en nuestra predicción es .0678 (casi un 7% redondeando). En la muestra encuestada ha respondido sí el 60%, pero en la población representada por esa muestra esperamos que responda sí entre un 53% y un 67%. El ejemplo de los sondeos pre-electorales pone de relieve la importancia de calcular los intervalos de confianza de una proporción (y es lo que se hace y comunica cuando se publican estas encuestas), pero estos intervalos de confianza son informativos casi en cualquier situación. Cuando se hacen sondeos de opinión en grupos diversos (alumnos, padres de alumnos, grupos
246
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
profesionales, etc.) prácticamente se tienen muestras (no responde toda la población) pero los resultados suelen interpretarse como si todos hubieran respondido; lo realmente informativo es aportar los intervalos de confianza, o entre qué límites se encuentran con toda probabilidad las respuestas si to dos hubieran respondido. Cuando distintos gr upos responden a la misma pregunta ( sí o no en este caso, pero puede tratarse también de respuestas con valores continuos) es útil especificar el error típico de la proporción en cada muestra y los intervalos de confianza entre los que se encuentra la proporción de síes (o unos) en las poblaciones representadas por esas muestras (ejemplo en la tabla 3, con un nivel de confianza de .05 ó z = 1.96). Tabla 3
En la tabla 3 podemos observar que en las muestras A y B responde afirmativamente la misma proporción de sujetos (un 60%), pero al extrapolar los resultados a las poblaciones representadas por esas muestras el margen de error es mucho menor en la muestra A porque se trata de más sujetos. Al hablar de extrapolar a la población los resultados de una muestra (en este caso y en cualquier otro) hay que hacer una observación importante. Estamos suponiendo que esa muestra es representativa de la población, que no está sesgada, y esto es lo se intenta conseguir con las muestras aleatorias. Cuando éste no es el caso (responden los sujetos disponibles, los que quieren, etc.) siempre podemos pensar en la población que pueda estar representada por esa muestra y ser cautelosos al generalizar los resultados. En cualquier caso siempre es más seguro informar sobre los intervalos de confianza sin limitarnos a una proporción o porcentaje aparentemente exacto. 4.3. Comparar la media de una muestra con la media de una población Se trata ahora de verificar si podemos considerar que una muestra, cuya media conocemos, pertenece a una población cuya media también conoce – mos. Si tenemos la media de una muestra (X ) y la media de una población ( m ), podemos preguntarnos ¿Es posible afirmar que nuestra muestra, cuya
247
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
media conocemos, pertenece a (es una muestra aleatoria de) una población con media m? Si la respuesta es no, podremos afirmar que la muestra pertenece a una población distinta, con una media distinta. Al hablar de diferencias estadísticamente significativas estamos hablando de diferencias no aleatorias, no explicadas por el error muestral, no esperables por azar . Esto lo afirmaremos con una determinada probabilidad de er ror; es el nivel de significación o nivel de confianza. Es más frecuente comparar las medias de dos muestras (para comprobar si proceden de o pertenecen a poblaciones distintas con distinta media), pero también tiene su interés el comparar la media de una muestra con la media de una población cuando ésta es conocida por otras investigaciones o estudios, o es la conclusión lógica de una determinada teoría, o simplemente la media de la población es una hipótesis de trabajo; siempre podemos pensar en medias hipotéticas. Lo veremos con un ejemplo. Un profesor pone a sus alumnos una serie de – problemas y obtiene estos resultados: N = 40, X = 12.6 y s = 4.25. El profesor piensa que un resultado óptimo y posible hubiera sido obtener una media de 15, y se pregunta ¿puede considerarse esta muestra de 40 alumnos como una muestra aleatoria de una población cuya media fuera m = 15? Este tipo de planteamientos puede tener su interés cuando la media de la población es una hipótesis plausible o hay datos de otros estudios, etc. V amos a suponer que el nivel de confianza que nos ponemos es de a = .01 (que corresponde a z = 2.57; probabilidad de equivocarnos: 1% o menos; sólo el 1% de los casos cae más allá de ±2.57). Podemos solucionar el problema de dos maneras. 1º Nuestra muestra pertenece a una población cuya media en principio desconocemos. Lo que sí podemos hacer es estimar el límite máximo de la media de la población a la que per tenece nuestra muestra, tal como hemos visto antes, y con un riesgo máximo de error del 1%, tal como hemos fijado previamente. 1. Calculamos el error típico de la media, 2. ¿Cuáles serán los límites superior e inferior de la media de la población, con una probabilidad de error del 1%? – – ) = 12.6 + (2.57)(.68) = 14.35 El límite superior será X +(2.57)( s x – – ) = 12.6 – (2.57)(.68) = 10.85 El límite inferior será X - (2.57)( s x Podemos considerar que nuestra muestra, con una media de 12.6, pertenece a una población cuya media estará entre 10.85 y 14.34, y esto podemos afirmarlo con una probabilidad de error del 1%.
248
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
3. Nuestra conclusión es clara: nuestra muestra con media de 12.6 no pertenece a una población hipotética cuya media fuera 15 porque el límite máximo de la población de nuestra media es 14.35 y no llega a 15, luego nuestra muestra pertenece a otra población con otra media, cuyo límite inferior no es 15. Podemos visualizar el resultado con un sencillo gráfico:
Salta a la vista que la media de la población de referencia (= 15) es mayor que el límite superior de la media de la población representada por esa muestra (=14.35). 2º De hecho el procedimiento utilizado habitualmente para comprobar si la media de una muestra difiere significativamente de la media de una población suele ser otro que nos permite llegar a las mismas conclusiones. Nos basta calcular una puntuación típica (z), que nos dirá en cuántos errores típicos se aparta nuestra media de la media de la población. El procedimiento y la fórmula apropiada están puestos y explicados como un caso más del contraste de medias. 4.4. Calcular el tamaño N de la muestra para extrapolar los resultados a la población No es éste el lugar apropiado para tratar con cierta extensión sobre el tamaño necesario de la muestra, pero sí es útil, tratando del error típico de la media o de una proporción, ver y entender en este contexto la relación entre la magnitud de los intervalos de confianza de la media y el número necesario de sujetos en la muestra para extrapolar los resultados a la población con un determinado margen de error. De manera análoga a lo que hemos visto en [4] y en [6] el margen de error cuando la proporción encontrada en una muestra la extrapolamos a la población es:
Si en [7] despejamos N (el tamaño de la muestra) tendremos:
249
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En [8] conocemos todos los valores que nos interesan para calcular N Este valor corresponde al nivel de confianza y lo establecemos nosotros; habitualmente utilizaremos un nivel de confianza del .05 y z = 1.96 (ó z = 2.57 si nuestro nivel de confianza es de .01) pq Es la varianza de la población, no la varianza de la muestra. Esta varianza no la conocemos, pero como a mayor varianza en la población hará falta una muestra mayor, nos situamos en la situación en que la varianza es la máxima posible; en este caso p = q = .50, y pq = .25, que es un valor constante. e Es el margen de error que estamos dispuestos a aceptar y también lo establece el investigador. Si por ejemplo estamos dispuestos a aceptar un margen de error del 5%, esto quiere decir que si en la muestra encuestada en esta caso responde sí el 35%, en la población esperamos que responda sí entre el 30% y el 40%. Éste 5% lo expresaremos en forma de proporción (o tanto por uno): .05 z
V emos de nuevo que si queremos un margen de error pequeño ( e, el denominador en 8) necesitaremos una muestra mayor. Podemos ver la aplicación de esta fórmula [8] con un ejemplo. Vamos a hacer una encuesta para extrapolar los resultados a una población mayor (muy grande, de tamaño indefinido). El margen de error que estamos dispuestos a aceptar es del 5% (e = .05), de manera que si nos responden sí el 50% de la muestra ya sabemos que en la población el sí estará entre el 45% y el 55% El nivel de confianza es del .05, que corresponde a z = 1.96 (1.96)(.25) Necesitaremos una muestra de este tamaño: N = ––––––––– = 384 sujetos .052 Si el margen de error máximo que nos interesa es del 3% (e = .03), la muestra necesaria sería de 1067 sujetos. Hacemos algunas observaciones ya que el exponer y justificar brevemente estas fórmulas tiene un valor complementario para entender mejor el concepto y utilidad del error típico, pero no tratamos aquí de manera expresa sobre el tamaño de la muestra, tipos de muestreos y cómo hacerlos, etc. 3 Puede verse más información en la bibliografía mencionada y en otras muchas publicaciones; sobre el tamaño de la muestra necesario también con otras finalidades (construir una escala de actitudes, hacer un análisis factorial, etc.) puede verse Morales (2007b). 3
250
ESTADÍSTICA INFERENCIAL: EL ERROR TÍPICO DE LA MEDIA
a) Estas fórmulas para calcular el tamaño de la muestra son válidas aun cuando las preguntas no sean dicotómicas (estamos utilizando el error típico de una proporción, cuya varianza máxima es pq = .25). b) Son válidas cuando se hace un muestreo aleatorio simple; hay variantes cuando se utilizan otros tipos de muestreo (como el estratificado). c) Suponemos que la población a la que se extrapolan los resultados es grande, de tamaño indefinido y que podemos no conocer con exactitud. Con poblaciones menores y cuyo tamaño conocemos hay fórmulas más ajustadas; más o menos a partir de poblaciones en torno a los 30.000 sujetos el tamaño necesario de la muestra no varía mucho; al aumentar el tamaño de la población no aumenta proporcionalmente el tamaño necesario de la muestra. A NEXO. LOS INTERVALOS DE LA MEDIA Y DE LAS PROPORCIONES EN INTERNET Varios programas disponibles en Internet nos dan los intervalos de confianza de una media o proporción para un determinado nivel de confianza, lo mismo que el tamaño de la muestra necesario para determinados márgenes de error. Entre otras direcciones: LOWRY , R ICHARD, V ASSAR STATS: W EB SITE FOR STATISTICAL COMPUTATION,Vassar College, Poughkeepsie, NY, USA; http://faculty.vassar.edu/lowry/VassarStats.html ( menú en proportions: the confidence interval of a proportion; en t test & procedures: .95 and .99 Confidence Intervals for the Estimated Mean of a Population). GENE V GLASS Intro to quant methods http://glass.ed.asu.edu/stats/ En Links to Online Resources for Statistics, en Online statistical calculators that can perform many different analyses. : Confidence Interval on a Proportion http://glass.ed.asu.edu/stats/analysis/ pciform.html Confidence Interval on a Sample Mean http://glass.ed.asu.edu/stats/analy sis/mci.html Algunas direcciones relacionadas con encuestas de opinión: CREATIVE R ESEARCH S YSTEMS. The Survey System Sample Size Calculator http://www.surveysystem.com/sscalc.htm CUSTOMINSIGHT.COM. Survey Random Sample Calculator (Home: http://www. custominsight.com/index.asp ) http://www.custominsight.com/articles/ random-sample-calculator.asp DIMENSION R ESEARCH, INC. Confident Intervals for Means Calculator http://www.dimensionresearch.com/resources/calculators/conf_me ans.html ( home: http://www.dimensionresearch.com/index.html ).
251
CAPÍTULO 8
EL CONTRASTE DE MEDIAS
1. UTILIDAD DE COMPARAR O CONTRASTAR LA DIFERENCIA ENTRE LAS MEDIAS DE DOS GRUPOS Uno de los planteamientos más frecuentes en análisis estadístico es sencillamente comparar las medias de dos grupos (hacer un c ontraste de me dias )1. Antes de ver el procedimiento conviene tener una idea general de la utilidad de estos contrastes. a) Muchos diseños experimentales, y planteamientos de evaluación en general, desembocan en una comparación de las medias de dos grupos: un grupo experimental (el que ha seguido nuestra metodología, el que ha tenido una determinada experiencia, formación etc.) lo comparamos con otro grupo de control o de contraste (un grupo comparable al grupo experimental pero que no ha pasado por esta experiencia, método, etc.). Son varios los diseños experimentales (y cuasi-experimentales) que se pueden proponer y cuyo análisis básico es un simple contraste de medias. En definitiva esperamos que si la experiencia, método, terapia, etc., ha sido provechosa, los sujetos del grupo experimental tendrán una me dia mayor que la del otro grupo (una media mayor en la variable de pendiente: aquella característica en la que esperamos que se haya producido un cambio). Por una media mayor entendemos mayor de lo que cabría esperar por azar o mayor que lo que se puede esperar de la variación natural de una muestra a otra. Si tenemos tres grupos o más en el mismo planteamiento y deseamos compararlos de dos en dos, el procedimiento adecuado es el análisis de varianza. 1
253
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
b) Aunque no tengamos un diseño experimental, ni ningún planteamiento de investigación propiamente dicho, muchas veces exploramos di ferencias entre grupos, sin hipótesis previas, por simple curiosidad o por interés personal. Tenemos los datos y los aprovechamos para descubrir cosas… c) El contraste (comparación) de las medias de los subgrupos con puntuación total más alta y más baja (en un examen, en un test, en una escala, etc.; en cualquier total que supone la suma de una serie de preguntas) tiene aplicaciones específicas: 1) Aporta información de interés (en qué se parecen más y en que se diferencian más los altos y los bajos en cualquier variable…). 2) Es una manera sencilla de analizar los ítems de una escala o test, para quedarnos con los más discriminantes (los más diferenciadores…): con estos ítems tenemos una fiabilidad mayor, podemos reducir la longitud del instrumento, etc. 2. A QUÉ PREGUNTAS DEBEMOS RESPONDER AL COMPARAR DOS MEDIAS Es importante tener claro desde el principio a qué preguntas de interés debemos responder (o podemos responder) cuando comparamos dos grupos, porque no se trata simplemente de restar una media de la otra para ver la diferencia. Hacemos básicamente dos tipos de cálculos o análisis distintos que responden a otras dos preguntas distintas a las que habrá que añadir otra tercera pregunta sobre la relevancia o interés de la diferencia. Primera pregunta La diferencia entre las medias de estos dos grupos ¿Está dentro de lo normal, dentro de lo que se puede esperar habitualmente cuando no hay más diferencia que la puramente aleatoria? ¿O se trata más bien de una diferencia rara, atípica, fuera de lo normal? Si la respuesta es que la diferencia es mayor de lo normal, de lo que se puede esperar por azar , decimos que se trata de una diferencia estadísticamente significativa. En principio podemos tomarnos en serio la diferencia; podemos afirmar que entre las poblaciones representadas por estas muestras sí hay una diferencia distinta de cero. Hay que tener claro tanto lo que queremos expresar cuando decimos que una diferencia es estadísticamente significativa como lo que no podemos decir :
254
EL CONTRASTE DE MEDIAS
a) Queremos decir que podemos extrapolar los resultados solamente en este sentido: en situaciones semejantes y con sujetos semejantes, lo probable es que encontremos una diferencia distinta de cero (y que es suficiente para poder decir que los grupos pertenecen a poblaciones distintas en lo que respecta a la variable o rasgo en el que hemos medido a los sujetos). b) Lo que no podemos decir es que: 1) en muestras semejantes encontraremos una diferencia de magnitud semejante (interpretación frecuente pero errónea); es posible que así sea, pero lo que demostramos es que la diferencia en otros pares de muestras no será cero (y esto no es decir mucho), 2) tampoco podemos decir que una diferencia es grande o impor tante por el mero hecho de ser estadísticamente significativa. Por todo esto habrá que completar la información con la respuesta a la segunda pregunta que nos haremos a continuación. Una observación: estamos suponiendo que las muestras que comparamos o son muestras aleatorias o son muestras cuyos sujetos han sido asignados aleatoriamente a las diversas condiciones o grupos. En la práctica frecuentemente se trabaja o investiga con grupos hechos, por lo que no se trata de muestras aleatorias. En estos casos tan habituales: 1) Siempre podemos pensar a qué poblaciones pueden representar estos dos grupos y extrapolar los resultados a la población hipotética representada por estas muestras con la debida cautela (pueden ser muestras sesgadas o no representativas de la población general o de la población que en principio nos interesa estudiar). 2) En cualquier caso si la diferencia es estadísticamente significativa podemos excluir el azar o variabilidad normal como explicación plausible o razonable de esa diferencia. Segunda pregunta ¿Cuál es la magnitud de esta diferencia entre los dos grupos? ¿Es grande, pequeña, moderada…? Una diferencia estadísticamente significativa puede ser de hecho pequeña y poco relevante (sucede con frecuencia cuando comparamos muestras grandes); lo mismo sucede a la inversa, una diferencia que no es estadísticamente significativa puede ser grande y de importancia en una situación dada (y esto es más probable que suceda cuando comparamos muestras pequeñas). El dato de la magnitud de la diferencia tiene su cálculo específico que veremos más adelante. La magnitud de la diferencia es un dato importante
255
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
para interpretar los resultados, para ver si la diferencia es relevante, etc. Sobre todo esto volveremos más adelante, porque la confusión entre estadísticamente significativo y grande o relevante es muy frecuente. En la práctica habitual: 1º Se responde en primer lugar a la primera pregunta: la diferencia ¿Está dentro de lo normal y aleatorio? ¿Es mayor de lo que se podría esperar si ambas muestras pertenecieran a la misma población? 2º Después se matiza y se completa la información respondiendo a la segunda pregunta sobre la magnitud de la diferencia (pequeña, moderada, grande…). La estadística inferencial más tradicional se limita con frecuencia a responder a la primera pregunta, pero también es importante (y a veces más importante) analizar la magnitud de la diferencia (cuestión a la que no suelen responder muchos libros de texto). Tercera pregunta ¿Cuál es la relevancia, el interés que puede tener la diferencia que hemos encontrado? Para valorar la relevancia tenemos que responder a las dos preguntas anteriores (la diferencia ¿está dentro de lo normal? ¿es grande, pequeña…? ) y además hay ya que tener en cuenta otro tipo de información más cualitativa: contexto, finalidad de la comparación, etc. 3. EL
MODELO TEÓRICO DEL CONTRASTE DE MEDIAS : LA DISTRIBUCIÓN MUESTRAL DE DIFERENCIAS ENTRE MEDIAS QUE PERTENECEN A LA MISMA POBL ACIÓN
Lo que vamos a comprobar es cuándo una diferencia es mayor de lo que se podría esperar por azar si entre los dos grupos no hubiera más diferencias que las puramente casuales (o explicadas por el error muestral, dicho en términos más académicos). Nuestro modelo teórico es la distribución muestral de las diferencias entre medias de muestras que proceden de la misma población: entre estas medias no hay, por hipótesis, más diferencias que las puramente aleatorias. Esta distribución es un modelo teórico análogo al de la distribución muestral de la media que ya hemos visto; ahora ya no se trata de medias, sino de diferencias entre medias. En este modelo se supone lo siguiente: 1º De una misma población extraemos un número indefinido (muy grande) de pares de muestras y calculamos la diferencia entre sus
256
EL CONTRASTE DE MEDIAS
medias: la media de la primera muestra menos la media de la segunda muestra. Unas veces la diferencia será positiva (la media de la primera muestra es mayor que la de la segunda muestra), otras negativa (la media de la segunda muestra es mayor que la media de la primera muestra) y otras veces la diferencia será cero. 2º Al tener muchas diferencias entre medias (un número indefinido, se trata de un modelo teórico), por hipótesis tendremos que: 1. Estas diferencias tendrán una distribución normal (que se denomina distribución muestral de las diferencias entre medias de muestras que proceden de la misma población). 2. La media de esta distribución será cero porque las diferencias positivas anulan a las negativas (cuando no hay más diferencias que las puramente aleatorias). 3. La desviación típica de esta distribución (que como se trata de una distribución muestral se denomina error típico) podemos estimarla a partir de los valores del tamaño y de las desviaciones típicas de las muestras (esto es demostrable aunque aquí no pongamos la demostración; se trata del teorema del límite central ya mencionado). 4. La mayoría de estas diferencias (el 95%) estará entre –1.96 errores típicos y + 1.96 errores típicos; convencionalmente situamos la normalidad entre estos límites. Lo que vamos a hacer es comprobar si nuestra diferencia (la que hemos calculado entre dos medias) está dentro de lo normal, si pertenece a esa distribución (o población) de diferencias cuya media es cero. En ese caso concluiremos que la diferencia está dentro de lo normal y aleatorio (no es estadísticamente significativa). Figura 1
257
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En la figura 1 tenemos representada la distribución de las diferencias entre medias cuando la media de las diferencias es cero porque no hay más diferencias que las puramente casuales. Entre –1.96 errores típicos (o desviaciones típicas) y + 1.96 errores típicos tendremos el 95% de las diferencias. A estas diferencias las consideramos normales porque están dentro de los límites que convencionalmente hemos determinado como criterio de lo que suele suceder cuando no hay más diferencias que las aleatorias o casuales. Al comparar dos medias podemos encontrar una de las dos posibilidades representadas en la figura 2, cada posibilidad nos llevará a una conclusión distinta. Figura 2
¿Cuándo podemos afirmar que las dos muestras pertenecen a la misma población?
¿Cuándo podemos afirmar que las dos muestras proceden de poblaciones distintas?
Afirmamos que las dos muestras pertenecen a la misma población cuando la diferencia está dentro de lo normal o frecuente;
Afirmamos que las dos muestras proceden de poblaciones distintas cuando la diferencia es atípica, poco frecuente, se sale de lo normal
Es decir, cuando se trata de una diferencia probable en el caso de que las dos muestras procedan de la misma población ( m1 = m2 = m )
Es decir, cuando se trata de una diferencia poco probable. En ese caso podremos afirmar que las medias pertenecen a muestras de poblaciones distintas, con distinta media ( m1 m2 )
258
EL CONTRASTE DE MEDIAS
4. CÓMO COMPROBAMOS SI NUESTRA DIFERENCIA PERTENECE A LA POBLACIÓN DE DIFERENCIAS CUYA DIFERENCIA MEDIA ES CERO
4.1. Modelo y fórmula básica Hacemos esta comprobación verificando en cuántos errores típicos (des viaciones típicas) se aparta nuestra diferencia de la diferencia media de cero. Si nuestra diferencia se aparta mucho (1.96 errores típicos si seguimos el criterio habitual) de la diferencia media de cero: 1. Podremos deducir que esa diferencia es improbable si las dos medias proceden de la misma población. 2. Y afirmaremos por lo tanto que las muestras proceden de poblaciones distintas con distinta media. Difieren más de lo que consideramos normal cuando no hay más diferencias que las puramente aleatorias. ¿Cómo sabemos que la diferencia está dentro de lo probable? (probable en la hipótesis de que ambas muestras procedan de la misma población): V erificando en cuántos errores típicos se aparta nuestra diferencia de la diferencia media de cero. Para esto nos basta calcular la puntuación típica de esa diferencia (z, t de Student) que nos indicará si la diferencia es probable (p >.05) o improbable (p<.05) (en este caso el nivel de confianza, o probabilidad de error al afirmar la diferencia, es de a =.05). Esta puntuación típica, expresada en términos no convencionales, será:
La fórmula, expresada en símbolos convencionales es:
En esta fórmula [1]: El numerador equivale de hecho a la diferencia entre dos medias ( entre las medias de dos diferencias ); restamos una diferencia entre dos medias de una diferencia media de cero.
259
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
El denominador ( símbolo del error típico de la diferencia entre medias), varía según se trate de muestras independientes o relacionadas, grandes o pequeñas; las fórmulas específicas para cada caso están en el apartado 4.7. Lo que hacemos es calcular la puntuación típica (z) de una diferencia: comprobar en cuántas desviaciones típicas (errores típicos) se aparta esa diferencia de la diferencia media de cero. Esta puntuación típica nos dirá la probabilidad de que ocurra nuestra diferencia cuando la media de las diferencias es cero. ¿Cuándo es grande la probabilidad de que ocurra una diferencia? El límite es convencional; habitualmente se acepta que más de 5 veces de cada 100 son ya muchas veces; en ese caso se interpreta como una diferencia normal cuando las medias pertenecen a muestras de la misma población. Este límite es el nivel de significación (.05) o nivel de confianza (.95), como en planteamientos análogos, y a cada nivel de confianza le corresponde un valor de z. Se trata de una aplicación directa de la distribución normal. El nivel de significación se expresa así: a = .05, y en este caso necesitaremos un valor de z igual o superior a 1.96 (en pruebas bilaterales, que son las que utilizamos normalmente como explicamos más adelante, y con muestras grandes; si se trata de muestras pequeñas consultaremos las tablas de la t de Student ). El nivel de significación expresa la probabilidad de equivocarnos al afirmar la diferencia y el nivel de confianza expresa la probabilidad de acertar (.05+.95 = 1; 100%); ambas expresiones vienen a decir lo mismo. Si nuestro nivel de significación es a = .01, necesitaremos un valor de z superior a 2.57, y si es a = .001, el valor de z debe ser igual o superior a 3.30. Según el valor de z que se obtenga, los resultados suelen expresarse de esta forma: p > .05 p <. 05 p < .01 p <.001
cuando el valor de z no llega a 1.96 (o diferencia no estadísticamente significativa) cuando z > 1.96 (a partir de z = 1.96 solemos decir que la diferencia es estadísticamente significativa, porque el nivel de confianza habitual es a = .05) cuando z > 2.56 cuando z > 3.30
Los programas de ordenador suelen indicar la probabilidad exacta que corresponde a cada valor de z (p =.03, p = .002, etc.) y es el dato que se debe manifestar si está disponible (la probabilidad exacta del valor de z (o t ) también se encuentra fácilmente en programas de Internet)2. 2
Pueden verse los programas de Internet del anexo 4 de este capítulo.
260
EL CONTRASTE DE MEDIAS
Con muestras pequeñas la fórmula utilizada se denomina usualmente t de Student (que nos remite a las tablas para muestras pequeñas, anexo 3); con muestras grandes suele denominarse z (y también es usual mantener la expresión t de Student, aunque con menos propiedad) y en todos los casos también se utiliza a veces el tér mino genérico de Razón Crítica (R.C.). Con muestras pequeñas las probabilidades de ocurrencia en los extremos son algo mayores (los valores exactos dependen del número de sujetos), por eso necesitamos consultar las tablas específicas para muestras pequeñas (las tablas de la t de Student)3 pero según va aumentando el número de sujetos las probabilidades se van pareciendo más a las de la distribución normal. 4.2. Hipótesis Nula e Hipótesis Alterna En este contexto es útil recordar, o introducir, los conceptos de Hipótesis Nula e Hipótesis Alterna. Aquí es importante entender dos puntos: 1º a qué llamamos Hipótesis Nula e Hipótesis Alterna, y 2º por qué hacemos esta distinción. 1º Qué son las Hipótesis Nula y Alterna La Hipótesis Alterna es la del investigador: que existe una diferencia (o una relación), que la diferencia es mayor de lo que se puede esperar por azar, etc. La Hipótesis Nula es la negación de la Hipótesis Alterna: la diferencia está dentro de lo normal y probable, no se aparta significativamente de una diferencia media de cero. Los conceptos (y los términos) de Hipótesis Alterna e Hipótesis Nula son importantes y conviene que estén muy claros. La Hipótesis Nula es siempre la negación de la Hipótesis Alterna, que es en principio nuestra hipótesis. Por ejemplo: Hipótesis Alterna (mi hipótesis): El método A es mejor que el método B El método A no es mejor que el Hipótesis Nula: método B Para formular la Hipótesis Nula nos basta poner un no delante del verbo utilizado en la Hipótesis Alterna. Las probabilidades de la tabla para muestras pequeñas se la debemos a William S. Gosset que firmaba con el seudónimo the Student , de ahí el término t de Student y el símbolo t en vez de z (conceptualmente se trata de lo mismo) 3
261
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La formulación de la Hipótesis Nula quedaría más clara si añadimos (al menos mentalmente): porque si hay alguna diferencia entre las medias de los dos grupos, esta diferencia está dentro de lo normal y se explica suficientemente por el error muestral, por factores aleatorios, etc. Utilizando los símbolos convencionales expresaríamos así estas hipótesis ( m es el símbolo de la media de una población): Hipótesis Nula Ho: m1 = m2 (o lo que es lo mismo m1 - m2 = 0) Hipótesis Alterna: podemos expresarla de dos maneras H1: m1 m2 (no especificamos la dirección de la diferencia) H1: m1 > m2 o m1 < m2 (sí especificamos la dirección de la diferencia) 2º Por qué distinguimos entre estos dos tipos de hipótesis (nula y alterna) A primera vista puede parecer que la única hipótesis que tenemos es la alterna (que hay una diferencia, que un método es mejor que otro, etc.) y es ésta la hipótesis que probamos o dejamos de probar. Sin embargo la hi pótesis que ponemos a prueba es la Hipótesis Nula: es la que aceptamos (o más bien fracasamos en el intento de rechazarla y afirmamos que la diferencia está dentro de lo normal, o no es extrapolable…) o la que rechazamos. Aunque no tengamos hipótesis formuladas y prescindamos de las hipótesis nula y alterna, cuando contrastamos dos medias y encontramos una diferencia estadísticamente significativa, implícitamente estamos rechazando la hipótesis nula, lo digamos o no. Estas hipótesis nulas de ‘no diferencia’ están implícitas en el mismo modelo y procedimiento. Una manera sencilla (aunque quizás incompleta) de entender y recordar estos conceptos puede ser ésta: Identificar la Hipótesis Nula con diferencia casual, normal, aleatoria, probable, etc., Identificar la Hipótesis Alterna con diferencia improbable, no casual, etc. (improbable si las dos muestras proceden de la misma población, sin más diferencias que las puramente aleatorias o casuales). En definitiva lo que vamos a hacer es determinar la probabilidad de que se dé una determinada diferencia entre dos muestras en el caso de que ambas procedan de la misma población, con la misma media y sin más diferencias que las que pueden explicarse por la variabilidad normal que hay en cualquier grupo (eso significa pertenecer a la misma población ).
262
EL CONTRASTE DE MEDIAS
Así, si hacemos un contraste de medias con un nivel de confianza de a = .05: Si la diferencia es probable (p >.05) [probable en el caso de que las muestras procedan de la misma población]
Si la diferencia es improbable (p <.05) [improbable en el caso de que las muestras procedan de la misma población]
Aceptamos (no rechazamos ) la Hipótesis Nula; o lo que es lo mismo:
Rechazamos ( no aceptamos ) la Hipótesis Nula y aceptamos la Hipótesis Alter na, o lo que es lo mismo:
Afirmamos que las muestras pertenecen a la misma población ( m1 = m2 )
Afirmamos que las muestras proceden de poblaciones distintas ( m1 m2 )
Afirmamos que la diferencia no es estadísticamente significativa.
Afirmamos que la diferencia sí es estadísticamente significativa (es muy improbable que las muestras pertenezcan a la misma población).
Si la probabilidad de que ocurra la diferencia es grande, afirmamos que ambas muestras proceden de la misma población, y que la diferencia está dentro de lo aleatorio (se explica por el error muestral, por la variabilidad normal que hay en cualquier conjunto de datos) y lo solemos expresar diciendo que aceptamos la Hipótesis Nula, aunque con más propiedad habría que decir que no rechazamos la Hipótesis Nula (propiamente nunca demostramos que la Hipótesis Nula es verdadera; simplemente no demostramos que es falsa). Si esta probabilidad es pequeña (menos del 5% o p < .05 si señalamos ese ni vel de confianza o a = .05) rechazamos que las muestras procedan de la misma población con idéntica media ( no aceptamos la Hipótesis Nula ) y podremos afirmar que las dos muestras proceden de poblaciones distintas con distinta media (y decimos entonces que la diferencia es estadísticamente significativa). Una cuestión distinta es identificar automáticamente diferencia estadísticamente significativa con hipótesis de investigación demostrada (si la diferencia es mayor de lo normal, es que este método es mejor que el otro, etc.); del hecho de la diferencia no se deduce sin más que la causa o explicación de la diferencia sea la propuesta como hipótesis por el investigador; simplemente afirmamos la diferencia.
263
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
4.3. Contrastes unilaterales y bilaterales Hemos visto que hay dos tipos de hipótesis alternas (una hipótesis es m1 m2 y otra hipótesis es m1 > m2 o m1 < m2 ). Por ejemplo, no es lo mismo tener como hipótesis: Niños y niñas son diferentes en…
Símbolo: m1 m2; (afirmamos la diferencia, pero no la dirección de la diferencia)
que tener como hipótesis: Símbolo: m1 > m2; (especificamos la dirección de la diferencia, quién es más que quién)
Los niños aventajan a las niñas en… Cuando no afirmamos como hipótesis la dirección de la diferencia ( los niños y las niñas son distintos en…) Cuando sí afirmamos como hipótesis la dirección de la diferencia ( las niñas aventajan a los niños en…)
tenemos lo que se denominan contrastes (o hipótesis) bilaterales, bidireccionales o de dos colas. tenemos lo que se denominan contrastes (o hipótesis) unilaterales, unidireccionales o de una cola.
¿Dónde está en la práctica la importancia entre estos dos tipos de hipótesis? Antes hemos mencionado que cuando al comparar dos medias obtenemos una z de 1.96 o más, rechazamos el azar como explicación de la diferencia ¿Por qué exactamente 1.96? Porque por encima de 1.96 caen el 2.5% de los casos y por debajo de -1.96 otro 2.5% de los casos (figura 1): nos fijamos en los dos extremos (o en las dos colas) de la distribución. No señalamos la dirección de la diferencia y estamos por lo tanto en una hipótesis bilateral, tal como se muestra en la figura 3 (semejante a la figura 1).
264
EL CONTRASTE DE MEDIAS
Figura 3
Si nuestra hipótesis es unilateral, nos fijaremos en un lado de la distribución, y en vez de z = 1.96 necesitaremos llegar solamente a 1.64, porque por encima de z = 1.64 (o por debajo de z = - 1.64) cae el 5% de los casos, tal como se muestra en la figura 4. Figura 4
Naturalmente es más fácil encontrar un valor de 1.64 que de 1.96 por lo que se confirman con más facilidad las hipótesis unilaterales. Aquí no entramos más en esta distinción porque habitualmente nos vamos a referir a hipótesis bilaterales (o bidireccionales, o de dos colas), porque es la práctica más común y aconsejada, por eso mantendremos z = 1.96 como criterio; a partir de ese valor es cuando afirmamos que una diferencia es muy improbable en el caso de que ambas muestras procedan de la misma población 4. Aunque nuestras hipótesis nos parezcan con frecuencia lógicamente unidireccionales ( este método es ‘mejor que’…) y así las formulemos, se suelen utilizar de manera habi4
265
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
4.4. Esquema-resumen del proceso de verificación de hipótesis Es útil disponer de un cuadro-resumen que nos clarifique estos conceptos y nos resuma el proceso de verificación de hipótesis (figura 5). Partimos de nuestra hipótesis (la hipótesis alterna) pero lo que realmente ponemos a prueba es la negación de nuestra hipótesis (la hipótesis nula); lo que hacemos en definitiva es determinar las probabilidades de que se dé una determinada diferencia (o en su caso relación). Figura 5
tual los valores de z (o de la t de Student) propios de las hipótesis bidireccionales; una explicación más amplia de estos dos tipos de hipótesis, direccionales y no direccionales, y por qué se utilizan habitualmente hipótesis bidireccionales puede verse en Morales (página Web) (2008; sobre las hipótesis direccionales y no direccionales ).
266
EL CONTRASTE DE MEDIAS
4.5. Interpretación del significado de aceptar o no aceptar la hipótesis nula: tipos de errores Es fácil interpretar mal las conclusiones que se derivan del aceptar o no aceptar la Hipótesis Nula (la hipótesis de no diferencia ) y que ya están sucintamente expuestas en los apartados anteriores. 4.5.1 Cuando no aceptamos la Hipótesis Nula No aceptamos la Hipótesis Nula cuando es muy improbable que por azar se dé esa diferencia entre las muestras cuando las poblaciones no difieren ( m1 = m2, ó m1 - m2 = 0; se trata de la misma población). Al decir que rechazamos la Hipótesis Nula exactamente queremos decir esto: Una probabilidad pequeña de que la diferencia sea aleatoria (y que corresponde a un valor grande de z o t), es decir una diferencia estadísticamente significativa: 1º Nos da más seguridad para afirmar esta diferencia; para extrapolar estos resultados a la población: con muestras semejantes hubiéramos obtenido una diferencia distinta de cero; 2º Pero, como acabamos de indicar, no probamos que entre otros pares de muestras semejantes obtendríamos necesariamente una diferencia de magnitud semejante. 3º Un valor grande de z o t no quiere decir que la diferencia entre las muestras sea grande; la magnitud de la diferencia y su valoración es algo distinto. Una diferencia muy significativa (ese muy tan frecuente se presta a interpretaciones equívocas y es preferible evitarlo) no es sinónimo de diferencia grande o importante; esto nos lo dirá la magnitud del efecto (o magnitud de la diferencia expresada en términos cuantitativamente más fácilmente interpretables, y que veremos después) y otras consideraciones de carácter más cualitativo que nos permitirán valorar esa magnitud de la diferencia. 4º Si no aceptamos la Hipótesis Nula (el azar o el error muestral como explicación de la diferencia) podremos aceptar la Hipótesis Alterna, es decir, podemos afirmar que la diferencia es muy improbable en el caso de que las muestras procedan de la misma población con idéntica media, pero, y esto es importante, una cosa es afirmar la diferencia (y hasta ahí hemos llegado) y otra distinta es que esté claro el por qué de la diferencia. Conviene estudiar o recordar todo lo referente a los diseños o planteamientos de investigación. El que una diferencia sea estadísticamente significativa no prueba sin más, por ejemplo, que en un colegio se enseña mejor
267
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
que en otro (los alumnos de un colegio, o de una universidad, pueden ir ya mejor preparados…), o que un método sea mejor que otro (puede ser que quien sea mejor es el profesor, con cualquier método…). Con un buen diseño de investigación lo que pretendemos es excluir otras explicaciones. 4.5.2. Cuando aceptamos la Hipótesis Nula Aceptar (o no rechazar) la Hipótesis Nula es lo mismo que aceptar que la diferencia es normal, que está dentro de lo aleatorio: en comparaciones semejantes podemos encontrarnos con una diferencia de cero. Hay dos puntos en los que conviene insistir y que son aplicables cuando aceptamos (o con más propiedad no rechazamos) la Hipótesis Nula de no diferencia: 1º Una cosa es “no probar” que hay una diferencia (como sucede cuan do no rechazamos la Hipótesis Nula) y otra distinta es “probar que no” hay diferencia. En este punto es fácil hacer interpretaciones erróneas. Lo veremos con facilidad con un ejemplo. Vamos a suponer que tenemos la hipótesis (alter na) de que a los italianos les gusta más la ópera que a los españoles ( o sin hipótesis for muladas formalmente queremos verificar si existe alguna diferencia). Responden a una escala de actitudes hacia la ópera una muestra de 10 italianos y otra de 10 españoles (igualados en nivel socio-cultural y económico). Encontramos que la diferencia favorece a los italianos pero no es estadísticamente significativa (está dentro de lo normal ): • ¿Hemos probado que hay diferencia? (es decir, ¿podemos extrapolar el hecho de la diferencia a la población general representada por esas muestras?) La respuesta es no; no hemos probado que a los italianos les gusta la ópera más que a los españoles. • ¿Hemos probado que no hay diferencia? Tampoco. Es muy posible que la diferencia, si la hay, quede clara con muestras mayores. Con muestras grandes es muy fácil no aceptar la Hipótesis Nula de no di ferencia, por eso siempre (y más con muestras pequeñas) interesa verificar si el signo de la diferencia favorece a nuestra hipótesis, porque con muestras mayores es muy posible que dejemos las cosas claras. 2º Una diferencia que no es estadísticamente significativa puede ser importante. Pensemos en un método de enseñanza o en un tipo de terapia aplicado a muy pocos sujetos. Podemos comparar nuestro grupo experimental (partici-
268
EL CONTRASTE DE MEDIAS
pan en el método, en la terapia), con otro grupo que nos sirve de comparación (grupo de control o de contraste)5 para verificar si el método o la terapia son eficaces. A simple vista podemos observar que el método sí es eficaz, vemos el cambio en los sujetos, etc., pero al hacer la comparación podemos comprobar que la diferencia está dentro de lo aleatorio y no rechazamos la Hipótesis Nula. Esto puede suceder, y sucede con frecuencia, con muestras pequeñas. En estos casos: 1º nos abstendremos de extrapolar el hecho de la diferencia, pero 2º si la diferencia es grande (y a favor de nuestro grupo experimental) podemos pensar que algo importante está pasando aquí con estos sujetos. De ahí la importancia de disponer de un método que nos permita apreciar cuándo una diferencia es grande (y lo veremos después). Posiblemente aumentando el tamaño de la muestra (o acumulando pequeñas muestras) podremos rechazar (no aceptar) la Hipótesis Nula. 4.5.3. Tipos de errores Con respecto a la Hipótesis Nula podemos cometer dos tipos de errores objetivos: 1. Error tipo I: podemos no aceptar la Hipótesis Nula (y aceptar la diferencia entre las medias) cuando en realidad la Hipótesis Nula es verdadera (y esa diferencia está dentro de lo normal…). Este posible error objetivo lo controlamos con los niveles de con fianza; un nivel de confianza de a = .05 (un 5% de probabilidades de equivocarnos al afirmar la diferencia) se acepta como suficientemente seguro. 2. Error tipo II: podemos aceptar la Hipótesis Nula (y no afirmamos la diferencia) cuando en realidad la Hipótesis Nula es falsa (y sí hay diferencia). Se trata de un error que no solemos controlar. Las probabilidades de cometer este error en el contraste de medias son muy altas pero se pueden minimizar utilizando un número grande de sujetos. Con muchos sujetos se detectan con más facilidad las diferencias entre grupos, incluso las diferencias pequeñas (las diferencias gran des se detectan con facilidad comparando muestras pequeñas). En términos más propios cuando hablamos de grupo de control estamos suponiendo que los sujetos han sido asignados aleatoriamente a los dos grupos, experimental y de control; cuando esto no es así (como no suele serlo en muchas comparaciones porque trabajamos con grupos hechos) es preferible denominar al grupo que nos sirve como término de comparación grupo de contraste. 5
269
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Los dos tipos de errores están resumidos en la figura 6. Figura 6
En principio se pretende minimizar el error tipo I (como es afirmar la diferencia cuando realmente no la hay) y por eso se insiste en los niveles de con fianza: es más seguro (es la postura más conservadora ) decir no hay diferencia cuando realmente sí la hay, que decir sí hay diferencia cuando realmente no la hay. Una sencilla analogía nos puede ayudar a entender la importancia relati va de estos dos errores: en un juicio un error puede ser condenar a un ver dadero inocente y otro error puede ser absolver a un verdadero culpable (figura 7)6. Figura 7
Esta analogía está inspirada en la película doce hombres sin piedad, en la que un jurado tiene que decidir por unanimidad sobre la inocencia (por falta de pruebas) o la culpabilidad de un presunto culpable. 6
270
EL CONTRASTE DE MEDIAS
Siempre interesa tomar la decisión correcta, pero el error más grave y que se pretende minimizar es el error Tipo I; volviendo al contraste de medias es preferible y más seguro concluir la diferencia no está probada (aunque en la realidad sí se dé la diferencia) que concluir la diferencia está probada cuando realmente no existe esa diferencia. Con niveles de significación más estrictos (.01, .001) aumentan las probabilidades de cometer el error tipo II (en general se estima que a = .05 es un nivel de significación razonable). El error objetivo Tipo II es más fácil que suceda con muestras pequeñas. 4.6. Observaciones sobre el contraste de medias: limitaciones y requisitos previos 4.6.1. Presupuestos teóricos para poder utilizar el contraste de medias El modelo teórico que utilizamos en el contraste de medias supone determinados presupuestos teóricos como son la homogeneidad de varianzas en las muestras y distribución normal en la población; sin embargo está suficientemente demostrado que las denominadas pruebas paramétricas (como la t de Student y el análisis de varianza) permiten rechazar la Hipótesis Nula (hipótesis de no diferencia) cuando es falsa, aunque se violen los presupuestos del modelo teórico, excepto cuando se dan a la vez estas circunstancias: 1º Muestras más bien pequeñas (a partir de N < 20 suelen considerarse pequeñas, aunque estos límites son arbitrarios), 2º Muestras de tamaño muy desigual (como cuando una muestra es tres veces mayor que la otra), 3º Muestras con varianzas muy desiguales (algún autor pone el límite de que una varianza sea más de 10 veces mayor que la otra… con muestras grandes las varianzas muy desiguales importan menos; aun así la homogeneidad de varianzas es el presupuesto más importante). En estos casos al menos (cuando se dan simultáneamente dos o tres de las circunstancias mencionadas) son preferibles los métodos no paramétricos para datos ordinales (alternativas a la t de Student; la U de Mann-Whitney para muestras independientes y la T de W ilcoxon para muestras relacionadas). La homogeneidad de varianzas es el presupuesto más importante; aun así el que las varianzas sean distintas importa menos si las muestras son de idéntico o parecido tamaño y en contrastes bilaterales (que son los habituales)7. Cuando se hace un contraste de medias con el SPSS el programa verifica el presupuesto de la homogeneidad de varianzas, y da las probabilidades asumiendo y sin asumir la igualdad de varianzas; en general las diferencias no son muy apreciables. Sobre estos supuestos previos y sobre el requisito de disponer de una unidad de intervalo pueden verse más citas y comentarios en Morales (2006, Cap. 1). 7
271
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Los modelos teóricos suponen que las muestras son aleatorias (y por lo tanto representativas de la población) y esto no sucede con frecuencia porque se trata de grupos hechos, sin que los sujetos hayan sido escogidos aleatoriamente de una población mayor; en estos casos tenemos que pensar en la población que pueda estar representada por esas muestras concretas. 4.6.2. ¿Es suficiente verificar si una diferencia es estadísticamente significativa? Podemos pensar que el limitarse a aceptar o rechazar la Hipótesis Nula (de no diferencia) es poco informativo, porque la diferencia puede ser significativa y pequeña o no ser significativa por falta de sujetos o no ser significativa y a la vez grande (frecuente con pocos sujetos) … En buena medida así es, limitarse a afirmar que una diferencia es (o no es) estadísticamente significativa es poco e incompleto a pesar de la práctica más habitual en investigación, de ahí la necesidad de los cálculos complementarios, sobre la magnitud de la diferencias, que trataremos más delante. Es aquí donde se pone ahora el énfasis. 4.6.3. Cuando tenemos más de dos muestras en el mismo plantea miento: análisis de varianza Con las fórmulas del contraste de medias ( t de Student ) podemos comparar medias de dos en dos; pero cuando en el mismo planteamiento hay más de dos muestras tenemos que acudir a otros procedimientos (análisis de varianza). No se pueden comparar las diversas muestras de dos en dos porque en este caso las probabilidades de error al rechazar la Hipótesis Nula son más de las que indican las tablas (como queda explicado al tratar del análisis de varianza; aquí basta con advertir que no se debe utilizar la t de Student cuando hay más de dos muestras) 8. Cuando tenemos sólo dos grupos pero vamos a compararlos en muchas variables o rasgos también puede suceder que algún contraste estadísticamente significativo realmente se deba a factores aleatorios (la probabilidad de error es pequeña, pero no podemos tener una absoluta seguridad). En estos casos algunos autores recomiendan los llamados contrastes de Bonferroni (la publicación de Carlo Emilio Bonferroni es de 1936), por eso no sobra una nota aclaratoria. En estos contrastes se utiliza la misma t de Student pero con un nivel de confianza más estricto: se utiliza la probabilidad (p) que expresa nuestro nivel de confianza dividida por el número de comparaciones previstas, así si nuestro nivel de confianza es .05 y tenemos tres comparaciones previstas utilizaremos como nivel de confianza .05/3 = .0167. También si conocemos la probabilidad exacta (p) podemos multiplicarla por el número de contrastes para ver si llega a .05 (así si tenemos tres contrastes y p = .0167 tendremos p = (.0167)(3) = .05). La crítica hecha a este contraste es que es muy conserva dor; tiene poca potencia para rechazar la Hipótesis Nula cuando realmente es falsa (por 8
272
EL CONTRASTE DE MEDIAS
4.7. Fórmulas del contraste de medias9 La fórmula básica es la fórmula [1] ya vista antes: una diferencia entre dos medias dividida por el error típico de las diferencias:
Nos falta conocer el valor del denominador ( es solamente un símbolo). La fórmula general del denominador de la fórmula [1] (error típico de la diferencia entre medias) es:
Como el error típico de la media es siempre se puede expresar así:
la fórmula [2]
Estamos suponiendo que habitualmente calculamos la s de la muestra di vidiendo por N-1; si la hubiéramos calculado dividiendo por N, en los denominadores tendríamos N y no N-1 10. ejemplo y entre otros, Hancock y Klockars, 1996). Una crítica bien razonada a los ajustes de Bonferroni puede verse en Perneger (1998): this paper advances the view, widely held by epidemiologists, that Bonferroni adjustments are, at best, unnecessary and, at worst, deleterious to sound statistical inference… The main weakness is that the interpretation of a finding depends on the number of other tests performed …The likelihood of type II errors is also increased, so that truly important differences are deemed non-significant… Bonferroni adjustments imply that a given comparison will be interpreted differently according to how many other tests were performed. También se proponen estos niveles de confianza más estrictos cuando tenemos muchos coeficientes de cor relación, pero la crítica que puede hacerse es la misma 9 Podemos llevar a cabo un contraste de medias, sin necesidad de conocer las fórmulas, con programas como EXCEL o SPSS, y también con los programas que podemos encontrar en Internet (anexo 4); sin embargo debemos entender qué estamos haciendo. 10 En los programas estadísticos (como el SPSS) lo normal es utilizar la desviación típica de la población (dividiendo por N-1; con muestras relativamente grandes la diferencia entre dividir por N o N-1 puede ser irrelevante).
273
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Es útil conocer de dónde viene esta fórmula [2] (o [3]; es la misma). La varianza de un compuesto, por ejemplo la varianza de la suma de los tests 1 y 2, no es igual a la varianza del test 1 más la varianza del test 2, sino ésta otra:
Podemos ver el parecido de esta expresión con el cuadrado de un binomio (de eso se trata):
Si no se trata de un compuesto (o suma ), sino de una diferencia, sabemos que (a-b)2 =a2+b2 -2ab. Éste es nuestro caso: no se trata del cuadrado de una suma (a+b), sino del cuadrado de una diferencia (a-b), de ahí el signo menos en el denominador de las fórmulas [2] y [3]. Lo que tenemos en esta fórmula (del error típico o desviación típica de las diferencias entre medias de muestras de la misma población) es la suma de los dos errores típicos de las medias menos dos veces su covarianza (recordemos que r 12s1s2 es la fórmula de la covarianza). Este denominador [2] no lo utilizaremos habitualmente. Si se trata de muestras independientes (sujetos distintos) el valor de la correlación que aparece en la fórmula es cero, con lo que el denominador queda muy simplificado. El denominador [2] es válido cuando de trata de comparar medias de muestras relacionadas (los mismos sujetos medidos antes y después en el caso más frecuente), pero aun en este caso tenemos un procedimiento alternativo más sencillo en el que no tenemos que calcular la correlación, como veremos más adelante. En el apartado siguiente están todas las fórmulas necesarias para el contraste de medias. Aunque habitualmente utilicemos programas informáticos no siempre es así y en cualquier caso las fórmulas nos ayudan a entender lo que estamos haciendo. 4.7.1. Diferencia entre la media de una muestra y la media de una población En este caso conocemos todos los datos de la muestra (número de sujetos, media y desviación); de la población conocemos solamente la media (que puede ser una media hipotética, o deducida de otros estudios, etc.).
274
EL CONTRASTE DE MEDIAS
t = Valor de la t de Student (o z cuando se utilizan muestras grandes); también se utiliza el símbolo más genérico de R.C. (Razón Crítica); con muestras pequeñas se utilizan las tablas de la t de Student El denominador es el error m = media de la población típico de la media de la – X = (media) s (desviación típica) y N (númemuestra ro de sujetos o tamaño de la muestra) son los datos de la muestra; En el numerador de todas estas fórmulas tenemos siempre una diferencia entre medias menos cero; naturalmente este menos cero se puede omitir porque no va a alterar el resultado, sin embargo es preferible ponerlo porque recordamos lo que estamos haciendo: comparar una diferencia entre dos medias con una diferencia media de cero. Otra manera de abordar el mismo planteamiento es calcular los intervalos de confianza de la media. Ya vimos en el capítulo anterior (sobre el error tí pico de la media, apartado 4.3) que a partir de los datos de una muestra podemos conocer entre qué límites probables se encuentra la media de la población representada por esa muestra. Si queremos comprobar si existe una diferencia estadísticamente significativa entre la media de una muestra y la media de una población ( m ), nos basta calcular los intervalos de confianza de la media de la muestra y ver si la media de la población se encuentra comprendida entre esos intervalos. 4.7.2. Diferencia entre dos medias de muestras independientes (sujetos físicamente distintos) 1º Muestras grandes y de distinto tamaño Como en todas estas fórmulas, si las des viaciones están calculadas dividiendo por N-1, ahora el denominador será N. Es práctica común el considerar una muestra grande cuando pasa de 30 sujetos aunque este criterio es un tanto arbitrario; más seguro es poner el límite en torno a los 50 sujetos, o considerar que la muestra es pequeña siempre que se puedan consultar las tablas de la t de Student .
275
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La interpretación, cuando se trata de muestras grandes, se hace consultando las tablas de la distribución normal (o en programas de Internet, anexo 4), con grados de libertad igual a N 1+N2-2. Como por lo general los niveles de confianza que utilizamos son .05, .01 y .001, no necesitamos acudir a las tablas, pues ya conocemos los valores de referencia para muestras grandes: Los valores de z utilizados habitualmente con muestras grandes son: Si z es mayor que La probabilidad de que la diferencia sea aleatoria es inferior a
1.96 2.57 .05
.01
3.30 .001
2º Muestras pequeñas y de distinto tamaño Esta fórmula puede utilizarse con muestras de cualquier tamaño; La interpretación se hace consultando las tablas de la t de Student, con grados de libertad igual a N 1+N2- 2 Cuando se van a hacer muchos contrastes de medias con el mismo par de muestras, y por lo tanto los valores de N van a ser constantes, es más cómodo y rápido transformar la fórmula [6] en ésta otra [7]:
De esta manera la primera parte del denominador se convierte en una constante que basta calcular una sola vez. 3º Diferencia entre dos medias de muestras independientes (grandes o pequeñas) y de idéntico tamaño Cuando las muestras son de idéntico tamaño (N = N) las fórmulas anteriores quedan muy simplificadas (se trata de la fórmula [5] simplificada porque los denominadores son idénticos):
276
EL CONTRASTE DE MEDIAS
En este caso N1 = N2 = N, que es el número de sujetos en cada grupo; los grados de libertad son como en los casos anteriores: N 1+ N2 -2 (número total de sujetos, restando un sujeto a cada grupo). Esta fórmula es válida tanto para muestras grandes como pequeñas; con muestras pequeñas se consultan las tablas de la t de Student. 4.7.3. Diferencia entre medias de muestras relacionadas (comprobación de un cambio) Tenemos muestras relacionadas cuando los sujetos son los mismos, y de cada sujeto tenemos dos datos en la misma variable; son dos muestras de datos procedentes de los mismos sujetos. En la situación más frecuentemente estos datos los obtenemos en la misma variable antes y después de alguna experiencia o proceso y se desea comprobar si ha habido un cambio11. Cuando se dispone de una calculadora estadística (con la media y la des viación típica programadas), lo más sencillo es calcular para cada sujeto su puntuación diferencial (diferencia entre las dos puntuaciones, entre antes y después ) y aplicar esta fórmula: El término muestras relacionadas (y las fórmulas correspondientes) también se aplica cuando tenemos sujetos distintos pero igualados en variables importantes, tal como se estudia en el contexto de los diseños experimentales; en estos caso tenemos una muestra de parejas de sujetos. – X D = Media de las diferencias, s2D = Varianza de las diferencias, N = número de sujetos o de pares de puntuaciones; los grados de libertad son N-1. También se puede utilizar el denominador puesto en la fórmula [2] o [3], y así aparece en muchos textos, pero el utilizar la fórmula [9] es un método más claro y sencillo. Aunque si no hay un grupo de control o de contraste (término de comparación) esta comprobación de un cambio puede ser cuestionable; conviene estudiar cuál debe ser el diseño apropiado en estos casos. Otros métodos para verificar un cambio los tenemos en el capítulo siguiente, la prueba de los signos (nº 8.2.3) y la prueba de McNemar (nº 10.2); también tenemos la prueba no paramétrica de la T de Wilcoxon que no tratamos aquí. 11
277
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Podemos observar la semejanza de esta fórmula [9] con la fórmula [4]. En realidad se trata del mismo planteamiento: comparar la media en cambio de una muestra, con la media m = 0 de una población que no hubiera cambiado nada. Los grados de libertad son N-1 o número de pares de observaciones menos uno (es decir, N = número de sujetos, pues cada uno tiene dos puntuaciones). Con muestras grandes se consultan las tablas de la distribución normal, y con muestras pequeñas las de la t de Student. Podemos ver la aplicación de esta fórmula [9] con un ejemplo ficticio. Cuatro sujetos han respondido a una pregunta (respuestas de 1 a 6) antes y después de una experiencia. Antes 2 3 4 5 Media 3.5 s 1.118
Después
Diferencia
4 3 5 6 4.5 1.118
4-2 = 2 3-3 = 0 5-4 = 1 6-5 = 1 1.0 .707
Utilizando la media y desviación en cambio (después menos antes) y aplicando la fórmula 12, tendremos:
La correlación entre antes y después es r = .80; si utilizamos el denominador de la fórmula [3] tendríamos:
El resultado es el mismo, pero es claro que en este caso ( muestras relacionadas ) es preferible utilizar la fórmula [9]. 4.8. Variables que influyen en el valor de t (o z) Los valores máximos y mínimos que solemos encontrar en las puntuaciones típicas (y en la t de Student que es una puntuación típica, la puntuación típica de una diferencia) suelen oscilar (pueden ser mucho mayores) entre –3 y +3; lo que queda fuera de ±1.96 lo consideramos ya atípico, poco probable (sólo en el 5% de los casos se supera por azar un valor de ±1.96). Sin embargo al calcular la t de Student nos encontramos con frecuencia con valores muy altos, sobre todo cuando el número de sujetos es muy grande.
278
EL CONTRASTE DE MEDIAS
¿Qué factores influyen en que encontremos una t de Student grande o simplemente estadísticamente significativa? Este punto es sencillo e importante porque nos facilita la interpretación de nuestros resultados e incluso proponer nuevas hipótesis… Observamos la fórmula general [5] (para muestras grandes e independientes y de tamaño distinto):
El cociente aumentará si aumenta el numerador (si la diferencia es grande), pero también aumentará, aunque el numerador sea pequeño (diferencia cuantitativamente pequeña) si disminuye el denominador … ¿Qué factores influyen en que disminuya el denominador y que por lo tanto el cociente sea mayor? En el denominador tenemos otro quebrado: a) El cociente disminuirá si disminuye el numerador (la varianza de los grupos). A mayor homogeneidad en los gr upos (menor varianza), la diferencia será significativa con más probabilidad. Esto es además conceptualmente razonable: no es lo mismo una diferencia determinada entre dos grupos muy heterogéneos (mucha diversidad dentro de cada grupo) que entre dos grupos muy uniformes… Una diferencia entre las medias de dos grupos muy heterogéneos puede variar si tomamos otras dos muestras igualmente muy heterogéneas, pero si la diferencia procede de dos muestras con sujetos muy parecidos, con pequeñas diferencias entre sí, hay más seguridad en que se mantenga la diferencia entre otros pares semejantes de grupos. b) El cociente disminuirá si aumenta el denominador del denominador, que es el número de sujetos. Con muestras grandes es más fácil encontrar diferencias significativas. ¿Qué podemos decir sobre el hecho de que aumentando el número de sujetos encontramos fácilmente diferencias estadísticamente significativas? ¿Que con un número grande de sujetos podemos demostrar casi lo que queramos…? 1º En parte sí; con números grandes encontramos con facilidad diferencias significativas. Pero esto no tiene que sorprendernos porque de hecho hay muchas diferencias entre gr upos que se detectan con más facilidad cuando los grupos son muy numerosos. En la vida real la Hipótesis Nula ( m1 = m2 ) suele ser falsa y cuando no la rechazamos suele ser por falta de sujetos.
279
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
2º Estas diferencias significativas que descubrimos, sobre todo con muestras grandes, son con frecuencia diferencias pequeñas y a veces triviales. Una diferencia estadísticamente significativa no es una diferencia necesariamente grande o relevante. 3º Disponer de un número grande de sujetos es como mirar de cerca: vemos incluso las cosas pequeñas. Disponer de un número pequeño de sujetos es como mirar de lejos: sólo vemos las cosas grandes. Diferencias grandes y obvias las descubrimos con pocos sujetos. Con muchos sujetos (si miramos de cerca) descubrimos muchas diferencias entre grupos que pueden no tener mayor importancia. 4º Una diferencia no significativa, sobre todo si es grande y con muestras pequeñas, puede ser importante en una situación dada (aunque no se pueda extrapolar, puede decir algo relevante de la situación analizada o permite establecer como hipótesis que con muestras mayores sí podríamos encontrar una diferencia estadísticamente significativa). ¿Qué hacer entonces? a) Por lo menos deberíamos utilizar siempre las expresiones apropiadas y no hablar simplemente de diferencias significativas, sino de diferencias ‘estadísticamente’ significativas. El adverbio estadísticamente ya expresa los límites de nuestras conclusiones. También se debe evitar la expresión diferencia ‘muy’ significativa, porque ese muy invita a pensar en diferencias grandes o relevantes: a mayor valor de z o t tenemos más seguridad, menos probabilidad de error al afirmar la diferencia (que la diferencia no es cero), pero sin referencia directa a la magnitud o a la relevancia de esa diferencia. Por otra parte esa mayor seguridad es con frecuencia irrelevante pues ya ponemos el umbral de la seguridad ( nivel de confianza ) suficientemente alto. b) Muchas veces nos bastará con saber si hay o no hay una diferencia esta dísticamente significativa entre dos grupos, es decir, si difieren más de lo que podemos esperar casualmente entre muestras de la misma población y podemos extrapolar el hecho de la diferencia ( una diferencia distinta de cero ) a otros pares de muestras semejantes. Muchos planteamientos de investigación se quedan aquí (y por eso con frecuencia se quedan cortos; no se aprovechan bien los datos disponibles). c) Aun en estos casos un valor significativo de t ( una diferencia estadísticamente significativa ) no debemos asumirla ingenuamente como un criterio de cer teza. Tenemos que considerar a qué poblaciones pueden representar esas muestras para no hacer extrapolaciones poco prudentes; con frecuencia no son muestras aleatorias (porque se trata de grupos hechos, son las muestras que están disponibles). La interpretación
280
EL CONTRASTE DE MEDIAS
mínima prudente es concluir que la diferencia entre estos dos grupos es muy poco probable que se deba al azar. d) Como criterio general no debemos limitarnos a comprobar si una diferencia es o no es estadísticamente significativa. Es lo más frecuente, pero no es una buena práctica. Además debemos buscar un dato más claro sobre cuál es la magnitud de la diferencia, para poder interpretarla y valorarla como grande, moderada, pequeña… y poder juzgar mejor sobre su relevancia. Para poder valorar la magnitud de la diferencia tenemos el cálculo del tamaño del efecto que nos cuantifica la magnitud de la diferencia en valores fácilmente interpretables. Además se expresa en unos valores que nos per miten comparar unas diferencias con otras aunque provengan de instr umentos distintos y de escalas métricas distintas. Disponemos además de criterios para valorar su magnitud. Todo lo referido a la magnitud de la diferencia (tamaño del efecto) lo exponemos en al apartado siguiente (nº 6) sobre análisis complementarios. 5. CONTRASTE ENTRE PROPORCIONES ( MUESTRAS INDEPENDIENTES ) El contraste entre proporciones (o porcentajes multiplicando por 100) es un caso particular del contraste entre medias; en este caso la media oscilará entre 0 y 1. Introducimos el contraste entre proporciones con un ejemplo. Dos grupos distintos responden sí o no a la misma pregunta: Grupo A
Grupo B
65 (81%) 15 (19%)
52 (58%) 38 (42%)
117 53
(69%) (31%)
Total de sujetos en cada grupo: 80 (100%) 90 (100%)
170
(100%)
Responden sí: Responden no
uniendo ambos grupos
La pregunta que nos hacemos es ésta: la diferencia en responder sí entre estos dos grupos (entre el 81% del grupo A y el 58% del grupo B) ¿Es mayor de lo que podríamos esperar por azar? ¿Existe una diferencia estadísticamente significativa entre los dos porcentajes? Para comparar proporciones tanto entre muestras independientes como entre muestras relacionadas, posiblemente el procedimiento más utilizado es la prueba del ji cuadrado 12 , que por otra parte es muy sencillo. Con ambos procedimientos se llega a las mismas conclusiones. Tratando del contraste de medias es oportuno ver también cómo se aplica al contraste de proporciones. 12
La prueba del ji cuadrado la tratamos en el capítulo siguiente.
281
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Aunque los resultados los expresemos frecuentemente en porcentajes (%), los cálculos se hacen con proporciones. El procedimiento es análogo al del contraste de medias: dividimos una diferencia entre proporciones por el error típico de la diferencia entre dos proporciones, que está en el denominador de la fórmula [10]. En rigor lo que tenemos en el numerador no es la diferencia entre dos proporciones, sino la diferencia entre una diferencia (la nuestra) y una diferencia de cero. En la fórmula [10] tenemos en el denominador el error típico de la diferencia entre dos proporciones 13.
Y aplicando la fórmula [10] a nuestros datos:
La probabilidad de que la diferencia sea aleatoria es casi del 1 por mil. 6. A NÁLISIS COMPLEMENTARIOS AL CONTRASTE DE MEDIAS : CÓMO CUANTIFICAR LA MAGNITUD DE LA DIFERENCIA
6.1. Finalidad del tamaño del efecto Para obviar las limitaciones del mero contraste de medias, se ha ido imponiendo el cálculo del denominado tamaño del efecto ( effect size en inglés). En muchos textos la fórmula aducida para el contraste de proporciones independientes es la misma fórmula vista para el contraste de medias (fórmula [5]), con la salvedad de que se utiliza pq para expresar las varianzas de los dos grupos (p 1q1 y p2q2 en vez de esta fórmula es correcta cuando p y q tienen valores parecidos; cuando los valores de p o q son muy extremos, y siempre en general, la fórmula preferible es la puesta aquí (en Downie y Heath, 1971, puede verse una explicación más amplia); además es utilizando esta fórmula cuando la equivalencia con el ji cuadrado (tablas 2x2) es exacta (z 2 = c2 ). Este contraste de proporciones y procedimientos alternativos ( ji cuadrado ) puede verse también en el capítulo IX. 13
282
EL CONTRASTE DE MEDIAS
La expresión es quizás poco afortunada; el término tamaño ya expresa que se trata de cuantificar una diferencia; del efecto se refiere al resultado de un tratamiento experimental o consecuencia de una determinada variable independiente, pero estos términos se utilizan también en los casos en los que hay un simple contraste de medias, sin un diseño experimental propiamente dicho14. Como ya hemos indicado anteriormente, al comparar dos medias nos hacemos dos preguntas: 1ª ¿Podemos afirmar que la diferencia encontrada entre dos muestras es extrapolable a las poblaciones representadas por esas muestras? A esta pregunta respondemos con el contraste de medias habitual (t de Student). 2ª ¿Cuáles la magnitud de la diferencia? ¿Grande, pequeña…? La magnitud nos servirá además para juzgar sobre la relevancia de la diferencia. La información que nos da el tamaño del efecto nos ayuda a responder a esta segunda pregunta. Cuando se trata de una diferencia entre proporciones, las diferencias posibles oscilan entre 0 y 1; en este caso no hay mayor problema tanto para apreciar la magnitud de la diferencia como para comparar unas diferencias con otras, pero esta comparación directa no es posible cuando las escalas métricas utilizadas son distintas. 6.2. Procedimientos en el cálculo del tamaño del efecto Los procedimientos más utilizados (hay otros) son dos (que a su vez admiten variantes): 1º El cálculo de coeficientes de correlación (que como todo coeficiente de correlación cuantifican de 0 a 1 los resultados); 2º Una diferencia tipificada, que es lo que con más propiedad, o al menos más habitualmente, se denomina tamaño del efecto. 6.2.1. El coeficiente de correlación biserial- puntual Una manera de cuantificar la magnitud de la diferencia en términos más interpretables consiste en convertir el valor de t en un coeficiente de correlación biserial-puntual (r bp ) en el que una variable es dicotómica (perteEl cálculo del tamaño del efecto lo exige ya la política editorial de buenas revistas (como Educational and Psychological Measurement, Thompson, 1996, y muchas otras como Journal of Experimental Education y Journal of Applied Psychology, Hubbard y Ryan, 2000; Huberty (2002) menciona 19 revistas en las que se exige presentar el tamaño del efecto ) y figura en las orientaciones (guidelines) de la American Psychological Association (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs , 1999, American Psychological Association, 2001). 14
283
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
necer a uno u otro grupo, 1 ó 0), y la otra variable es continua (la utilizada al comparar las medias). Estos coeficientes son semejantes al coeficiente de correlación de Pearson (r) y se interpretan de manera semejante; el término bi serial-puntual indica que una de las dos variables es dicotómica. La conversión del valor de t en un coeficiente de correlación se hace mediante esta fórmula:
Si los grupos son de idéntico tamaño, tendríamos el mismo resultado si calculáramos directamente la correlación entre pertenecer a uno u otro grupo (1 ó 0) y la puntuación de cada sujeto en la variable dependiente (la que hemos medido). Podemos verlo con ejemplo sencillo: tenemos estas dos muestras de cuatro sujetos cada una y calculamos la t de Student para contrastar las medias: grupo A 9 9 7 8 – X = 8.25 s = .83
Calculamos la t de Student:
grupo B 5 9 6 6 6.50 1.5
Podemos pensar ahora en términos de correlación entre la variable que hemos medido (X) y el pertenecer o no a uno de los grupos (Y): per tenecer al grupo A = 1 y B (no pertenecer al grupo A) = 0 Disponemos los datos de la manera usual (dos columnas, x e y):
X 9 9 7 8 5 9 6 6
Y 1 1 1 1 0 0 0 0
284
EL CONTRASTE DE MEDIAS
Si calculamos la correlación (que denominamos biserial-puntual porque una de las dos variables es dicotómica) tenemos que r = .585 Ahora calculamos el mismo coeficiente a partir del valor de t, fórmula [11]: ; hemos llegado al mismo resultado
Un mismo valor de t va a equivaler a coeficientes de correlación más bajos según aumente el número de sujetos (aumentará el denominador y disminuirá el cociente). Podemos verlo en este ejemplo (tabla 1) en que se mantiene constante el valor de t (en todos los casos p < .01) y se van variando los grados de libertad (número de sujetos). Tabla 1
N1
N2
gl
t
rbp
20 50 100 500
20 50 100 500
38 98 198 998
3.60 3.60 3.60 3.60
.50 .34 .25 .11
r .25 .12 .06 .01
A este coeficiente de correlación también se le denomina genéricamente tamaño del efecto, aunque la expresión tamaño del efecto se suele reservar para la diferencia tipificada que veremos después. Algunos autores, para distinguir ambos cálculos, denominan a esta correlación magnitud del efecto. La finalidad y utilidad de este coeficiente de correlación es clara: 1º Es un dato sobre la magnitud y no sobre si una diferencia es simplemente estadísticamente significativa o no (si es o no es extrapolable a la población el hecho de una diferencia distinta de cero). 2º Dos valores de t obtenidos en pares de muestras de tamaño distinto, o en variables distintas, no son fácilmente comparables entre sí; en cambio esta conversión nos traduce el resultado (una diferencia) a términos comparables y más fácilmente interpretables. Los juicios sobre si una diferencia es o no es relevante, de importancia práctica, etc., no dependen solamente de que sea estadísticamente significativa (a veces nos puede bastar con eso), sino también de que sea grande o peque-
285
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
ña…; incluso una diferencia no estadísticamente significativa puede ser importante en una situación dada si es grande. Cuando nos planteamos un contraste de medias podemos plantearnos como análisis alternativo el simple cálculo de la correlación entre la pertenencia a un grupo u otro (1 ó 0) y la variable dependiente; por lo que respecta a rechazar o no la Hipótesis Nula, las conclusiones van a ser las mismas. 6.2.2. Tamaño del efecto (diferencia tipificada) 6.2.2.1. Concepto y fórmula general El cálculo más frecuente para cuantificar la diferencia entre dos medias y apreciar mejor su magnitud lo tenemos expresado por la fórmula general (admite variantes que veremos después)15: Tamaño del efecto (muestras independientes):
[12]
Los símbolos para expresar el tamaño del efecto varían según las fórmulas utilizadas para calcular la desviación típica del denominador; en la fórmula [12] utilizamos el símbolo d porque corresponde a una de las fórmulas más utilizadas (de Cohen). Con frecuencia se utiliza d como símbolo genérico del tamaño del efecto, pero hay otros símbolos que iremos viendo (como g y D ) y que corresponden a otras fórmulas; a veces se utiliza ES (del inglés Effect Size). Aunque la desviación típica del denominador se puede calcular de diversas maneras (a partir de las desviaciones típicas que ya conocemos en las muestras) es en todo caso una estimación de la desviación típica de la población común a ambos grupos. Lo que es importante ahora es captar que el tamaño del efecto es una diferencia tipificada: una diferencia entre dos me dias dividida por una desviación típica. Viene a ser lo mismo que una puntuación típica (z) (como podemos ver por la fórmula [12]), por lo que su interpretación es sencilla y muy útil. Antes de ver las fórmulas específicas de la desviación típica del denominador, es de especial interés entender las interpretaciones y usos del tamaño del efecto, que se derivan del hecho de que se puede interpretar como una Una presentación completa del tamaño del efecto en Coe (2000) (en Internet); también se encuentra ampliado en Morales (2007c, El tamaño del efecto (effect size): análi sis complementarios al contraste de medias ). 15
286
EL CONTRASTE DE MEDIAS
puntación típica (realmente es una diferencia expresada en desviaciones típicas). 6.2.2.2. Interpretación y utilidad del tamaño del efecto (diferencia tipificada) Antes de exponer los diversos modos de hallar la desviación típica del denominador podemos aclarar cómo se interpreta este tamaño del efecto y cuál es su utilidad. 1º Comparación de diferencias que provienen de medidas obtenidas con instrumentos distintos Lo que obtenemos mediante estas fórmulas es una diferencia tipificada: nos dice a cuántas desviaciones típicas equivale la diferencia entre dos medias. La primera consecuencia que se deriva de esta transformación es que el valor de este tamaño o magnitud es independiente de las puntuaciones originales; todas las diferencias quedan expresadas en el mismo sistema de unidades y por lo tanto estos valores son comparables entre sí aun cuando vengan de estudios distintos e incluso aunque se hayan utilizado instrumentos distintos. Es lo mismo que sucede con las puntuaciones típicas convencionales: vengan de donde vengan sus magnitudes son comparables entre sí. Si, por ejemplo, hemos comparado dos grupos en autoestima utilizando en una ocasión una escala con 4 respuestas, y en otra ocasión, con otros dos grupos, hemos hecho la misma comparación utilizando una escala con 6 respuestas o con otros ítems, las diferencias entre las medias no son comparables directamente entre sí, pero sí lo son las diferencias tipifica das. Si utilizamos métodos distintos de aprendizaje con dos grupos y comparamos después su rendimiento en dos asignaturas distintas, con tests distintos, etc., las diferencias entre estos grupos no se pueden comparar directamente entre sí (puede haber incluso un número distinto de preguntas en cada test), pero sí podemos comparar los dos tamaños del efecto, y comprobar en qué asignatura uno de los métodos ha sido mejor que el otro. 2º Síntesis cuantitativas de resultados que provienen de estudios distintos Como todos los valores del tamaño del efecto son comparables entre sí, de estos valores se puede calcular la media procedente de estudios diferentes, para resumir todos los resultados en un único dato. Este es el precisamente el procedimiento utilizado en el meta-análisis para integrar los resultados de diversos estudios. La técnica del meta-análisis se utiliza para establecer el estado de la cuestión en un determinado tema, integrando los
287
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
resultados de estudios múltiples, con un menor peligro de subjetivismo que en las revisiones puramente cualitativas (que tampoco se excluyen). Sin necesidad de hacer un meta-análisis en sentido propio, cualquier in vestigador que haya hecho varios estudios comparando diversos pares de medias en la misma variable, puede calcular la media de los tamaños del efecto para presentar una síntesis de sus resultados. También puede verificar qué características (por ejemplo de la situación, de la muestra, etc.) están asociadas al tamaño del efecto (calculando coeficientes de cor relación, o haciendo análisis equivalentes, entre estas características y el tamaño del efecto; cada estudio o comparación par ticular se convier te en el sujeto del nuevo análisis). Esta posible integración de estudios o experimentos pequeños puede ser de mucho interés. Cada estudio en par ticular puede ser poco conclusivo o tener muchas limitaciones, o pueden tener resultados bastante distintos de otros semejantes (diferencia grande en una ocasión, pequeña en otra, etc.), pero la posibilidad integrar todos los resultados revaloriza los pequeños estudios o experimentos y los hace más útiles 16. 3º Valoración de la relevancia y significación práctica de las diferencias Si suponemos que la distribución es normal en la población (y en principio podemos suponerlo), esta diferencia tipificada nos da una información adicional que nos permite valorar mejor la relevancia de nuestros resultados. El que una diferencia sea estadísticamente significativa puede no decir mucho en términos de relevancia; además tampoco es fácil formular juicios sobre la magnitud de una diferencia observando solamente la diferencia en términos absolutos. Y sin una idea clara sobre la magnitud es difícil formular juicios sobre relevancia práctica. Para interpretar y valorar el tamaño del efecto nos basta saber que en definitiva se trata de una puntuación típica, su relación con la distribución normal nos es aquí muy útil. Para interpretar el tamaño del efecto buscamos en las tablas de la distribución normal (en el área mayor) cuantos sujetos caen por debajo de la puntuación típica que es igual a nuestro tamaño del efecto. Si, por ejemplo, obtenemos un tamaño del efecto de d = 1 al comparar dos medias, la diferencia entre las dos medias es de una desviación típica (figura 8).
Una exposición más amplia sobre el origen del meta-análisis y su utilidad puede verse en Morales (1993). 16
288
EL CONTRASTE DE MEDIAS
Figura 8
a) La media del grupo con media mayor se aparta una desviación típica de la media del grupo con media más pequeña. La media más pequeña es ahora igual a 0 y la media mayor es igual a 1 (se aparta 1 s de la otra media). b) Según las proporciones que nos indica la tabla de la distribución normal, el sujeto medio del grupo con media mayor, supera al 84% de los sujetos del grupo con media menor (con frecuencia el grupo de control). La misma puntuación que en un grupo (el de media mayor) equi vale al Percentil 50, en el otro grupo (con media menor) corresponde al Percentil 84: el mismo sujeto medio del grupo con media mayor supera a un 34% más de sujetos si lo incluimos en el grupo con media más baja. Sobre cuándo se puede considerar grande o pequeño un determinado valor del tamaño del efecto, suelen aceptarse estas orientaciones (Cohen, 1988)17: d = .20 (pequeño), d = .50 (moderado) d = .80 (grande). Estas orientaciones son un tanto arbitrarias aunque son muy aceptadas como razonables y citadas en la bibliografía experimental. Otras valoraciones y su justificación pueden verse en Lane, David (Rice University) (2007) (en 18. Measuring Effect Size). 17
289
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Siguiendo las valoraciones de Cohen tenemos que (tabla 2): Tabla 2 Tamaño del efecto
d = .20 d = .50 d = .80
El sujeto medio del grupo con media mayor supera en su propio supera en el grupo grupo al con media inferior al
50 % 50 % 50 %
58 % (diferencia pequeña) 69 % (diferencia moderada) 79 % (diferencia grande)
La interpretación basada en la distribución normal es sólo literalmente válida si las distribuciones observadas en los dos grupos son normales; pero si se apartan de la distribución normal cabe hablar de aproximaciones; en cualquier caso se trata de un dato sobre la magnitud de la diferencia, una magnitud expresada en desviaciones típicas y en el número de sujetos que caen por debajo de esa puntuación típica. La justificación de estas valoraciones va en esta línea: a) Las diferencias pequeñas (en torno a d = .20) pueden parecer muy pequeñas como referencia útil y ciertamente su relevancia práctica puede ser nula o escasa, pero estas pequeñas diferencias pueden igualmente ser de interés en muchas situaciones: en áreas nuevas de investigación, en estudios meramente explorativos (para ver si merece la pena continuar…), cuando los diseños son muy modestos y no se controlan bien otras variables, o cuando se utilizan instrumentos de medición muy limitados o en período de experimentación, etc.; en este tipo de situaciones podemos suponer que con mejores instrumentos y diseños estas diferencias podrían mayores 18. b) Por diferencias moderadas (en torno a d = .50) se entienden aquí aquellas diferencias entre grupos que pueden detectarse por simple observación o aquellas diferencias que la experiencia nos hace caer en la cuenta de que efectivamente están allí (por ejemplo, un determinado tipo de alumnos suele terminar mejor que los demás, etc.); traducidas estas diferencias a coeficientes de correlación, estos coeficientes pueden tener un valor en torno a .25 ó .30. Como nota el autor (Cohen, 1988), en la investigación sobre personalidad, psicología clínica, etc., es normal encontrar diferencias (o correlaciones) pequeñas en parte por los problemas de validez en los instrumentos utilizados y en buena parte también por la complejidad de las situaciones, interacción entre variables, etc. Cohen (1988) justifica bien estas valoraciones que propone simplemente como orientadoras. 18
290
EL CONTRASTE DE MEDIAS
Convencionalmente suele considerarse un valor de d = .50 como de significac signi ficación ión práctica prácti ca (importante); cuando se trata de resultados de rendimiento escolar o de investigación educacional se consideran de relevancia práctica valores práctica valores en torno t orno a .30 (Borg, Gall, G all, y Gall, alentine y Cooper, 2003). 1993; V alentine c) El con consi sider derar ar una diferencia una diferencia grande grande a partir de d = .80 puede parecer poco a simple vista; es muy frecuente encontrar tamaños del efecto mucho mayores. Lo que se tiene aquí en cuenta al valorar como grande una magnitud que no lo es mucho en términos absolutos, es que no merece la pena limitarse a definir como grandes aquellas diferencias tan obvias que prácticamente hacen inútil el análisis estadístico 19. Con frecuencia es más informativo comparar unos valores con otros cuando tenemos varios tamaños del efecto en una misma investigación o en el mismo planteamiento, o buscar como referencia qué valor suele obtenerse en estudios similares. En cualquier caso el comprobar el percentil del sujeto medio del grupo gr upo con media mayor (en el que estaría en el percentil 50 en su propio grupo) cuando le situamos en el grupo con media inferior nos permite apreciar mejor si la diferencia es importante. 4º El tamaño del efecto cuando la diferencia no es estadísticamente significat signi ficativa iva El proceso normal en un contraste de medias es 1º descartamos 1º descartamos el azar (verificamos si la diferencia es estadísticamente significativa ) significativa ) y 2º verificamos la magnitud de la diferencia ( tamaño tamaño del efecto ). Cuando Cuando el valor de t no es estadísticamente significativo el tamaño del efecto suele ser también muy pequeño, pero no siempre es éste el caso, sobre todo con muestras pequeñas. Una diferencia grande calculada en muestras pequeñas puede darnos un valor de t que no es estadísticamente estadísticame nte significativo, signif icativo, por esta razón razó n merece la pena calcular el tamaño del efecto cuando la diferencia no es estadísticamente significativa, sobre todo si se trata de muestras pequeñas. pequeñas. El que el valor de t no sea estadísticamente significativo quiere decir que la diferencia no es extrapolable a las poblaciones representadas represe ntadas por esas dos muestras, al menos con los sujetos disponibles, y no se puede presentar como un repreviamente, pe sultado sultado o conclusión según el nivel de confianza especificado previamente, tancia en una situación concreta, en la que además, si ro puede tener su impor tancia contáramos con más sujetos, la diferencia sería probablemente estadísticamenestadísticamente significativa; esto es algo que al menos se puede proponer como hipótesis.20 Cohen (1988) cita aquí un comentario de Tukey: el confirmar diferencias muy grandes y obvias con análisis estadísticos equivale a una canonización estadística . 20 Sobre si se debe o no calcular y exponer el tamaño del efecto cuando la diferencia no es estadísticamente significativa es algo discutido entre autores (Gliner, Leech y Mor19
291
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Un ejemplo real 21: Para evaluar la eficacia se comparan un grupo eficacia de una terapia terapia familiar familiar se experimental (N = 10) con un grupo de control (N = 11). El valor de t es 1.62, claramente no significativo; con estos datos no podemos afirmar que la diferencia en las poblaciones sea distinta de cero. Con tan pocos sujetos (la unidad de análisis no es propiamente cada sujeto individual, sino cada famicada familia ) no es tan fácil obtener diferencias estadísticamente significativas, aunque upo experimental (y de la eficacia de la terapia). la diferencia está favor del gr upo Encontramos sin embargo que el tamaño del efecto (al comparar los dos grupos en nivel de conflicto familiar después familiar después de la terapia) es d = .69. Por debajo de z = .69 cae el 75 % de los casos; esto quiere decir que la familia la familia media del grupo experimental supera en ausencia o disminución de conflictos al 75 % de las familias del grupo de control. Es una diferencia de tamaño moderado-alto que indica que algo positivo y de interés está sucediendo aquí; es un buen resultado que se puede quizás confirmar con mayor seguridad en estudios semejantes. Esta es una conclusión más sensata que el limitarse a enunciar sin más que la diferencia no es estadísticamente significativa, no ha habido cambio, aceptamos la hipótesis nula, etc. Por otra parte la mera diferencia entre las dos medias no nos dice nada de particular si no la traducimos al tamaño del efecto para apreciar mejor la magnitud de magnitud de esa diferencia. Una diferencia de magnitud apreciable (tal como lo vemos en el tamaño del efecto ) efecto ) pero que no es estadísticamente significativa significativa nos permite al menos proponer y justificar hipótesis para futuras investigaciones. 5º Tamaño del efecto y tamaño de la muestra El tamaño de la muestra suele plantearse cuando interesa extrapolar los resultados a la población con un margen de error pequeño o al menos tolerable. Esto es lo que sucede con los sondeos de opinión de carácter sociológico, y de este punto hemos tratado brevemente a propósito del error típico de la media. Frecuentemente no estamos interesados directamente en extrapolar nuestros resultados a una población grande, sino en detectar posibles diferencias entre determinadas muestras; por ejemplo nos puede interesar verigan, 2002). Las recomendaciones de la A.P.A. son sin embargo muy claras ‘always’ report effect sizes (Wilkinson and Task Force on Statistical Inference APA Board of Scientific Affairs , 1999); una razón para calcular el tamaño del efecto, aunque la diferencia no sea estadísticamente significativa, es además que facilita el integrar los resultados de cualquier in vestigación en en un meta-análisis. 21 Tomado de Olalla, Ol alla, Consuelo (1993), Relaciones Relaciones familiares familiares y su modificación modificación a traPontificia Comillas. vés de la terapia familiar sistémica. Tesis doctoral, Madrid, Universidad Pontificia
292
EL CONTRASTE DE MEDIAS
ficar un cambio en función de un tratamiento, o verificar diferencias entre grupos en planteamientos de evaluación, etc. En estos casos el tamaño de la muestra depende (no solamente) de la magnitud de magnitud de la diferencia que nos interesa detectar. Es importante captar la relación entre tamaño de la muestra y la magnidiferencias grandes tud de la diferencia en la que estamos interesados. Las diferencias grandes se detectan con facilidad en muestras pequeñas. Un ejemplo sencillo: para comprobar si pigmeos y escandinavos difieren en altura no necesitamos muestras grandes: la diferencia la veremos con muy pocos sujetos porque se trata de una diferencia que se aprecia a simple vista. Para captar diferencias pequeñas y sutiles entre grupos, necesitaremos muestras mayores. Ya lo hemos indicado al tratar sobre las variables que influyen en el valor de t. Con muestras grandes minimizamos la posibilidad de no ver diferencias cuando sí las hay, hay, aunque sean pequeñas. En la práctica no solemos estar muy interesados en detectar diferencias muy pequeñas, por ejemplo un cambio pequeño cambio pequeño en función de un método o tratamiento; en ese caso necesitaríamos muchos sujetos. Si nos interesan solamente diferencias (tamaños del efecto) grandes, efecto) grandes, necesitaremos menos sujetos, aunque dejaremos fuera la posibilidad de encontrar diferencias no muy grandes, pero que pueden ser de interés. En la práctica podemos buscar un punto de equilibrio y buscar el número de sujetos suficiente para encontrar diferencias de magnitud moderada. Como criterio orientador, en la tabla 3 tenemos el tamaño de la muestra necesario según el tamaño del efecto que estemos interesados en detectar, a un nivel de confianza de a = .05 ó .01 (como es usual, un 5% de probabilidades de no equivocarnos al rechazar la hipótesis nula de no diferencia), y una probabilidad del 80% de aceptar la hipótesis alterna cuando es verdadera22. Tabla 3 nivel de confianza .0 5 .01
d =.20 392 586
d = .30 d =.50 d = .70 d =.80 1 74 260
63 93
32 48
25 36
d =.1.0 d =1.20 16 23
12 18
Estas cifras (redondeándolas) las tomamos de Cohen (1988). Una exposición detallada de las variables que influyen en el tamaño de la muestra, incluido el tamaño del efecto deseado o previsto, y de las fórmulas apropiadas para calcularlo pueden verse en otros autores como Kirk (1995), Hinkle, Wiersma y Jurs (1998) y en otros autores. 22
293
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Si por ejemplo estamos interesados en detectar diferencias grandes (d = .80) con un nivel de confianza de a = .05 (5% de probabilidades de no encontrarlas si las hay), nos bastan grupos de 25 sujetos; si nos interesa encontrar diferencias aunque sean pequeñas (como d = .30) nos harán falta muestras mucho mayores (de unos 174 sujetos). Naturalmente de Naturalmente de hecho podemos detectar diferencias de estas magnitudes con muestras más pequeñas, pero también nos exponemos a no verlas por falta de sujetos. 6.2.2.3. Fórmulas del tamaño del efecto: desviación efecto: desviación típica típica del denominador Vamos Vamos a distinguir cuatro posibilidades 1º Diferencia Diferencia entre las las medias de dos muestras muestras independientes, independientes, cuando cuando no se trata de un diseño experimental (no hay un grupo de control propiamente dicho). 2º Diferencia Diferencia entre las medias de dos muestras muestras relacionadas relacionadas (diferencia (diferencia entre el pre-test el pre-test y y el post-test el post-test de de la misma muestra). 3º Diferencia entre las medias medias de un grupo experimental experimental y otro otro de control control (diseño experimental). 4º Diferencia entre las medias medias de un un grupo experimental experimental y otro otro de control control cuando los dos han tenido pre tenido pre y y post-test post-test . 1º Dos 1º Dos muestras independientes independientes Éste es el caso posiblemente más frecuente. Tenemos dos maneras muy parecidas de calcular la desviación típica combinada, la de Cohen (1977, 1988) y la de Hedges y Olkin (1985). En la fórmula del tamaño del efecto de Cohen (símbolo d) se utilizan las desviaciones típicas de las muestras, dividiendo por N (aquí las simbolizamos como sn ). En la fórmula del tamaño del efecto de Hedges (símbolo g) se utilizan las desviaciones típicas típicas de la población, dividiendo por N-1 (aquí las simbolizamos como sn-1 )23. Cohen: d =
donde
[13]
Las desviaciones típicas de la fórmula [13] (Cohen) se calculan divi diendo por N (desviación (desviación típica de las muestras) El símbolo g lo pone Hedges en homenaje a Gene Glass, autor importante en el campo del meta-análisis. 23
294
EL CONTRASTE DE MEDIAS
Hedges: g=
donde
[14]
Las desviaciones típicas de la fórmula [14] (Hedges) se calculan divi diendo por N-1 (estimación (estimación de la desviación típica de las poblaciones) Estas desviaciones típicas del denominador del tamaño del efecto no son otra cosa que una combinación de las desviaciones típicas de las dos muestras; tras; por eso suelen denominarse desviación denominarse desviación típica combinada c ombinada (en inglés pooled standard standard deviation). Podemos verlo fácilmente (en la fórmula de Cohen se ve con más facilidad): utilizamos ahora la varianza en vez de la desviación típica para eliminar la raíz cuadrada: Sabemos que s2 =
de donde
Para combinar dos combinar dos desviaciones típicas sumamos los dos numeradores y los dos denominadores, que es lo que tenemos en las fórmulas anteriores (en el caso de la g de Hedges se s e utiliza N-1 en vez de N, como es usual cuando se trata de la estimación de la desviación típica de la población). Cuando N = N (muestras de idéntico tamaño) en ambos casos (fórmulas [13] y [14]) la desviación típica combinada es igual a la raíz cuadrada de la media de las varianzas: [15]
scombinada
Podemos ver la diferencia entre las dos fórmulas en un ejemplo concreto (ficticio, tabla 3). Tenemos Tenemos dos grupos (muestra A y muestra B) de cuatro ssuujetos cada una. Calculamos en cada muestra la media y las dos desviaciones típicas; para diferenciarlas utilizamos los subíndices n (dividimos por N) y n-1 (dividimos por N-1).
295
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Tabla 3
Media sn sn-1
Muestra A 16 12 14 14 14 1.414 1.633
Muestra B 18 14 16 18 16.5 1.658 1.915
En este caso la diferencia no es estadísticamente significativa (t =1.987, p = .094) pero el tamaño del efecto, calculado con cualquiera de las dos fórmulas, puede considerarse como grande; esto no es inusual en muestras pequeñas. No podemos afirmar que ambas muestras procedan de poblaciones distintas (no afirmamos una diferencia distinta de cero en la poblaciones) , pero tampoco debemos ignorar la diferencia entre estos dos grupos de sujetos concretos. Vamos Vamos a calcular los dos tamaños del efecto (Cohen y Hedges): Desviación típica combinada
tamaño del efecto efecto
Cohen: s =
d=
Hedges: s =
g=
Es natural que el tamaño del efecto sea mayor con la fórmula de Cohen porque el denominador es menor (las desviaciones típicas de las muestras son menores que las desviaciones típicas estimadas en la población). Como en este ejemplo se trata t rata de muestras de idéntico tamaño, podemos utilizar la fórmula [15] para calcular la desviación típica combinada:
296
EL CONTRASTE DE MEDIAS
Cohen: s =
Hedges: s =
De cualquiera de estas dos fórmulas de la desviación típica combinada ([13] y [14]) podemos pasar a la otra: sCohen = sHedges
[16]
sHedges =
[17]
Con los datos del ejemplo anterior: sCohen =
sHedges=
Lo habitual es combinar la desviación típica de dos grupos, pero también pueden ser más de dos grupos24. Podemos utilizar cualquiera de las dos fórmulas (Cohen y Hedges); posiblemente la de uso más frecuente es la de Cohen [13], que se puede utilizar rutinariamente. Ya Ya hemos visto (fórmulas [16] [16 ] y [17]) que qu e de una desviación d esviación típica podepode mos pasar a la otra (de la desviación típica de la muestra sn a la de la población sn-1 y viceversa); de manera análoga podemos pasar de un tamaño del efecto al otro (de d (de d aa g y y de g de g aa d). Ambas d). Ambas fórmulas del tamaño del efecto se relacionan de esta manera (Rosenthal, 1994): Si en el mismo planteamiento tenemos más de dos grupos, como sucede en el análisis de varianza, podemos calcular la magnitud del efecto (o diferencia tipificada) entre cualesquiera dos grupos utilizando en el denominador la desviación típica combinada de todos ellos. En el análisis de varianza para para muestras independientes los cuadrados me dios dentro de de los grupos (el denominador de la razón F) es precisamente la combinación de las varianzas de los diversos grupos; esto se ve, naturalmente, al tratar del análisis de varianza, pero no sobra indicarlo aquí 24
297
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
[18]
[19]
Las fórmulas [18] y [19] son semejantes a las fórmulas [16] y [17], substituyendo el valor de la desviación típica combinada por el tamaño del efecto. 2º Dos muestras relacionadas (diferencia entre el pre-test y el post-test de la misma muestra) Cuando se trata de muestras relacionadas, se utiliza en el denominador la desviación típica del post-test; en estos casos se verifica la magnitud del cambio: [20] También es frecuente utilizar en el denominador la desviación típica combinada de antes y después; en cualquier caso conviene indicar qué desviación típica se ha utilizado. 3º Diferencia entre las medias de un grupo experimental y otro de control (diseño experimental) sin pre-test La fórmula habitual (y con D, delta mayúscula, como símbolo) es la propuesta por Glass, McGaw y Smith (1981), en la que se utiliza la desviación típica del grupo de control (dividiendo por N -1): [21] a) La alternativa a utilizar en el denominador la desviación típica del grupo de control, es la desviación típica combinada de los dos o más grupos (fórmulas [12] o [13]); ésta es también una práctica muy común y autorizada. b) El utilizar la desviación típica del grupo de control es más recomendable cuando hay varios grupos experimentales con desviaciones típicas muy distintas, o cuando el grupo de control es muy grande.
298
EL CONTRASTE DE MEDIAS
4º Grupos experimental y de control cuando los dos han tenido pre y post-test Cuando tenemos dos grupos, experimental y de control, y los dos con pre y post-test, hay varios procedimientos25 pero es aceptable utilizar la fórmula [13] o [14] con los datos del post-test, sobre todo si no hay diferencias importantes en el pre-test. 6.3. Transformaciones de unos valores en otros Los valores de la t de Student, coeficiente de correlación (r) y diferencia tipificada (d o g) están relacionados entre sí, de manera que a partir de cualquiera de ellos podemos pasar a los otros. Estas transformaciones pueden ser muy útiles. Ya hemos visto antes cómo calcular el coeficiente de correlación a partir de la t de Student (fórmula [11]), y cómo calcular el tamaño del efecto de Cohen (d) a partir del tamaño del efecto de Hedges (g) (y viceversa, fórmulas [16] y [17]). Cuando se ha calculado previamente la t de Student se puede calcular directamente el tamaño del efecto (d ó g), de la misma manera que del tamaño del efecto podemos pasar a la t de Student: [22]
[23]
Si se trata del tamaño del efecto g de Hedges (14], para calcularlo a partir de la t de Student podemos distinguir cuando se trata de muestras de tamaño idéntico o desigual26: con muestras de idéntico tamaño con muestras de tamaño desigual [24]
[25]
También podemos pasar de la magnitud del efecto a un coeficiente de correlación. 25 26
Expuestos y discutidos en Glass, McGaw y Smith (1981). Fórmulas tomadas de Mahadevan (2000), pero es fácil encontrarlas en otros autores.
299
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
[26]
[27]
En la fórmula [27] p es igual a la proporción de sujetos que corresponde a uno de los dos grupos (n1 /(n1+n2 )) y q es igual a 1-p o la proporción de sujetos en el otro grupo. Si los grupos son de idéntico tamaño tenemos que p = q = .5 y 1/pq = 4, tal como aparece en la fórmula [26]. Si se trata de convertir el valor de g (tamaño del efecto de Hedges) en un coeficiente de correlación, la fórmula propuesta es la [28] (Mahadevan, 2000): [28]
También podemos calcular el valor de d (tamaño del efecto de Cohen) a partir del coeficiente de correlación. [29]
Sobre estas conversiones de unos valores en otros: a) Los resultados son los mismos solamente cuando el número de sujetos en los dos grupos es idéntico; en este caso da lo mismo calcular el tamaño del efecto con las fórmula directas que calcularlos a partir de la t de Student. b) Cuando el número de sujetos es desigual, la fórmulas del tamaño del efecto calculadas a partir de t dan sólo una aproximación, pero muy cercana al valor exacto del tamaño del efecto cuando los gr upos no son muy distintos en tamaño, del orden del 40% en uno y el 60% en el otro (Rosenthal, 1987). Todas estas conversiones27 pueden ser útiles por estas razones: a) A veces facilitan las operaciones; lo más cómodo puede ser calcular el valor del tamaño del efecto a partir del valor de t (fórmula [21]), sobre todo cuando los tamaños de las muestras son iguales o muy parecidos. Estas y otras conversiones pueden encontrarse en diversos autores, por ejemplo en Rosenthal, 1987, 1991, 1994; Wolf, 1986; Hunter y Schmidt, 1990, Kirk, 1996, y otros. 27
300
EL CONTRASTE DE MEDIAS
b) Aunque prefiramos un enfoque determinado, el utilizar otro enfoque puede ayudar a la interpretación. Lo más frecuente es calcular una diferencia tipificada, pero el coeficiente de correlación elevado al cuadrado nos dice la proporción de varianza debida a la variable experimental o a pertenecer a un grupo o a otro y es también un dato de interés para interpretar los resultados. c) Puede interesar presentar con la misma métrica resultados que pro vienen de diversos estudios en los que se han utilizado análisis distintos (t, r, etc.,). Esto es útil para hacer comparaciones y para calcular medias como resumen de los resultados de estudios distintos pero todos expresados en términos del tamaño del efecto (es lo que se hace en el meta-análisis o integración cuantitativa de los resultados de varios estudios o experimentos, y que se utiliza sobre todo para exponer el estado de la cuestión en un determinado tema). 6.4. Utilidad del tamaño del efecto: resumen El cálculo del tamaño del efecto es de especial utilidad por varias razones: 1º El tamaño del efecto informa sobre la magnitud de la diferencia y no sobre la probabilidad de que esté dentro de lo aleatorio. Diferencias estadísticamente significativas pueden ser muy pequeñas y poco relevantes. Aporta una infor mación básica para apreciar la relevancia de la diferencia en una situación dada, y esto incluso aunque la diferencia no sea estadísticamente significativa. 2º Se utiliza una métrica común que permite presentar diversos resultados, obtenidos de maneras distintas, incluso con instrumentos distintos, en pares de muestras distintos, con los mismos estadísticos, de manera que las magnitudes de las diferencias sean comparables directamente. 3º Permite calcular la media de varios tamaños del efecto, procedentes de estudios distintos, para presentar una síntesis cuantitativa (como se hace en la técnica del meta-análisis, o síntesis integradoras de los resultados de varios estudios) y dejar así más claro el estado de la cuestión cuando disponemos de varias investigaciones sobre la misma variable aunque haya sido medida con instrumentos distintos.
301
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
A NEXO 1: MODELO DEL CONTRASTE DE MEDIAS, RESUMEN 1º Preguntas que nos hacemos
1ª Estas dos medias, ¿Pertenecen a muestras de la misma población? ¿O pertenecen a muestras de poblaciones distintas que tienen distinta media? 2ª La diferencia entre estas dos medias ¿Es ma yor de la que se puede esperar por puro azar? Porque si la diferencia está dentro de lo normal, habrá que concluir que ambas medias per tenecen a muestras de la misma población; no habrá que interpretar la diferencia como una ver dadera diferencia, ya que el error muestral explica suficientemente esa diferencia. 3ª Esta diferencia entre dos medias, ¿Se aparta mucho, más de lo normal de la diferencia cero? Si no se aparta significativamente de la diferencia cero habrá que interpretarla como una no diferencia entre las poblaciones.
Estas tres preguntas son equivalentes: lo que nos preguntamos, de diversas maneras, es si las dos muestran pertenecen o no a la misma población. Teoría subyacente: distribución muestral de las diferencias entre medias; error típico de la distribución muestral.
2º Proceso para llegar a una respuesta
1º Calculamos una diferencia entre dos medias – – (d = |X 1 – X 2|); 2º Esta diferencia, en el caso de que las muestras pertenezcan a la misma población, ¿Es probable o es improbable? (es decir es normal o rara, esperable o no esperable…) Para comprobarlo debemos calcular en cuántas sigmas (aquí errores típicos) se aparta esa diferencia de la diferencia media de cero, que es la media de las diferencias cuando las dos muestras pertenecen a la misma población y no hay más diferencias que las casuales. Para comprobar si esta diferencia es normal calculamos su puntuación típica: z = (d - 0)/ sd que nos dirá si la diferencia está dentro de lo normal y probable
302
Teoría subyacente: relación entre puntuaciones típicas y probabilidad de ocurrencia en la distribución normal. La media es 0 en este caso; sd es el error típico (desviación típica) de la distribución de las diferencias entre medias de la misma población.
EL CONTRASTE DE MEDIAS
3º Interpretación de la Razón crítica (z o t)
z (o t) grande
z (o t) pequeña
La diferencia es muy improbable si ambas muestras pertenecen a la misma población.
La diferencia está dentro de lo nor mal y probable si ambas muestras pertenecen a la misma población.
Luego es más probable que las muestras procedan de poblaciones distintas.
Luego es más probable que las muestras procedan de la misma población.
El valor de z (o de t) escogido como límite entre lo probable e improbable dependerá de nuestro nivel de confianza.
4º Conclusiones
1ª Rechazo el azar (error muestral) como explicación de la diferencia. 2ª Acepto que las muestras pertenecen a poblaciones distintas.
1ª No rechazo el azar (error muestral) como explicación de la diferencia 2º No acepto que las muestras pertenecen a poblaciones distintas.
1º se rechaza o no se rechaza la Hipótesis Nula (o el azar como explicación de la diferencia ); 2º consecuentemente se acepta o no se acepta la Hipótesis Alterna.
La Hipótesis Nula establece que si hay diferencia, ésta se explica por el error muestral (que podemos convencionalmente denominar azar). Un sí o un no a la Hipótesis Nula es lo único que afirmamos (con una determinada probabilidad de error; el sí o el no no son absolutos) mediante el cálculo de la t de Student (o z). Aceptaremos la Hipótesis Alterna si rechazamos (no aceptamos) la Hipótesis Nula, pero en este paso puede haber otras fuentes de error (un mal diseño, muestra inadecuada, etc.). Tampoco concluimos si la diferencia es grande o pequeña; simplemente afirmamos que es muy improbable que esa diferencia sea cero en la población. Para apreciar la magnitud de la diferencia calculamos el tamaño del efecto.
303
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
A NEXO 2: CONCEPTOS BÁSICOS DE ESTADÍSTICA INFERENCIAL ( REFERIDOS AL CONTRASTE DE MEDIAS PERO EXTRAPOLABLES A OTROS PLANTEA MIENTOS ) Diferencia estadísticamente significativa
La diferencia entre dos medias (o entre dos proporciones, etc.) es mayor de lo que se puede esperar por azar, es mayor de lo que ocurre normalmente cuando no hay más diferencia que la puramente aleatoria, es una diferencia muy im probable cuando las muestras proceden de la misma población: si hacemos la misma comparación entre muestras semejantes, la diferencia no será cero. Si probamos que una diferencia es estadísticamente significativa, no por eso probamos que la diferencia es grande o importante. Nivel de confianza: Seguridad con que afirmamos que una diferencia es mayor de lo que se puede esperar por azar; El nivel de confianza se simboliza como ? y se establece antes de analizar los datos; a = .05 significa que ponemos en un 5% las probabilidades de equivocarnos al afir mar que hay diferencia entre dos medias (que la diferencia se aparta mucho de la diferencia media de cero; que las muestras proceden de poblaciones distintas con distinta media); a = .01 significa que ponemos el límite en un 1% las probabilidades de error al afirmar que dos medias difieren significativamente, etc. (la probabilidad de que la diferencia sea aleatoria la expresamos así: p < .05, p < .01, p < .001; si las probabilidades son mayores del 5%: p> .05). Razón Crítica:
Es el valor de z (o de t de Student en muestras pequeñas, las tablas son distintas pero el concepto y la interpretación son las mismas) que nos permite establecer la probabilidad (simbolizada como p) de que una diferencia sea aleatoria; en muestras grandes si
z > 1.96 tendremos que p < .05 z > 2.57 tendremos que p < .01 z > 3.30 tendremos que p < .001
Hipótesis Nula:
Es la negación de la hipótesis del investigador Si mi hipótesis es: el método A es mejor que el método B, la hipótesis nula será el método A no es mejor que el B
304
EL CONTRASTE DE MEDIAS
Aceptar la Hipótesis Nula = Diferencia no estadísticamente significativa
Diferencia dentro de lo aleatorio; se interpreta como una no diferencia; en el sentido de que el hecho de la diferencia no se puede extrapolar a la población; en comparaciones semejantes podemos encontrarnos con una diferencia de cero En sentido estricto no probamos que no hay diferencia, (quizás con un N mayor se podría no aceptar la Hipótesis Nula); simplemente fracasamos en el intento de probar que sí la hay. Hipótesis Alterna:
Es la hipótesis del investigador, se acepta la Hipótesis Alterna (hay una diferencia distinta de cero) si no se acepta la Hipótesis Nula ( se excluye el azar o el error muestral como explicación de la diferencia) Aceptar la Hipótesis Alterna
= La diferencia es estadísticamente significativa;
La diferencia es mayor de lo que se puede esperar por azar en caso de no diferencia; se puede extrapolar a las poblaciones representadas por esas muestras; la diferencia entre las medias de las poblaciones representadas por esas muestras es distinta de cero Las medias pertenecen a muestras que proceden de poblaciones distintas con distinta media.
305
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
A NEXO 3: T ABLAS DE LA T DE S TUDENT Grados de libertad: Muestras independientes: Muestras relacionadas:
N1 + N2 -2 N-1
(habitualmente utilizamos pruebas bilaterales, o bidireccionales o de dos colas) Grados de libertad:
0.05 .10
0.025 .05
0.005 .01
0.0005 (1) .001 (2)
1 2 3 4 5
6.313752 2.919986 2.353363 2.131847 2.015048
12.70620 4.30265 3.18245 2.77645 2.57058
63.65674 9.92484 5.84091 4.60409 4.03214
636.6192 31.5991 12.9240 8.6103 6.8688
6 7 8 9 10
1.943180 1.894579 1.859548 1.833113 1.812461
2.44691 2.36462 2.30600 2.26216 2.22814
3.70743 3.49948 3.35539 3.24984 3.16927
5.9588 5.4079 5.0413 4.7809 4.5869
11 12 13 14 15
1.795885 1.782288 1.770933 1.761310 1.753050
2.20099 2.17881 2.16037 2.14479 2.13145
3.10581 3.05454 3.01228 2.97684 2.94671
4.4370 4.3178 4.2208 4.1405 4.0728
16 17 18 19 20
1.745884 1.739607 1.734064 1.729133 1.724718
2.11991 2.10982 2.10092 2.09302 2.08596
2.92078 2.89823 2.87844 2.86093 2.84534
4.0150 3.9651 3.9216 3.8834 3.8495
21 22 23 24 25
1.720743 1.717144 1.713872 1.710882 1.708141
2.07961 2.07387 2.06866 2.06390 2.05954
2.83136 2.81876 2.80734 2.79694 2.78744
3.8193 3.7921 3.7676 3.7454 3.7251
(1) Pruebas de una cola (unilaterales) (2) Pruebas de dos colas (bilaterales)
306
EL CONTRASTE DE MEDIAS
0.0005 (1) .001 (2)
Grados de libertad:
0.05 .10
0.025 .05
0.005 .01
26 27 28 29 30
1.705618 1.703288 1.701131 1.699127 1.697261
2.05553 2.05183 2.04841 2.04523 2.04227
2.77871 2.77068 2.76326 2.75639 2.75000
3.7066 3.6896 3.6739 3.6594 3.6460
1.644854
1.95996
2.57583
3.2905
Tablas adaptadas de STATSOFT, INC. (2002). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html A NEXO 4: EL CONTRASTE DE MEDIAS EN INTERNET Entre otros muchos programas que se pueden localizar en Internet disponemos de los siguientes: I. Si lo que deseamos es solamente conocer si un valor de t es estadísticamente significativo tenemos en Internet varios programas 1. SURFSTAT. AUSTRALIA: AN ONLINE TEXT IN INTRODUCTORY STATISTICS surfstat-main. http://www.anu.edu.au/nceph/surfstat/surfstat-home/ (buscar Tables en el menú de la izquierda) 2. DEPARTMENT OF OBSTETRICS AND G YNAECOLOGY , THE CHINESE UNIVERSITY OF HONG K ONG http://department.obg.cuhk.edu.hk/index.asp?scr=1024 (buscar en el menú Statistics Tool Box escoger Statistical Tests y escoger Statistical Significance ). 3. INSTITUTE OF PHONETIC SCIENCES (IFA)A MSTERDAM ( h ttp://fonsg3.let. uva.nl/Welcome.html ) en el menu: Demos, tests, experiments y escoger Statistics) o directamente en The Student-t distribution http://fonsg3.let.uva.nl/Service/Statistics/Student-t_distribution.html II. Para calcular la t de Student 1. Introduciendo o copiando todos los datos individuales COLLEGE OF S AINT BENEDICT, S AINT JOHN’S UNIVERSITY http://www.physics. csbsju.edu/stats/t-test.html o Student’s t-Test, en http://www.physics.csbsju.edu/stats/ ( muestras independientes y relacionadas) 2. Introduciendo solamente la media, desviación y número de sujetos de cada grupo (muestras independientes y relacionadas GENE V. GLASS http://glass.ed.asu.edu/stats/online.htm (Delta COE502, Intro to Quant Methods, http://glass.ed.asu.edu/stats/in-
307
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
dex.html , Online statistical calculators that can perform many different analyses. ) (no calcula el tamaño del efecto) The Significance of the Difference Between Two Independent Sample Means introduciendo M, s y N) http://glass.ed.asu.edu/stats/analysis/ t2test.html The Significance of the Difference Between Two Dependent Means using the t-test (introduciendo N, M y s de las diferencias) http://glass.ed. asu.edu/stats/analysis/tdtest.html UNIVERSITÄT ULM-MEDIZINISCHE F AKULTÄT, SEKTION INFORMATIK IN DER PSYCHOTHERAPIE (SOFTWARE UND W ERKZEUGE ) http://sip.medizin.uni-ulm.de/informatik/projekte/Odds/est.html (Calcula la t de Student y el tamaño del efecto ). 3. Para todos estos casos tenemos también GRAPHP AD, FREE ONLINE C ALCULATORS FOR SCIENTISTS ( h ttp://graphpad.com/quickcalcs/index.cfm ) t test Calculator, http://graphpad.com/quickcalcs/ttest1.cfm?Format=50 III. Tamaño del efecto. 1. LEE A. BECKER , EFFECT SIZE CALCULATORS. http://web.uccs.edu/lbecker/ Psy590/escalc3.htm (consultado 25, 03, 08). En muestras de idéntico tamaño calcula el tamaño del efecto (de Cohen) y el coeficiente de cor relación 1º a partir de los valores de las medias y de las desviaciones típicas, 2º a partir del valor de t y de los grados de libertad (N+N-2). ( For a discussion of these effect size measures see Effect Size Lecture Notes ) 2. COE, R OBERT (2000) Effect Size Resources (Durham University, Cem Centre) http://www.cemcentre.org/RenderPage.asp?LinkID=30310000 (revisado 1, Enero, 2007) 3. MILLS, MICHAEL E. (Loyola Marymount University, Los Angeles), http://myweb. lmu.edu/mmills/ , en el índice de la izquierda Software y effect size calculation (consultado 25, 03, 08).
308
CAPÍTULO 9
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2 ), LA DISTRIBUCIÓN BINOMIAL, EL CONTRASTE DE PROPORCIONES
1. PLANTEAMIENTO GENERAL Tenemos variables nominales o categóricas cuando el dato disponible de los sujetos es a qué categoría de clasificación pertenecen, como vamos a ver en numerosos ejemplos. No disponemos de una puntuación individual en sentido propio; los datos son simplemente categorías de clasificación y frecuencias en cada categoría. Aunque habitualmente hablamos de sujetos, puede tratarse también de sucesos, objetos, etc. La prueba del ji cuadrado1 (con su propia distribución y sus propias tablas) nos va a servir para analizar este tipo de datos, y va ser el método central en esta exposición porque es válido para todas las situaciones que vamos a presentar. El ji cuadrado y sus variantes metodológicas (como la prueba exacta de Fisher y el test de McNemar) no es por otra parte el único método de análisis cuando tenemos a los sujetos clasificados en categorías; según el planteamiento que tengamos disponemos también de otras alternativas de análisis, como son las aplicaciones de: a) La distribución binomial b) El contraste de proporciones En inglés chi square y a veces en español el anglicismo chi cuadrado; la letra griega utilizada como símbolo es c que se pronuncia como la jota española. 1
309
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Con frecuencia estos análisis son una alternativa más sencilla al ji cuadra do. En vez de ver por separado estos métodos (como es usual) los expondremos cuando sean aplicables, ya que con frecuencia los mismos datos se pueden analizar de diversas maneras con resultados idénticos o equivalentes y que llevan a las mismas conclusiones. De esta manera se facilita el que cada uno escoja el método que prefiera, y no se ven en contextos distintos métodos de análisis que son válidos en las mismas situaciones y con los mismos datos. La presentación que hacemos es por lo tanto por situaciones o modos de organizar los datos, y no por métodos de análisis. Las situaciones son sujetos clasificados en categorías de diversas maneras y cada situación está representada por un tipo de cuadro o tabla que permite visualizar dónde encajan nuestros datos y nuestras preguntas. Los cuadros de doble entrada, con dos criterios de clasificación, se denominan también tablas de contingencia. Podemos distinguir los cuatro modelos básicos puestos en la figura 1. Aunque iremos poniendo numerosos ejemplos más adelante, es útil ver desde el comienzo los diversos tipos o modelos de cuadros o tablas porque van centrando la atención en las posibilidades que tenemos para analizar este tipo de datos. Estas tablas de la figura 1 representan las distintas posibilidades. Todas las denominadas preguntas básicas puestas en la figura 1 podemos hacerlas preguntando por una diferencia (¿difieren los grupos A y B en sus preferencias, en sus respuestas, etc.?) o preguntando por una relación (¿tiene que ver el pertenecer al grupo A o B con escoger una u otra opción?). Figura 1
310
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
Mediante la prueba estadística del ji del ji cuadrado cuadrado podemos abordar todos estos planteamientos, para detectar diferencias detectar diferencias y y relaciones, por eso centramos el análisis de los datos nominales en la prueba del ji del ji cuadrado. cuadrado. Como ya hemos indicado, en algunos casos, no en todos, t odos, hay otros métodos de análisis, como la aplicación directa de la distribución binomial y binomial y el contraste de proporciones, que son equivalentes y los iremos introduciendo en cada caso como alternativas como alternativas de análisis. Además, aunque hay una fórmula general del ji del ji cuadrado cuadrado aplicable en todos los casos, algunas situaciones representadas en estos cuadros admiten fór mulas mulas más sencillas. Para visualizar mejor los procedimientos que vamos a ver, podemos repetir los cuadros o tablas con los modos habituales de presentar los datos (tal como están en la figura 1), indicando los modos de análisis aplicables en cada caso (figura 2) aunque no siempre son intercambiables. Figura 2
Con el ji el ji cuadrado cuadrado y y sus variantes metodológicas podemos analizar todos estos planteamientos aunque en algunos casos disponemos de otras alternativas equivalentes, como el contraste entre proporciones. En realidad lo que nos dice el ji el ji cuadrado es si los sujetos que observaque observamos en cada celda son los que veríamos si no hubiera diferencias ni relaciones entre los criterios de clasificación. Al ji Al ji cuadrado se le denomina por esta razón prueba razón prueba de independencia (o lo contrario, de asociación), de asociación), porque verificamos si los criterios de clasificación clasificación son independientes. La prueba del ji del ji cuadrado nos va a decir si lo que observamos: a) Está Está dentr dentro o de de lo lo normal y normal y probable; probable; en ese caso afirmaremos que no hay diferencia ni relación (aceptamos la Hipótesis Nula dicho en otros términos; aceptamos aceptamos que los resultados están dentro de lo normal y normal y aleatorio). b) Es atípico atípico y poco normal en el caso de no diferencia o relación; en este caso sí afirmaremos que hay relación entre los criterios de clasificación o que los grupos son distintos (no aceptamos la Hipótesis Nula).
311
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Se trata en definitiva de verificar la probabilidad de que ocurra casualmente lo que nos hemos encontrado en el caso de que no hubiera ni diferencias ni relaciones en la población representada por esos datos. De la misma manera que hay una distribución una distribución normal que ya hemos aplicado en otros casos (medias, diferencias entre medias), hay otra distribución normal para estos planteamientos2. Como en otros casos semejantes procedemos de esta manera: 1º Calculamos Calculamos un un valor (en este caso denomin denominado ado ji ji cuadrado) 2º Consultamos Consultamos una tablas tablas para compro comprobar bar si ese valor valor es probable probable o improbable 3º También, ambién, y como sucede en el contraste contraste de medias, después después de verificar si un valor de ji de ji cuadrado es significativo (poco probable si no hay relación o diferencia), podemos cuantificar el grado de relación mediante una serie de coeficientes para poder apreciar si la relación es grande o pequeña e interpretar mejor los resultados. 2. QUÉ COMP COMPRO ROBA BAMO MOSS MEDI MEDIAN ANTE TE EL c2 Vamos Vamos a centrar la explicación del c2 en uno de los casos más sencillos y frecuentes, cuando tenemos a los sujetos clasificados clasificados en dos categorías de clasificación y clasificación y cada categoría tiene dos niveles o subcategorías. Qué comprobamos mediante el c2 podemos verlo de manera intuitiva. Por ejemplo clasificamos a un grupo de sujetos según la l a variable sexo variable sexo (ser hombre o ser mujer) y según sus respuestas (sí o (sí o no) a una pregunta que es la otra categoría de clasificación. hombre
mujer
totales
Sí
60 (75%)
30 (25%)
90
No
20 (25%)
90 (75%)
110
total
80 (100%)
120 (100%) 200
Es la distribución multinomial denominada de ji cuadrado y que se la debemos a Karl Pearson, earson, a quien ya conocemos a propósito del coeficiente de correlación r de Pearson. 2
312
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
Preguntas que nos hacemos: hacemos: ¿Tiene que ¿Tiene que ver ver el sexo el sexo con el responder sí responder sí o no a esa pregunta? ¿Existe aso¿Existe asociación entre estas dos variables o criterios de clasificación? También podemos preguntarnos lo mismo de esta forma: ¿Son distintos hombres y mujeres en sus respuestas a esa pregunta? A primera vista podríamos responder a estas preguntas que sí que sí hay hay relación entre la pregunta y el sexo: el 75% de los hombres dice que sí frente a sólo un 25% de las mujeres. Para entender lo que nos dice el c2 lo más sencillo es situarnos ante dos posibilidades extremas cuya interpretación no dejaría lugar a dudas: Po P o s i b i l i d a d A
Posibilidad B
hombre
mujer
totales
Sí
40 (50%)
60 (50%)
100
No
40 (50%)
60 (50%)
80 (100%)
120 (100%)
totales
hombre
mujer
totales
Sí
80 (100%)
0
100
100
No
0
120 (100%)
100
200
totales
80 (100%)
120 (100%)
200
En cada grupo la mitad dice que sí Todos los hombres dicen que sí y y la otra mitad dice que no: todas las mujeres dicen que no: Es la distribución más probable en el caso de no asociación. asociación. El sexo no tiene nada que ver con ver con el contenido de la pregunta. El valor de c2 que obtengamos será bajo, como de manera análoga un valor bajo de la t de Student nos indica una diferencia normal y probable.
Es la distribución menos probable en el caso de no asociación. asociación. El sexo sí parece que tiene que ver con el contenido de la pregunta. El valor de c2 que obtengamos será alto, como de manera análoga un valor alto de la t de Student St udent nos indica una diferencia mayor de lo normal.
En este caso:
En este caso:
Hipótesis Nula aceptada ; es Hipótesis Nula no aceptada una distribución probable distribución probable cuando las (no aceptamos el azar el azar ); es la distri-
313
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
dos variables son independientes; cuando una variable no tiene que ver con la otra (en este ejemplo: cuando no hay relación entre el sexo y la respuesta a la pregunta). Las frecuencias observa frecuencias observadas das (las codificadas) no se apartan mucho de las frecuencias teóricas, que son las más probables en caso de no asociación. Hipótesis Alterna no acepta da; el ser hombre o mujer no tiene que ver con ver con cómo se responde a esa pregunta.
bución menos probable cuando las dos variables son independientes; es una distribución fuera distribución fuera de lo normal nor mal (en el caso en que el sexo y el responder sí o sí o no no tuvieran nada que ver). Las frecuencias observadas (las codificadas) se codificadas) se apartan apartan mucho de las frecuencias teóricas, las frecuencias observadas son poco probables en caso de no asociación. Hipótesis Alterna aceptada; el sexo sí sexo sí tiene que ver con las respuestas a esa pregunta.
El ji El ji cuadrado se utiliza con dos tipos de hipótesis que se denominan d enominan así: a) Prue Prueba bass de independencia, cuando hay dos hay dos criterios de clasificación (como en los ejemplos anteriores, con cuadros de doble entrada subdivididos en dos o más niveles); b) Prue Prueba bass de de bondad de ajuste, cuando tenemos un solo criterio de cla sificación (como cuando tenemos un grupo de sujetos, o de objetos, subdividido en varias categorías). 3. FRECUENCIAS OBSERVADAS ( O EMPÍRI EMPÍRICAS CAS ) Y FRECUENCIAS FRECUENCIAS TEÓRICAS ( O ESPERA ESPERADA DASS ) En todos los casos es importante la distinción entre dos tipos de frecuencias (o número de casos ) porque en definitiva lo que hacemos mediante mediante el ji cuadrado es comparar estos dos tipos de frecuencias. a ) Frecuencias observadas (también denominadas empíricas), que son las que observamos y anotamos, b ) Frecuencias teóricas (también denominadas esperadas), que son las más probables (y ciertamente las más claras) en el caso de no relación o no diferencia. diferencia.3 Posiblemente los términos más claros son frecuencias observadas observ adas (más claro que frecuencias empíricas) y frecuencias frecuenci as esperadas (más claro que teóricas). Aquí utilizamos los términos frecuencias observadas y frecuencias teóricas simplemente porque los símbolos ( fo y ft ) no se prestan a confusión ( fe podría ser tanto frecuencia empírica como esperada). 3
314
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
En los casos como los que nos han servido de ejemplo (tablas 2x2 o mayores) se trata de pruebas de independencia, y lo que comprobamos se puede formular de dos maneras y es útil verlo así: 1º Si existe existe relació relación n o asociación o asociación entre las dos variables que han servido de criterio de clasificación; 2º Si dos o más grupos (la pertenencia a un grupo es un criterio de clasificación) difieren ficación) difieren en el otro criterio de clasificación (en realidad se trat rata del mismo planteamiento). En cualquier caso lo que comprobamos es si las frecuencias observadas (representadas en el apartado anterior como posibilidad B) se apartan significativamente de las frecuencias teóricas o esperadas en el caso de no relación o no diferencia (representadas en el apartado anterior como posibilidad A). El c2 lo que nos dice es si las frecuencias observadas están dentro de lo probable en el caso de no asociación. A mayor valor de c2 corresponde una menor probabilidad, por eso con un valor grande de c2 diremos que ese resultado es muy improbable si no hubiera relación, y tan to decimos de cimos relación, y por lo tanto que sí la hay. Para expresarlo en términos muy simples. En el apartado anterior hemos visto dos posibilidades posibilidade s extremas A y B. Esos Es os resultados result ados hipotéticos hipot éticos son muy claros, pero tan claros es difícil que los encontremos. El valor de c2 nos viene a decir lo siguiente: a) Un valo valorr de de c2 pequeño nos dice que nuestros resultados podemos equipararlos a la posibilidad A ( no no hay relación ); relación ); las frecuencias frecu encias que q ue observamos se observamos se parecen parecen mucho mucho a las teóricas o esperadas, a las que tendríamos en caso de no asociación o no diferencia). b) Un valo valorr de de c2 grande nos dice que nuestros resultados podemos interpretarlos como la posibilidad B ( sí hay relación ), las frecuencias que observamos se observamos se apartan apartan mucho mucho de las teóricas o esperadas, las que tendríamos en caso de no asociación o no diferencia. 4. CONDIC ONDICION IONES ES PARA UTILI UTILIZAR ZAR EL c2 1º Se trata trata siempr siempree de observac observacione ioness independientes: al clasificar los sujetos (u objetos) en cada casilla debe haber sujetos haber sujetos distintos; dist intos; no pue de haber sujetos repetidos en más de una casilla. Esta condición es esencial; en ningún caso debe haber sujetos clasificados en más de un lugar. 2º La segunda segunda condición condición es ahora ahora muy discuti discutida: da: que las frecuencias las frecuencias teóricas o esperadas en cada casilla de clasificación no sean inferiores a 5.
315
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Recordamos que las frecuencias teóricas o esperadas son las que habría (o las más probables) en el caso de que no hubiera relación entre las variables (o diferencias entre los grupos clasificados). clasificados). Es tolerable que un 20% de las casillas tengan una frecuencia teórica inferior inferior a 5, pero no deben ser muy inferiores. Cuando las frecuencias teóricas (ya veremos cómo se calculan) son muy pocas, se pueden juntar columnas o filas adyacentes (si hay más de dos) en una sola categoría, con tal de que tenga sentido lógico lógico el hacerlo. Además con muestras muy pequeñas (N<20) y en tablas 2x2 tenemos como alter nativa nativa la prueba la prueba exacta de Fisher mencionada Fisher mencionada más adelante. Esta segunda condición (necesidad de un u n número mínimo de frecuencias teóricas) la discuten ahora bastantes bastantes autores y se puede no tener en cuenta (lo veremos más adelante a propósito de la corrección de Yates ); sí conviene mencionarla porque responde a una práctica muy generalizada y figura en muchos textos. 5. C ÁLCULO DE LAS FRECUENCIAS FRECUENCIAS TEÓRICAS El cálculo de las frecuencias teóricas es necesario porque estas frecuencias entran en la fórmula básica del ji del ji cuadrado, además con un número de sujetos muy pequeño (N < 25, como criterio más bien liberal) si hay frecuencias teóricas inferiores a 5 ya hemos visto que el uso del ji del ji cuadrado cuadrado es discutible. Al calcular las frecuencias teóricas (o esperadas) conviene dejar al menos tres decimales. a) Cuando tenemos un solo criterio de clasificación dividido en varias categorías El cálculo de las frecuencias teóricas es sencillo: número total de sujetos frecuencias teóricas en cad cadaa casi casilllla: a: ––– ––––– ––––– ––––– –––– –––– ––––– ––––– –––– –––– número de clasificaciones
N (=) (=) –– k
Por ejemplo tenemos un grupo de 300 sujetos clasificados en una categoría (preferencia por un color) dividida en tres niveles (tres colores: verde, azul y azul y rojo que pueden ser los colores del envase de un producto comercial; tabla 2).
316
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
Tabla 2
prefieren el color…
Verde 1 60
Azul 100
Rojo 40
total 300
Estas son las frecuencias observadas, frecuencias observadas, ¿Cuáles serían las frecuencias teóricas o esperadas si los tres colores fueran igualmente atrayentes? Los 300 sujetos se repartirían por igual, y cada color tocaría a 100 sujetos; las frecuencias teóricas son por lo tanto 300/3 = 100. Estas frecuencias teóricas o esperadas podrían ser s er otras otras distintas distintas en otras hipótesis; en definitiva lo que hacemos es comprobar si las frecuencias obser vadas se ajustan a las esperadas, espe radas, por esta razón también se s e denomina denomin a a esta est a comprobación prueba comprobación prueba de bondad de ajuste, porque comprobamos si nuestra distribución se distribución se ajusta a un modelo teórico. b) Cuando hay dos criterios de clasificación (cuadros de doble entrada) Las frecuencias teóricas de cada casilla son iguales al producto al producto de las sus umas marginales dividido por el número total de sujetos. En el caso de dos categorías con dos niveles de clasificación (podrían ser más) tendríamos (tabla 3): Tabla 3
¿De dónde viene esta fórmula para calcular las frecuencias teóricas?; en las frecuencias teóricas hacemos un reparto proporcional de las frecuencias f recuencias observadas en la hipótesis de no diferencia o relación. Es un sencilla regla de tres si nos fijamos en el cuadro anterior:
317
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Si de un total de N sujetos… .............................. responden sí (a+b) De un total de (a+c) sujetos .............................. responderán sí X sujetos (a + b) (a + c) Por lo tanto X (ó frecuencias teóricas de a ): .... = –––––––––––––––––– N Es decir, multiplicamos las dos frecuencias marginales y dividimos el producto por el N total. Cuando solamente hay cuatro casillas (tabla 2x2 como en este ejemplo) lo único que nos puede interesar saber es si todas las frecuencias teóricas son superiores a 5; ya que es recomendable que las frecuencias teóricas no sean muy pequeñas; para esto basta empezar calculando la frecuencia teórica más pequeña, y si es superior a 5 ya no hay que hacer más cálculos. Para calcular la frecuencia teórica más pequeña y comprobar que es igual o superior a 5:
Si nos da un valor igual o superior a 5 ya no hay por qué seguir calculando frecuencias teóricas a no ser que sean necesarias para calcular el valor de c2 (y no son necesarias en cuadros con cuatro casillas, 2x2, porque admiten una fórmula más sencilla). Es importante caer en la cuenta de que la suma de las frecuencias observadas debe ser igual a la suma de las frecuencias teóricas: se trata del mismo número de sujetos (u objetos) repartidos con dos criterios: lo que observamos y lo que observaríamos en el caso de no diferencia. Estas dos sumas (de todas las frecuencias obser vadas y de todas las frecuencias teóricas) con frecuencia no son idénticas porque redondeamos los decimales o no utilizamos todos, pero deben ser muy parecidas. 6. GRADOS DE LIBERTAD Los grados de libertad son necesarios para consultar las tablas de la distribución de c2. Recordamos el concepto de grados de libertad: el número de valores que pueden variar libremente manteniendo o imponiendo previamente unas determinadas restricciones a los datos. Dicho de una manera más sencilla y aplicable a este caso y a otros muchos: los grados de libertad son igual al número de valores o datos que pueden variar libremente dado un determinado resul-
318
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
tado (o resultados). El concepto se entenderá mejor al ver cuáles son los grados de libertad precisamente en el ji cuadrado. En los planteamientos más frecuentes (no son los únicos) se calculan de este modo: a) Cuando hay un solo criterio de clasificación Grados de libertad = k -1 (número de categorías menos una) En el ejemplo anterior en el que 300 sujetos están clasificados según elijan A, B ó C (tres categorías de clasificación) los grados de libertad serán 3-1 = 2. Si partimos de un total de 300 sujetos divididos en tres categorías, en dos de ellas podemos poner cualquier número (sus frecuencias pueden variar libremente) pero en la tercera ya no hay libertad para poner cualquier valor: habrá que poner lo que nos falte para llegar a 300. b) Cuando hay dos criterios de clasificación Es decir, tenemos varias columnas y varias filas: Grados de libertad = (f -1)(c -1) (número de filas menos una) por (número de columnas menos una). En el primer ejemplo que hemos puesto (cuadro 2x2): dos columnas ( hombre/mujer ) y dos filas ( sí/no ), los grados de libertad serán (2-1)(2-1) = 1. En este caso partimos de los totales marginales como datos fijos y previos, éstas son las restricciones. En una tabla 2x2, con cuatro clasificaciones, podemos variar libremente solamente la frecuencia (número) de una de las casillas: las demás vendrán forzadas para mantener los totales marginales (si partimos de que a + b = 90, uno de los dos, a ó b, pueden variar libremente, pero el otro valor debe ser necesariamente lo que falte para llegar a 90). 7. FÓRMULA GENERAL DEL JI CUADRADO4 Hay una fórmula general aplicable a todos los planteamientos del ji cuadra do, pero hay también fórmulas más sencillas para planteamientos particulares, que son por otra parte los más frecuentes y de interpretación más sencilla. Ponemos en primer lugar la fórmula general de c2, aplicable en todos los casos: El ji cuadrado en todas sus variantes lo tenemos en programas de ordenador y en numerosas direcciones de Internet que pueden verse en el Anexo II. 4
319
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
fo son las frecuencias observadas, frecuencias observadas, ft son las frecuencias teóricas. se calcula en cada casilla y se suman todos estos valores.
La fracción
El valor resultante de esta suma se consulta en las tablas de c2 según los grados de libertad que correspondan. Aunque esta e sta fórmula fó rmula es válida v álida para p ara todos tod os los lo s casos, casos , hay planteamientos, planteamient os, que son también los más frecuentes (como las tablas 2x2), que admiten fórmulas más sencillas. Vamos a ver ahora los casos más frecuentes con sus fórmulas específicas. 8. MÉTOD ÉTODOS OS APLI APLICA CABL BLES ES CUAN CUANDO DO TENE TENEMO MOSS UN SOLO SOLO CRIT CRITER ERIO IO DE CLASI CLASIFI FICA CACI CIÓN ÓN DIVI DIVIDI DIDO DO EN DOS DOS NIVE NIVELE LESS
Por ejemplo, preguntamos a un grupo de N = 60 si está a está a favor o favor o en contra de una determinada proposición y obtenemos estos resultados (tabla 4): Tabla 4
A favor 40
En contra 20
total 60
Este análisis es muy útil pues es muy normal presentar a un grupo una serie de preguntas con respuestas sí respuestas sí o o no mutuamente excluyentes ¿Cuándo predomina una de las dos respuestas más allá de lo probable por azar? La pregunta que nos hacemos en nuestro ejemplo es si existe e xiste una diferencia estadísticamente significativa (por encima de lo puramente aleatorio) entre 40 y 20 (o entre dos proporciones o porcentajes obtenidos en la misma muestra). Tenemos dos maneras de llegar lle gar a una respuesta; una a través del ji del ji cua drado, y otra utilizan util izando do la distri la distribuci bución ón binomial; binom ial; con ambas llegamos al mismo resultado. Aunque aparentemente haya muchas fór mulas, mulas, en realidad todas son equivalentes y muy sencillas; posiblemente con la [2] o con la [5] podemos resolver todas las situaciones en las que queramos hacer este análisis.
320
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
8.1. Ji cuadrado Tenemos dos sencillas fórmulas que dan idéntico resultado. 1. Podemos aplicar en primer lugar la fórmula [1], que es la fórmula general del ji del ji cuadrado. cuadrado. Lo primero que tenemos que hacer es calcular las frecuencias teóricas, que en este caso son 60/2 = 30: si no hubiera más diferencia entre las dos respuestas que la puramente casual, la frecuencia teórica más probable sería la que resulta de repartir por igual el número de sujetos entre las dos categorías.
En las tablas vemos que con un grado de libertad (= libertad (= k -1) los valores críticos de c2 son estos: si c2 > 3.841 tenemos que p < .05 > 6.635 p < .01 > 10.827 p < .001 En nuestro ejemplo p < .01: no aceptamos la Hipótesis Nula y aceptamos que la diferencia entre 40 ( a favor ) y 20 ( en en contra ) es superior a lo l o que se puede encontrar por azar en el caso de que no hubiera una diferencia mayor de lo casual entre las dos posturas representadas por estas respuestas ( a favor favor o en contra o cualesquiera otras dos alternativas mutuamente excluyentes). 2. Sin entrar ahora en más explicaciones podemos ver que en estos casos ( un un grado de libertad ) c2 = z2; el valor correspondiente de z para a = .05 recordamos que es 1.96 y 1.96 2 = 3.841, que es el valor correspondiente de c2. En estos casos, un mismo grupo dividido en dos niveles de clasificación, tenemos sin embargo una fórmula más sencilla [2], en la que f 1 y f 2 son las dos frecuencias, 40 y 20:
Esta fórmula [2] podemos aplicarla siempre que N sea > 25; con números más bajos (N < 25) también suele recomendarse aplicar la corrección de Yates, que consiste en restar una unidad al numerador antes de elevarlo al cuadrado (fórmula [3]). De todas maneras ya veremos que la eficacia de esta corrección es muy discutida (porque corrige en exceso ).
321
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Con números pequeños es sin embargo preferible prescindir de esta corrección y acudir directamente a las tablas de la distribución la distribución binomial, que nos dan directamente la probabilidad un obtener obtene r una determinada diferencia entre dos frecuencias cuando N es muy bajo. 8.2. Aplicación de la distribución binomial Cuando tenemos un grupo dividido en dos categorías podemos aplicar directamente la distribución la distribución binomial binomial.. Cuando un grupo (sujetos, respuestas, objetos) de tamaño N se divide en dos categorías que se excluyen mutuamente (como antes, a antes, a favor favor o o en contra ) podemos ver si la proporción proporción de sujetos en cada categoría (p y q) se aparta significativamente de p = q = .50 (que sería la Hipótesis Nula: idéntico número de sujetos encada categoría). Vamos Vamos a verlo con muestras pequeñas (N < 25) y muestras que ya van siendo mayores (N > 25). 8.2.1. Cuando N < 25 En estos casos no necesitamos hacer ningún cálculo (ni aplicar la fórmula [3]); nos basta consultar las tablas de la distribución binomial que nos dan la probabilidad exacta que tenemos de encontrar por azar cualquier división de N sujetos (N < 25) en dos categorías. Estas tablas podemos encontralas en numerosos textos de estadística y también disponemos de cómodos programas en Internet (Anexo II)5. En estas tablas tenemos los valores de N y de X (número de sujetos en cualquiera de las dos categorías) y la probabilidad la probabilidad de de encontrar X en N sujetos o casos. Suponemos que en principio p = q, es e s decir que hay dos categorías con idéntica probabilidad (p = q = .50). 8.2.2. Cuando N > 25 Cuando aumenta el número de casos o sujetos, la distribución binomial se va pareciendo a la distribución la distribución normal. En estos casos podemos hacer algo análogo al contraste de medias. Un programa muy cómodo es GRAPHP AD; basta introducir el número total de sujetos (objetos, etc.) y el número de los clasificados en una de las dos categorías. 5
322
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
Esta distribución normal y aleatoria (la que podemos esperar si entre las dos categorías no hay más diferencias que las casuales) tiene su media y su desviación típica: Media
(los sujetos tienden a repartirse por igual en las dos categorías)
Desviación típica Pero como en este caso p = q = .50, tenemos que pq = .25, por lo tanto la desviación típica será igual a: Desviación típica
Podemos utilizar cualquiera de estas expresiones para calcular la desviación típica. Ahora podemos comparar nuestra media (cualquiera de las dos frecuencias; número de sujetos en cualquiera de las dos categorías) con la media más probable por azar y que es N/2: Donde X es cualquiera de las dos frecuencias; con las dos llegamos al mismo resultado aunque con distinto signo, como podemos comprobar:
En nuestro ejemplo (40 a (40 a favor y y 20 en contra, total N = 60) tendremos: donde X = los 40 que están a están a favor
donde X = los 20 que están en contra
323
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En estos casos (un grupo dividido en dos categorías) c2 = z2 y z =
;
Podemos verificarlo: z2 = 2.5822 = 6.67, que es el valor de c2 encontrado antes (y las probabilidades son las mismas, p<.01) La fórmula [4] es la más clara porque expresa lo que estamos haciendo (una diferencia entre medias dividida por una desviación típica), pero puede simplificarse notablemente si utilizamos la fórmula [5] (f 1 y f 2 son las dos frecuencias):
De todas estas fórmulas ¿Cuál es la l a preferible? La que resulte más cómoda; la única salvedad es que todas estas fórmulas son adecuadas cuando N no es muy bajo (preferiblemente no menos de N = 50). Ya Ya hemos indicado que: a) Cuando N es igual o inferior inferior a 20, podemos acudir acudir directamente directamente a las tablas de la distribución la distribución binomial (que nos da la probabilidad de obtener cualquier valor de X para cualquier valor de N hasta 20 o incluso más, según las tablas de que dispongamos). b) Cuando N está entre 20 y 50 podemos aplicar aplicar la fórmula [3], o la [5] (más cómoda que la [4]), pero restando una unidad al numerador (en valores absolutos), o podemos aplicar la fór mula mula [4] con la llamada corrección por continuidad, tal como aparece en la fórmula [6]
Sumamos o restamos .5 de manera que el numerador sea menor en términos absolutos.
8.2.3. La prueba prueba de los signos: signos: aplicac aplicación ión de la distri distribuc bución ión binomi binomial al para para compr comprobar obar cambios cambios Una aplicación popular y sencilla para verificar cambios es la conocida como prueba mo prueba de los signos que es útil introducir aquí. Lo veremos con un ejemplo. De un grupo de sujetos tenemos sus respuestas a una simple pregunta, por ejemplo sobre la utilidad de la asignatu-
324
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c c2)
ra, con respuestas graduadas de este estilo: ninguna, alguna, bastante y mucha. Los sujetos responden al comienzo del curso ( antes ) ) y al finalizar el curso ( después ) ) (tabla 5). sujeto
Respuesta antes
Respuesta después
Signo de la diferencia
1 2 3 4 5 6
3 1 2 4 4 2
4 3 2 2 5 4
+ + 0 + +
Tabla 6
El número de sujetos es N = 6, pero tenemos en cuenta solamente el número de cambios, por lo tanto N = 5 porque un sujeto (el nº 3) no ha cambiado. t abla 4): Podemos disponer los datos de esta manera (tabla 7, semejante a la tabla Cambios positivos Cambios positivos 4
Cambios negativos 1
Total de cambios 5
Tabla 7
Podemos aplicar ahora cualquiera de los procedimientos anteriores ( ji ) según el número n úmero de sujetos ( número cuadrado, distribución binomial ) número de cambios ) ) que tengamos. Es obvio que estamos teniendo en cuenta solamente la dirección del cambio y cambio y no la magnitud del cambio; cambio; aprovechamos mejor la información un disponible con otros métodos de análisis, como un contraste de d e medias. A un así con medidas pobres, a veces improvisadas y que no nos inspiran mucha confianza, la prueba de los signos puede ser una buena alternativa. También cabría hacer una única pregunta al final, como un sondeo rápido de opiniones o impresiones de este estilo: ¿V estilo: ¿Ves es ahora la asignatura asignatu ra más útil que al comienzo del curso? Con curso? Con unas respuestas muy simples, más útil (cambio positivo), menos útil (cambio negativo ), igual de útil útil (sin cambio).
325
ESTADÍSTICA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES ÉTODOS OS APLI APLICA CABL BLES ES CUAN CUANDO DO TENE TENEMO MOSS UN SOLO SOLO CRIT CRITER ERIO IO DE CLASI CLASIFI FICA CACI CIÓN ÓN DIVI DIVIDI DIDO DO 9. MÉTOD PRUEBAS DE BONDAD BONDAD DE AJUSTE ) EN MÁS DE DOS NIVELES (
A esta aplicación del ji del ji cuadrado se le denomina también prueba de bon dad de ajuste porque comprobamos si una distribución de frecuencias obser vadas se vadas se ajusta a una distribución teórica. 9.1. Cuando las frecuencias esperadas son las mismas El planteamiento más frecuente lo veremos con un ejemplo: 600 personas eligen entre tres marcas, A, B y C de un mismo producto, su marca preferida (tabla 8): ¿Hay diferencias entre las marcas por encima de lo puramente aleatorio? Tabla 8
frecuencias observadas: frecuencias observadas: frecuencias teóricas:
A 17 0 20 0
A 20 0 20 0
C 23 0 20 0
total 60 0 60 0
Las frecuencias teóricas son las que habría que habría si no hubiera diferencias entre las marcas; es la distribución teórica más probable en caso de no diferencia: número total de casos dividido por el número de categorías de clasificación, 600/3 = 200 (las tres marcas son igualmente preferidas). En este caso se aplica la fórmula general del ji del ji cuadrado cuadr ado (fórmula [1]) que además se puede utilizar en todos los casos:
Grados de libertad: número de categorías de clasificación menos una: 3-1 = 2 grados de libertad. En las tablas tenemos que con dos grados de libertad y c2 = 9; p <.05 (superamos el valor de 5.99 que tenemos en las tablas). La probabilidad de que la distribución de las frecuencias observadas (170/200/230) sea casual, en el que caso de que las marcas fueran igualmente preferidas, es inferior al 5% (de hecho es inferior al 2%), por lo que concluimos que sí que sí hay hay diferencias significativas entre las marcas. Cabría ahora parcializar los datos y comparar las marcas de dos en dos; (al menos podemos afirmar que la marca A es significati vamente menos preferida que la marca C).
326
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
9.2. Cuando las frecuencias esperadas son las de la distribución normal Esta prueba de bondad de ajuste se utiliza también para comprobar si una distribución se ajusta a la distribución normal. En este caso las categorías de clasificación son intervalos y las frecuencias teóricas son las que cor responderían en la distribución nor mal. Aunque una distribución puede dividirse en intervalos de muchas maneras, lo más cómodo es dividir la distribución en intervalos que tengan un idéntico número de sujetos, para facilitar las operaciones. Si se divide en 10 intervalos, puede quedar como aparece en la tabla 9. frecuencias teóricas: Tabla 9 10%
z:
10%
-1.28
10%
-0.84
10%
-0.52
10%
-.025
10%
10%
10%
10%
10%
0.00 +0.25 +0.52 +0.84 +1.28
Podríamos haber hecho otra agrupación distinta, de manera que en cada intervalo tuviéramos el 20% de los casos, o podríamos tener intervalos con frecuencias esperadas distintas, como sucede cuando utilizamos los estaninos o los pentas. Si en cada intervalo vamos a tener el 10% de las frecuencias teóricas y tenemos N = 200, en cada intervalo tendríamos 20 sujetos en las frecuencias teóricas; a cada sujeto le calculamos su puntuación típica, y lo situamos en el intervalo que le corresponda: estas son nuestras frecuencias observadas, y aplicamos por último la fórmula [1]. Grados de libertad: En este caso debemos tener en cuenta para consultar las tablas que los grados de libertad son igual al número de intervalos menos tres (k-3), porque partimos de tres restricciones iniciales: los valores de N, de la media y de la desviación típica. En esta comprobación lo que nos interesa comprobar es que el valor de c2 es inferior al de las tablas: en este caso no habría diferencia entre las frecuencias observadas y las del modelo teórico, y podemos concluir que nuestra distribución se aproxima a la distribución normal. Un resultado estadísticamente significativo nos diría que la distribución no puede considerarse normal.
327
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
¿Es práctico o importante hacer esta comprobación de normalidad de una distribución? Por lo general no; nos puede bastar una inspección de los datos para ver si una distribución se aparta apreciablemente de la distribución normal, pero en muchos planteamientos de análisis podemos necesitar la verificación de que las distribuciones en la población son normales. Cuando esto es necesario o bien nos lo hacen ya los programas de ordenador, o hay métodos no paramétricos más sencillos (como el de Kolmogorov-Smirnov). Aun así es útil conocer estas pruebas de bondad de ajuste para entender lo que nos puede dar hecho un programa de ordenador. 10. T ABLAS 2 X 2: DOS CRITERIOS DE CLASIFICACIÓN CON DOS NIVELES CADA UNO Es éste uno de los planteamientos más frecuentes y útiles, como los ejemplos puestos al comienzo para introducir el c2. En general los cuadros de doble entrada ( cruzar los datos ) son muy útiles para detectar ya de manera intuitiva diferencias y relaciones. Podemos distinguir dos planteamientos: para muestras independientes (el más habitual) y para muestras relacionadas. En ambos casos la disposición de los datos es la misma. 10.1. Tablas 2x2 para muestras independientes 10.1.1. Modelos de tablas 2x2: cómo clasificar a los sujetos El uso más frecuente del ji cuadrado está seguramente en el análisis de este tipo de tablas (2x2; dos criterios de clasificación cada uno dividido en dos niveles), por esta razón exponemos diversos criterios que pueden emplearse para clasificar a los sujetos en dos categorías. Proponemos cuatro modos de clasificar a los sujetos; realmente todos son equivalentes, pero el tener a la vista ejemplos distintos nos puede sugerir preguntas a las que podemos responder con estos análisis. a) Sujetos clasificados según dos grupos de pertenencia o dos características personales Los sujetos pueden pertenecer a dos grupos a la vez; el término grupo hay que entenderlo con amplitud, y viene a ser lo mismo que par ticipar de una característica común. Por ejemplo, en una universidad podemos tener alumnos de primer curso que pertenecen a una facultad o carrera (un grupo de pertenencia) y a la vez pueden estar estudiando en su lugar habitual de residencia o pueden haber venido de otra localidad (tabla 10).
328
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
Tabla 10
La pregunta que nos hacemos es ésta: ¿Es una carrera más atractiva que la otra para los que viven fuera? En la carrera A hay más alumnos de fuera que en la carrera B; ¿Es esta diferencia superior a lo que podríamos encontrar por azar? Los porcentajes dentro de cada celda pueden estar referidos a los totales de las filas o a los totales de las columnas (o a ambos), lo que resulte más informativo en cada caso. b) Sujetos clasificados según 1º grupo de pertenencia y 2º respuestas a una pregunta El grupo de pertenencia puede ser también una característica personal, etc. y la pregunta puede expresar conocimientos, actitudes, etc.; realmente se trata del mismo caso anterior, pero una presentación matizada y con ejemplos de estos criterios para clasificar a los sujetos sugiere más posibilidades de análisis con los datos que tenemos o que podemos fácilmente obtener. Por ejemplo podemos preguntar al terminar el curso a los alumnos del primer curso de dos carreras si están de acuerdo con esta afirmación: la estadística me va a ser muy útil en mi trabajo profesional (si en las dos carreras se cursa la misma asignatura) (tabla 11). Tabla 11
329
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Como antes, podemos preguntarnos por la diferencia entre las dos carreras en aprecio de una asignatura; o lo que es lo mismo, podemos preguntarnos si hay relación entre estudiar una carrera y juzgar que una asignatura es útil. La pregunta anterior podemos proponerla con dos respuestas ( de acuer do o en desacuer do) o con más respuestas (desde muy en desacuerdo hasta muy de acuerdo ); en este caso dicotomizamos (agrupamos en dos categorías) las respuestas. Cuando varias respuestas las reducimos a dos solamente, estamos prescindiendo de información que de hecho tenemos disponible, y en estos casos el ji cuadrado puede que no sea el método más apropiado para analizar los datos. De todas maneras el agrupar las respuestas en dos posibilidades para hacer un cuadro 2x2 es útil para simplificar la información. Cuando dicotomizamos las respuestas, una manera de hacerlo es utilizando la mediana (y en la zona del acuerdo y del desacuerdo quedará más o menos el mismo número de sujetos), o podemos agrupar las respuestas según su significado literal; en cualquier caso debemos exponer qué es lo que hemos hecho. c) Pr ueba de la mediana Con este término, prueba de la mediana, se denomina otra manera de clasificar a los sujetos. que quedan clasificados en estos dos criterios: 1º según grupo de pertenencia y 2º según estén por encima o por la debajo de la me diana común en un mismo test o escala. En el ejemplo anterior (tabla 11) veíamos la posibilidad de dicotomizar las respuestas a una sola pregunta. En este caso (tabla 12) no se trata ya de una pregunta sino de todo un test, escala, etc., que mide de manera más clara y fiable una determinada característica. Este análisis tiene incluso su propio nombre: prueba de la mediana. El proceso es el siguiente: 1º Todo los sujetos, pertenecientes a dos grupos, responden al mismo instrumento (test, escala). 2º Calculamos la mediana común a todos los sujetos (la puntuación que divide a todos lo sujetos, juntándolos en un solo grupo, en dos mitades iguales aproximadamente). En un ejemplo similar anterior (tabla 11) podríamos sustituir la pregunta sobre una asignatura por una escala de actitudes hacia la asignatura de estadística.
330
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
Tabla 12
En términos simples, la pregunta que nos hacemos es la siguiente: Uno de los dos grupos ¿Coloca más sujetos que el otro por encima de la mediana común, en la mitad superior? Si en el caso anterior adver tíamos que dicotomizar las respuestas a una pregunta supone perder información, en este caso la pérdida es mucho ma yor . En vez de utilizar la puntuación individual de cada sujeto en el test o escala, sólo nos fijamos si está por encima o por debajo de la mediana común. En este caso el análisis en principio más idóneo no sería el ji cuadrado sino un contraste de medias entre las dos carreras. Sin embargo este análisis también puede ser oportuno, bien como complemento informativo a un contraste de medias, o porque nos parece suficiente, o porque la medida utilizada es poco fiable y es más seguro dicotomizar las respuestas en dos grandes categorías. d) Un mismo grupo clasificado según sus respuestas a dos ítems o preguntas Seguimos con el mismo esquema; en los casos anteriores siempre teníamos dos grupos (o un grupo que lo consideramos como dos grupos en función de alguna característica que nos permite dividir a los sujetos en dos subgrupos); lo que pretendíamos es en última instancia verificar diferencias entre grupos. Ahora tenemos un solo grupo y el énfasis lo ponemos en el análisis de la relación entre las preguntas. Por ejemplo (el ejemplo es real, tabla 13), los alumnos de una clase expresan su grado de acuerdo con estas dos afirmaciones: la suerte influye mucho en los exámenes y me divierte estudiar . Si las respuestas son más de dos, las podemos agrupar en dos categorías (con la consiguiente pérdida de información pero no por eso deja de ser útil este análisis).
331
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Tabla 13
¿Están relacionadas las dos opiniones o actitudes o son independientes? Este planteamiento del ji cuadrado suele denominarse prueba de inde pendencia. También podemos conceptualizar este planteamiento como el de una comprobación de diferencias entre dos grupos: el grupo que cree en la suerte ¿se diferencia en actitud hacia el estudio del grupo de los que no creen en la suerte? Salta a la vista que si tenemos puntuaciones continuas el cálculo que en principio parece más oportuno es un coeficiente de correlación, pero esta disposición de los datos es también muy informativa. Si los datos son genuinamente dicotómicos (1 ó 0) también disponemos de un coeficiente de correlación ( f ) que veremos después y que podemos calcular directamente o como complemento al ji cuadrado. 10.1.2. Cómo analizar los datos En estos casos (cuadros 2x2, muestras independientes) podemos abordar el análisis al menos con dos enfoques que nos llevan a los mismos resultados: 1º Ji cuadrado (y prueba exacta de Fisher para muestras muy pequeñas) 2º Contraste de proporciones entre muestras independientes Del ji cuadrado podemos pasar al cálculo de coeficientes de correlación o de asociación (puestos en el apartado nº 12). Cuando el número total de sujetos es muy pequeño (N < 20), podemos aplicar la prueba exacta de Fisher, que no requiere ningún cálculo, sino simplemente consultar las tablas apropiadas 6. La prueba exacta de Fisher la exponemos más adelante. Estos enfoques metodológicos ( ji cuadrado y contraste de proporciones ) suelen estar en los textos en apartados dis6
332
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
1º Ji cuadrado a) Planteamiento y fórmulas Disponemos los datos como es usual (e incluyendo los porcentajes si es conveniente con fines informativos). Una observación importante: Convencionalmente las frecuencias de las cuatro casillas las simbolizamos con las cuatro letras a, b, c y d . Conviene ponerlas siempre de la misma manera porque en las fór mulas asociadas a este planteamiento se supone que se han puesto en ese orden; en alguna fórmula que veremos esto es especialmente importante. Cuando los datos se codifican como 1 ó 0 ( sí o no, bien o mal, etc.), y el cero significa mal, en desacuerdo, no, etc., es importante que el no, mal, etc. (lo que codificamos con un 0) estén puestos en la fila c y d (para una variable), y en la columna a y c (para la otra variable), tal como lo ponemos aquí. Los dos ceros confluyen en c; en ese ángulo se sitúan los valores menores cuando se trata de coordenadas. Naturalmente el 0 y el 1 no tienen sentido como juicio de valor cuando sólo significan per tenecer a un grupo u otro (varón o mujer, un curso u otro, etc.). Aunque podemos aplicar la fórmula [1], disponemos de fórmulas más sencillas, como son las fórmulas [7] y [8].
La fórmula [7] es la habitual, y la que se utiliza siempre, al menos cuando N no es muy inferior a 40. b) Observación sobre la corrección de Y ates y el número de sujetos La fórmula [8] incluye la llamada corrección de Yates (restar N/2 a la diferencia entre ad y bc en valores absolutos antes de elevarla al cuadrado)7, y tintos y posiblemente es lo más apropiado desde una perspectiva más teórica. Como alternativa y complemento, y con un enfoque quizás más pragmático, preferimos poner aquí juntos los distintos procedimientos cuando son válidos para analizar los mismos datos. 7 Frank Yates, británico, propuso esta corrección en 1934 (Yates, F (1934). “Contingency table involving small numbers and the ¯ 2 test”. Journal of the Royal Statistical Society (Supplement) 1: 217-235).
333
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
suele recomendarse cuando los sujetos son pocos (N < 40) o cuando alguna frecuencia teórica no llega a 5. Aunque esta corrección de Yates (y el requisito de que las frecuencias teóricas no sean inferiores a 5) viene rutinariamente en muchos textos (y en programas de ordenador), hace tiempo que se cuestiona su necesidad o conveniencia porque una serie de estudios muestran que con esta corrección la prueba del ji cuadrado se convierte en una prueba demasiado conservadora (no se rechaza la Hipótesis Nula cuando se podría rechazar legítimamente) 8. La recomendación tradicional es a) aplicar la corrección de Yates en tablas 2x2 cuando una frecuencia teórica es inferior a 5 y b) no utilizar el ji cuadrado en tablas mayores si el más del 20% de las frecuencias teóricas es inferior a 5. c) Orientaciones prácticas para tablas 2x2 Posiblemente la práctica más aconsejable en tablas 2x2 es: 1) Prescindir de esta corrección (fórmula [8]) y utilizar habitualmente la [7]. Cuando no aplicamos esta corrección en las situaciones en las que suele o solía ser recomendada, tenemos una prueba más liberal 9. 2) No utilizar el ji cuadrado con pocos sujetos (no muy inferior a N = 40 es una recomendación segura).10 3) Con muestras muy pequeñas (en torno a N = 20) utilizar la prueba exacta de Fisher (en el apartado siguiente) A pesar de que esta fórmula [8] se sigue recomendando, ya se va viendo cuestionada en bastantes textos (como el de Daniel, 1981), suprimida y no recomendada en otros como innecesaria (como en el de Runyon y Haber, 1984; Rosenthal y Rosnow, 1991; Spatz, 1993; Hinkle, Wiersma y Jurs, 1998), y esta no recomendación es elogiada en recensiones publicadas en revistas de prestigio en este campo (Morse, 1995). Estos autores mencionan las investigaciones en las que se apoyan, y aquí los citamos a título de ejemplo (se pueden buscar más citas autorizadas) porque la supresión de esta corrección de Yates (que data de 1934) todavía supone ir en contra de una práctica muy generalizada. El consensus parece ser que esta cor rección hace del ji cuadrado una prueba excesiva e innecesariamente conservadora (Black, 1999:580). Otros autores (Heiman, 1996) siguen recomendando el que las frecuencias teóricas sean superiores a 5 (en tablas 2x2) pero omiten la corrección de Yates. Un comentario más amplio y matizado sobre la corrección de Yates y otras alternativas puede verse en Ato García y López García (1996). 9 El programa de VassarStats (Internet, Anexo II) calcula el ji cuadrado con y sin la corrección de Yates. 10 No hay un acuerdo claro sobre el número mínimo de sujetos en el ji cuadrado; Rosenthal y Rosnow (1991:514) mencionan N = 20 pero advierten que frecuencias teóricas muy bajas pueden funcionar bien en muestras todavía más pequeñas. 8
334
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
d) Ejemplo resuelto Podríamos utilizar la fórmula [1], que se puede aplicar siempre, pero es mucho más cómoda la fórmula [7] que es la que generalmente se utiliza en estos casos. Tenemos 161 sujetos clasificados según el grupo al que pertenecen (A o B) y sus respuestas a una pregunta (sí o no). Disponemos los datos en un cuadro de doble entrada (tabla 14). Tabla 14
Los grados de libertad son: (columnas menos una) por (filas menos una) = (2-1) (2-1) = 1 totales 90 (100%) 71 (100%). La probabilidad de que estas frecuencias sean aleatorias son inferiores al 1/1000 (p < .001), ya que nos pasamos del valor señalado en las tablas (10.827). Podemos concluir que las dos variables que han servido de criterio de clasificación (responder sí o no a una pregunta y pertenecer a uno u otro grupo) están relacionadas (o lo que es lo mismo, los grupos difieren significativamente en sus respuestas). e) Cálculo complementario: coeficiente de correlación Un valor grande de c2 nos da mucha seguridad para afirmar que existe asociación entre las dos variables, pero no nos dice si la relación es grande o pequeña. Para cuantificar el grado de relación tenemos que acudir a alguno de los coeficientes relacionados con el c2 puestos al final (apartado nº 12).
335
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
En el caso de tablas 2x2 y con variables dicotómicas (que se excluyen mutuamente) el coeficiente apropiado es el coeficiente ? (fi, fórmula [15] que repetimos aquí), que es el mismo coeficiente r de Pearson cuando las dos variables son dicotómicas (1 y 0):
La relación entre pertenencia a un grupo u otro y responder sí o no a esa pregunta es moderada. Si hacemos que pertenecer al grupo A = 1, y pertenecer al grupo B = 0, y decir que sí = 1 y decir que no = 0 y calculamos el coeficiente r de Pearson, obtendremos el mismo resultado. Disponemos también de otros coeficientes de relación para tablas mayores (el coeficiente de contingencia C es el más popular aunque no el único); los exponemos y valoramos brevemente en el apartado nº 12. 2º Prueba exacta de Fisher En tablas 2x2 y con un N bajo (ciertamente < 20) es preferible la prueba exacta de Fisher: basta consultar las tablas apropiadas, en las que vienen todas las combinaciones posibles de a, b, c y d con N = 20 o menos (una tabla para cada valor posible de N). Las tablas nos indican qué combinaciones tienen una probabilidad de ocurrir por azar inferior al 5% o al 1% 11. Otra alternativa cómoda (además de los programas informáticos más comunes) es utilizar alguno de los varios programas disponibles en Internet 12. 3º Contraste entre proporciones (muestras independientes) Como alternativa que da idénticos resultados, podemos utilizar el contraste entre proporciones (o entre porcentajes si multiplicamos por 100) para muestras independientes (fórmula [9]). Obtendremos un valor de z, pero ya sabemos que en estos casos z2 = c2 El procedimiento ya está explicado en el contraste de medias pero es útil repetirlo en este contexto para ver su equivalencia con el c2: dividimos una diferencia entre proporciones por el error típico de la diferencia entre dos proporciones, que está en el denominador de la fórmula [9]. En rigor lo que Estas tablas se encuentran en algunos textos (como el de Siegel, 1972; Siegel y Castellan, 1988 [tabla 35]; Langley, 1973; Leach, 1982) o en compendios de tablas estadísticas (como en Meredith, 1971 y en Ardanuy y Tejedor, 2001, tabla I). 12 Anexo II; en estos programas (como GRAPHP AD ) basta introducir en el cuadro de diálogo las cuatro frecuencias a, b, c y d. 11
336
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
tenemos en el numerador no es la diferencia entre dos proporciones, sino la diferencia entre una diferencia (la nuestra) y una diferencia de cero. En la fór mula [9] tenemos en el denominador el error típico de la diferencia entre dos proporciones. Utilizamos como ejemplo los mismos datos de la tabla anterior [14].
Y aplicando la fórmula [9] a nuestros datos:
Ya sabemos que con un grado de libertad c2 = z2: 5.2892 = 27.97; llegamos a la misma conclusión que con la prueba del c2. Los resultados son idénticos si utilizamos todos los decimales. 10.2. Tablas 2x2 para muestras relacionadas 10.2.1. Procedimientos a) Ji cuadrado ( prueba de McNemar ) Las fórmulas vistas hasta ahora, y referidas al ji cuadrado, son todas equi valentes a la fór mula [1]. Las fór mulas para muestras relacionadas nos sir ven para comparar dos proporciones (o porcentajes) cuando los mismos sujetos pueden estar incluidos en los dos grupos (y en este sentido se trata de muestras relacionadas, como se puede apreciar con claridad en los ejemplos específicos que ponemos después para ilustrar las aplicaciones de este procedimiento).
337
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
La fórmula [10] se utiliza cuando (a + d) es igual o mayor de 10; La fórmula [11] se utiliza cuando (a + d) < 10; se resta una unidad al numerador poniendo el signo + a la diferencia; se trata de disminuir esta diferencia antes de elevarla al cuadrado. Estas fórmulas corresponden a la denominada prueba de McNemar (y así figura en muchos textos). En estos casos los grados de libertad son igual a 1. Recordamos la observación importante que ya hemos hecho sobre los símbolos utilizados: a y d son las celdillas donde se sitúan las frecuencias discrepantes a y d ( sí/no y no/sí; 0/1/ y 1/0), por lo que esas fórmulas, expresadas con estos símbolos, sólo tienen sentido si los datos están bien dispuestos. b) Contraste entre proporciones relacionadas Podemos también hacer un contraste de proporciones para muestras relacionadas; como en estos casos (tablas 2x2, un grado de libertad) c2 = z2, la fórmula queda simplificada así: Veremos la utilidad de estas fórmulas con dos ejemplos referidos a dos planteamientos útiles y frecuentes. 10.2.2. Aplicaciones específicas a) Para comprobar cambios Clasificamos a los sujetos según hayan respondido sí o no (o de acuerdo o en desacuerdo, 1 ó 0, etc.) en dos ocasiones distintas. Podemos suponer que hemos preguntado a nuestros alumnos si les interesa la asignatura en dos ocasiones, primero al comenzar el curso y más adelante al ter minar el curso (tabla 15). Tabla 15
338
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
Al comenzar el curso la asignatura interesa a 10 alumnos (17% del total); al terminar les interesa a 39 (65% del total). Nos interesa comprobar si este 65% es significativamente superior al 17% inicial. Se trata de muestras relacionadas porque hay sujetos que están en los dos grupos (como los 4 sujetos en (b), interesados tanto antes como después y los 15 en (c) a quienes no interesa la asignatura ni al comienzo ni al final). En todas estas tablas hay que prestar atención a la disposición de los datos de manera que en la celda (c) coincidan los dos ceros y en la celda (b) los dos unos. b) Para comprobar una diferencia entre proporciones relacionadas Se trata del mismo caso anterior pero nos formulamos la pregunta de otra manera. Repetimos los mismos datos, pero ahora se trata de dos preguntas de un examen, y respondidas por lo tanto en la misma ocasión (no antes y después) y que pueden estar bien o mal respondidas; queremos comparar su nivel de dificultad; ver si una es más difícil que la otra (tabla 16). Tabla 16
Si queremos saber si una pregunta está relacionada con la otra (si el saber una supone saber también la otra ) utilizaremos la fórmula convencional; en este caso la [1] o la [7]. Pero si lo que queremos es comprobar si una pregunta es más difícil que la otra ( como en este ejemplo ), estamos en el mismo caso anterior (muestras relacionadas, lo mismo que para comprobar un cambio) La pregunta 1ª la ha respondido cor rectamente el 65% (39 alumnos), y la 2ª el 17% (10 alumnos). Como algunos alumnos han respondido bien las dos, tenemos muestras relacionadas. En ambos casos aplicamos la fórmula [10] porque a + d = 41 (>10), y tenemos que:
339
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Con un grado de libertad tenemos que p <.001; nuestra conclusión es que ha habido cambio en el primer ejemplo y que una pregunta es más difícil que la otra en el segundo ejemplo. En ambos casos la diferencia entre [a+b] y [b+d] es superior a lo que se puede esperar por azar. Si preferimos un contraste de proporciones para muestras relacionadas, podemos utilizar la fórmula [12] para obtener el valor de z: ; el resultado es el mismo
10.2.3. Adaptación de la prueba de McNemar (muestras relacionadas) para tablas mayores (nxn) La fórmula de McNemar es apropiada para tablas 2x2, pero se puede adaptar para tablas mayores, como en este ejemplo para comprobar un supuesto cambio. La pregunta que se ha hecho antes y después admite en este caso tres respuestas: sí, no sé y no (podrían ser otras categorías de respuesta o de observación, como bien, regular y mal si hay criterios claros para este tipo de clasificación). Tabla 17a
Tabla 17b
Como en tablas semejantes, los noes (el nivel más bajo) deben coincidir en la celda inferior izquierda y los síes (el nivel más alto) en la celda superior derecha (tabla 17a). Lo que hemos hecho (tabla 17b) es agrupar los cambios negativos (de sí a no y a no sé, y de no sé a no ) y los cambios positivos (de no a no sé y sí y de no sé a sí ), y ya tenemos los dos valores, a y d, de la fórmula [10]. (32 – 10)2 Ahora podemos aplicar la fórmula [10]: c2 = ––––––––– = 11.52, p < .001; 32 + 10
340
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
Podemos concluir que sí ha habido un cambio positivo superior a lo que cabría esperar por azar. 13 11. DOS CRITERIOS ( TABLAS NXN )
DE CLASIFICACIÓN, CADA UNO DIVIDIDO EN DOS O MÁS NIVELES
En este caso se aplica la fórmula general [1]. El procedimiento es el siguiente: 1º En cada casilla se calcula la frecuencia teórica (tal como se ve en el apartado nº 4) 2º En cada casilla se calcula el valor correspondiente de ji cuadrado, 3º Por último se suman todos estos valores de ji cuadrado de cada casilla en un valor único de ji cuadrado que es el que consultamos en las tablas. Lo veremos con un ejemplo14. Se ha hecho una encuesta de opinión entre los accionistas de una determinada empresa, para ver si su posición frente a una posible fusión con otra empresa era independiente o no del número de acciones que cada uno de ellos tiene. Tenemos las respuestas de 200 accionistas clasificados según el número de acciones (tabla 18); debajo de cada frecuencia observada se pone el tanto por ciento con respecto al total de la fila (número de acciones), porque resulta más informativo (también cabría poner los tantos por ciento con respecto al total de la columna). Tabla 18
Otra alternativa para tablas 3x3 y muestras relacionadas podemos verla en Hinkle, Wiersma y Jurs (1998). 14 Ejemplo tomado de W. Mendenhall y James E. Reinmouth (1978), Estadística para administración y economía, México, Grupo Editorial Iberoamericana. 13
341
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Tabla 19
El cálculo del c2 está en la tabla 19. Las frecuencias teóricas o esperadas (ft) de cada casilla las calculamos tal como se indicó anteriormente: (marginal de la fia) (marginal de la columna) ft = ––––––––––––––––––––––––––––––––––––––– (número total de sujetos) (99) (58) así en (a) tendremos: ft = –––––––––– = 28.71 200 2 2 (fo ft) (37 28.71) Y el c2 correspondiente a (a) será igual a = ––––––– = –––––––––– = 2.3937 ft 28.71
Comprobamos que la suma de las frecuencias observadas es igual a la suma de las frecuencias teóricas o esperadas; se trata de los mismos sujetos repartidos con distintos criterios: los que observamos en cada casilla, y los que tendríamos si no hubiera relación entre los dos criterios de clasificación. Estas dos sumas no coinciden siempre exactamente, depende de cómo hayamos redondeado los decimales, pero deben ser casi iguales.
342
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
Los grados de libertad son (3-1)(3-1) = 4. Con cuatro grados de libertad rechazamos la Hipótesis Nula con una probabilidad de error inferior al 5% (p<.05; el valor de las tablas es 9.488 y nosotros lo superamos; en realidad la probabilidad es p<.02). Podemos afirmar con mucha seguridad que el número de acciones que uno tiene en la empresa está relacionado con la postura frente a la posible fusión de la empresa con otra. Coeficientes de asociación Para comprobar si la relación es grande o pequeña acudimos a alguno de los coeficientes de asociación relacionados con el ji cuadrado (en el apartado siguiente Coeficientes de relación asociados al c2 se comentan estos coeficientes). En este caso (tablas mayores de 2x2) el coeficiente más utilizado es el coeficiente de contingencia (fórmula [13]):
La relación es más bien baja, aunque se puede afirmar con mucha seguri dad que sí hay relación. Si queremos interpretar con más detalle la información disponible, podemos fijar nos en qué casillas hay una mayor discrepancia entre las frecuencias observadas y las teóricas; esto nos lo indican los mismos valores del ji cua drado, que son mayores en unas casillas que en otras. Lo que está más claro es la discrepancia: En la casilla h
(entre los que tienen más de 500 acciones hay más en contra de la fusión que los que podríamos esperar), En la casilla a (entre los que tienen menos de 100 acciones hay más a fa vor de la fusión) En la casilla b (entre los que tienen menos de 100 acciones hay menos en contra de la fusión). En los cuadros 2x2 la interpretación suele ser más fácil e intuitiva, en cuadros grandes no siempre es tan sencillo y hay que fijarse cómo se distribuyen las frecuencias. Hay métodos específicos para parcializar estos cuadros y hacer una interpretación más matizada15. 15
Pueden verse en Linton, Gallo Jr. y Logan (1975).
343
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Con estos mismos datos podríamos calcular también el coeficiente de correlación r de Pearson. Para esto podríamos codificar los datos así: número de acciones: 1 (menos de 100), 2 (entre 100 y 500) 3 (más de 500)
opinión:
3 (a favor), 2 (sin opinión) 1 (en contra).
Posiblemente para calcular este coeficiente sería preferible tener a los sujetos agrupados en más categorías según el número de acciones que tengan, o sencillamente no agruparlos. Cuando agrupamos a los sujetos (y eliminamos diferencias individuales) los valores del coeficiente de correlación no son los mismos (suelen ser más bajos) que si no agrupamos a los sujetos. Lo que sucede es que a veces los únicos datos disponibles son los datos agrupados, como los de este ejemplo. 12. COEFICIENTES DE RELACIÓN ASOCIADOS AL c2 Un valor alto de c2 nos da seguridad para afirmar que hay asociación o relación entre dos variables (o una diferencia entre dos o más grupos), pero no nos dice si la relación es grande o pequeña (como tampoco nos dice si es importante). Con un N grande es relativamente fácil obtener valores altos (esta dísticamente significativos) de c2, sin que esto quiera decir que la relación entre las dos variables sea grande o importante. Para apreciar la magnitud de la asociación existen varios coeficientes derivados del c2 Estos coeficientes aportan una información análoga a la del tamaño del efecto en el contraste de medias. Los más utilizados son: a) El coeficiente f (fi) cuando las dos variables son genuinamente dicotómicas (no dicotomizadas); en estos casos es el preferible. b) El coeficiente de contingencia (C) con tablas nxn (más de dos niveles al menos en uno de los dos criterios) pero hay otros que pueden ser más adecuados. Se pueden examinar las peculiaridades de cada uno de los coeficientes disponibles para utilizar el que creamos más conveniente. Para comparar coeficientes de relación asociados al c2 dentro de un mismo estudio se debe utilizar el mismo coeficiente, porque los valores de los distintos coeficientes no son estrictamente comparables entre sí. Exponemos a continuación algunos de los coeficientes más utilizados indicando sus particularidades para poder escoger el que en cada caso nos parezca más conveniente.
344
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
a) Coeficiente de contingencia Valor máximo de C cuando el número de filas (f) es igual al de columnas (c):
Es válido para cuadros de cualquier tamaño; Es estadísticamente significativo en el mismo grado en que lo es el c2; El valor mínimo es 0, pero su valor máximo depende del tamaño de la tabla; por esta razón estos coeficientes sólo se pueden comparar entre sí cuando proceden de tablas del mismo tamaño; en el caso de un grado de libertad (tablas 2x2), su valor máximo es .707; en tablas 3x3 su valor máximo es .816 No es comparable con el coeficiente r de Pearson. Su valor es siempre positivo; el signo de la asociación se deduce de la observación directa de los datos b) Coeficiente f
Cuando se calcula a partir de los datos de una tabla de contingencia 2x2 su fórmula es:
El coeficiente f es un caso particular del coeficiente r de Pearson (y pueden emplearse las mismas fórmulas o una calculadora programada con el coeficiente r); es estadísticamente significativo (no aleatorio) en el grado en que lo es el valor de c2; Se utiliza con datos dicotómicos (1 ó 0) en cuadros 2x2; no es válido para datos dicotomizados (cuando los datos originales son continuos); en este caso podemos utilizar el c2 pero no este coeficiente.
345
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
Es de uso frecuente para calcular correlaciones entre ítems dicotómicos (tests, pruebas objetivas). Si se calcula a partir de c2 su signo será siempre positivo; el signo es realmente positivo si bc > ad (en b y c están los datos que indican relación positiva; 1 en las dos variables ó 0 en las dos). Una limitación de este coeficiente es que su valor máximo no es 1 necesariamente; sólo cuando la proporción de unos es idéntica en las dos variables. c) Coeficiente f de Cramer
k es el número de filas o de columnas, el que sea menor de los dos. Este coeficiente varía de 0 a 1, independientemente del tamaño de la tabla, por lo que puede ser una alternativa preferible al coeficiente de contingencia (aunque se utiliza menos). Es estadísticamente significativo si lo es el valor de c2 correspondiente. d) Coeficiente T de Tschuprow
f = número de filas y c = número de columnas; Este coeficiente puede alcanzar el valor máximo de 1 solamente cuando f = c (el número de filas es igual al número de columnas). Es estadísticamente significativo si lo es el valor de c2 correspondiente.
346
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
13. V ALORACIÓN DEL JI CUADRADO 1º El ji cuadrado es un método muy utilizado y muy útil cuando los datos disponibles son realmente nominales (o categóricos): lo único que sabemos de los sujetos es en qué categoría podemos clasificarlos. 2º Frecuentemente sabemos algo más de los sujetos: no solamente, por ejemplo, si están por encima o por debajo de la media (o apto o no apto) sino una puntuación exacta. O los tenemos clasificados según respuestas que admiten un código en números (como nada, poco, mucho… que pueden equivaler a 1, 2 y 3). Muchas veces el uso del ji cuadrado supone una pérdida de información, y debemos preguntarnos si en vez de o además del ji cuadrado no disponemos de otros métodos preferibles de análisis (como puede ser un coeficiente de correlación) porque aprovechamos mejor la información que de hecho tenemos. 3º El ji cuadrado es muy sensible al número de sujetos (como sucede en todas las pruebas de significación estadística): con facilidad obtenemos unos valores no solamente estadísticamente significativos, sino de una magnitud muy grande. Esto no quiere decir que la diferencia o la relación sea grande, puede ser muy pequeña. Como otros métodos de análisis que nos remiten a una probabilidad, conviene calcular siempre algún coeficiente que nos cuantifique mejor la magnitud de la relación o de la diferencia. En tablas 2x2 y con datos genuinamente dicotómicos, el coeficiente f es el preferible. 4º El encontrar un valor significativo de ji cuadrado no quiere decir que haya una relación lineal entre las dos variables que han servido para clasificar a los sujetos (es decir que a más de una más de la otra, cuando tenga sentido hablar de más y menos). Para interpretar bien los resultados hay que obser var las frecuencias, y ayuda convertirlas en porcentajes con respecto a los totales marginales, como hemos hecho en casi todos los ejemplos presentados.
347
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
A NEXO I. T ABLAS DEL JI CUADRADO Grados de
p= 0.05
p= 0.01
p= 0.001
libertad
1 3 4 5 6 7 8 9 10 11 12
Grados de
p= 0.05
p= 0.01
p= 0.001
libertad
3.84 7.82 9.49 11.07 12.59 14.07 15.51 16.92 18.31 19.68 21.03
6.64 11.35 13.28 15.09 16.81 18.48 20.09 21.67 23.21 24.73 26.22
10.83 16.27 18.47 20.52 22.46 24.32 26.13 27.88 29.59 31.26 32.91
13 14 15 16 17 18 19 20 21 22 23
Grados de
p= 0.05
p= 0.01
p= 0.001
libertad
22.36 23.69 25.00 26.30 27.59 28.87 30.14 31.41 32.67 33.92 35.17
27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 38.93 40.29 41.64
34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.32 46.80 48.27 49.73
24 25 26 27 28 29 30 40 50 60 70
36.42 42.98 37.65 44.31 38.89 45.64 40.11 46.96 41.34 48.28 42.56 49.59 43.77 50.89 55.76 63.69 67.51 76.15 79.08 88.38 90.53 100.42
51.18 52.62 54.05 55.48 56.89 58.30 59.70 73.41 86.66 99.62 112.31
Tablas adaptadas y abreviadas de Alexei Sharov, Virginia Tech, Blacksburg, VA, Quantitative Po pulation Ecology, On-Line Lectures [ http://www.ento.vt.edu/~sharov/PopEcol/ ] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html
Tablas más completas y las probabilidades exactas de cualquier valor de ji cua drado pueden verse en varias direcciones de Internet:
INSTITUTE OF PHONETIC SCIENCES (IFA) (Statistical tests http://fonsg3.let.uva.nl/Ser vice/Statistics.html ), The Chi-square distribution http://fonsg3.let. uva.nl/Service/Statistics/ChiSquare_distribution.html (calcula la probabilidad introduciendo los valores de ji cuadrado y los grados de libertad). JONES, J AMES, Statistics: Lecture Notes http://www.richland.edu/james/lecture/m170/ http://www.richland.cc.il.us/james/lecture/m170/tbl-chi.html LOWRY , R ICHARD, Vassar Stats http://faculty.vassar.edu/lowry/VassarStats.html (buscar en el menú: distributions ) SHAROV , A LEXEI, On-line lectures Department of EntomologyVirginia Tech, Blacksburg, VA [ http://www.ento.vt.edu/~sharov/PopEcol/ Statistical Tables ] http://www.ento.vt.edu/~sharov/PopEcol/tables/chisq.html (tablas de c2 hasta 100 grados de libertad, p = .05, .01 y .001). STOCKBURGER , D AVID W. Introduction to Statistics: Concepts, Models, and Aplications CRITICAL VALUES FOR THE CHI-SQUARE DISTRIBUTION http://www. psychstat.smsu.edu/introbook/chisq.htm W ALKER , JOHN, RetroPsychoKinesis Project Home http://www.fourmilab.ch/rpkp/experiments/analysis/chiCalc.html [calcula la probabilidad (p) de c2 a partir de los valores de c2 y de los grados de libertad, y el valor de c2 a partir de p (probabilidad) y grados de libertad].
348
ANÁLISIS DE VARIABLES NOMINALES: LA PRUEBA DE JI CUADRADO ( c2)
A NEXO II. JI CUADRADO Y ANÁLISIS AFINES EN INTERNET A RSHAM, HOSSEIN Europe Mirror Site Collection, [Tablas hasta 6x6] http://home. ubalt.edu/ntsbarsh/Business-stat/otherapplets/Normality.htm#rmenu (menú Chisquare Test for Relationship) COLLEGE OF S AINT BENEDICT, S AINT JOHN’S UNIVERSITY , Contingency Tables http://www. physics.csbsju.edu/stats/contingency.html LOWRY , R ICHARD, Vassar Stats [Tablas 2x2, con y sin corrección de Yates, coeficiente phi], http://faculty.vassar.edu/lowry/VassarStats.html (menú: frequency data ) LOWRY , R ICHARD, Vassar Stats [Tablas hasta 5x5] http://faculty.vassar.edu/lowry/VassarStats.html (buscar en el menú: frequency data ) PREACHER , K RISTOPHER J. (May, 2001) The Ohio State University, Calculation for the Chi Square Test, An interactive calculation tool for chi-square tests of goodness of fit and independence (Tablas hasta 10x10, válido para una sola fila o columna) http://www.psych.ku.edu/preacher/chisq/chisq.htm (consultado 28, 03, 08) Prueba exacta de Fisher
COLLEGE OF S AINT BENEDICT, S AINT JOHN’S UNIVERSITY , http://www.physics.csbsju. edu/stats/fisher.form.html LOWRY , R ICHARD, Vassar Stats, Fisher’s Exact Probability Test http://faculty.vassar.edu/ lowry/fisher.html (Vassar Stats Web Site for Statistical Computation: http://faculty.vassar.edu/lowry/VassarStats.html ) [Vassar College, Poughkeepsie, New York] Ø YVIND L ANGSRUD, Fisher’s Exact Test http://www.langsrud.com/fisher.htm , PREACHER , K RISTOPHER J. and BRIGGS, N ANCY E. , Calculation for Fisher’s Exact Test, http://www.psych.ku.edu/preacher/ (o directamente http://www.psych.ku.edu/ preacher/fisher/fisher.htm SISA, Simple Interactive Statistical Analysis FisherExact http://home.clara.net/sisa/fis her.htm y Fisher 2 by 5 http://home.clara.net/sisa/fiveby2.htm McNemar, Binomial, prueba de los signos
GRAPHP AD, Free Calculators for Scientists Sign and binomial test http://graphpad. com/quickcalcs/binomial1.cfm (índice de todos los análisis: http://graphpad. com/quickcalcs/index.cfm) GRAPHP AD, Free Calculators for Scientists [http://www.graphpad.com/quickcalcs/ index.cfm] McNemar’s test to analyze a matched case-control study http://www.graphpad.com/quickcalcs/McNemar1.cfm SISA, Simple Interactive Statistical Analysis Pairwise T-test | Wilcoxon | Signs test | Mc-Nemar http://home.clara.net/sisa/pairwhlp.htm
349
REFERENCIAS BIBLIOGRÁFICAS
A MERICAN PSYCHOLOGICAL A SSOCIATION (2001), Publication manual of the American Psychological Association (5th Edit). Washington D.C.: Author. A NSCOMBE F. J. (1973), Graphs in Statistical Analysis. American Statistician, 27 (Feb 1973), 17-21. A RDANUY A LBAJA , R. y TEJEDOR TEJEDOR , F. J. (2001), Tablas estadísticas. Madrid: La Muralla. A TO G ARCÍA , M. y LÓPEZ G ARCÍA , J. J. (1996), Análisis estadístico para datos categóricos. Madrid: Síntesis. BEHRENS, JOHN T. (1997), Toward a Theory and Practice of Using Interactive Graphics in Statistics Education. In G ARFIEL, J. B. and BURRILL G. (Eds.) Research on the Role of Technology in Teaching and Learning Statistics (pp. 111-121). Voorburg, The Netherlands: Internacional Statistical Institute http://www.stat.auckland. ac.nz/~iase/publications/8/10.Behrens.pdf (consultado 16, 04, 07). BERK , R. A. (1978), A consumers’ guide to criterion-referenced tests item statistics. NCME: Measurement in Education, 9. 1. BLACK , T. R. (1999), Doing Quantitative Research in the Social Sciences . London: Sage. BORG, W. R., G ALL, J. O., & G ALL, M. D. (1993 ), Applying educational research: A practical guide. (3rd ed.) New York: Longman. BURTON, R. F. (2004), Multiple Choice and true/false tests: reliability measures and some implications of negative marking. Assessment & Evaluation in Higher Education. 29 (5), 585-595. C ATTELL, R. B. (1964), Validity and Reliability: a Proposed More Basic Set of Concepts . Journal of Educational Psychology, 55, 1-22. CHARTER , R. A. (2001), It Is Time to Bury the Spearman-Brown “Prophecy” Formula for Some Common Applications. Educational and Psychological Measurement , 61 (4). 690-696. COE, R. (2000), Effect Size Resources http://www.cemcentre.org/RenderPage. asp?Lin kID=30310000 (consultado 1, Enero, 2007).
351
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
COHEN J. (1988), Statistical Power Analysis for the Behavioral Sciences, second edition. Hillsdale, N.J.: Lawrence Erlbaum. COHEN, J. (1960), A Coefficient of Agreement for Nominal Scales, Educational and Psychological Measurement, 20, 1, 36-46. COHEN, J. (1977), Statistical Power Analysis for the Behavioral Sciences. New York: Academic Press, [2nd. edit., 1988, Hillsdale, N.J.: Erlbaum]. COHEN, P. A. (1981), Student Ratings of Instruction and Student Achievement: A Metaanalysis of Multisection Validity Studies. Review of Educational Research, 51, 281-309. CRONBACH, L. J. (1951), Coefficient Alpha and the Internal Structure of Tests. Psychometrika, 16, 297-334. CRONBACH, L. J. and SHAVELSON, R. J. (2004), My Current Thoughts on Coefficient Alpha and Succesor Procedures. Educational and Psychological Measurement, 64 (3), 391-418. D ALLAL, G. E. (last revision 2001), The Little Handbook of Statistical Practice (en Frank Anscombe’s Regression Examples http://www.StatisticalPractice.com (consultado 16, 04, 07). D ANIEL, W. W . (1981), Estadística con aplicaciones a las ciencias sociales y a la educación. Bogotá: McGraw-Hill Latinoamericana. DOWNIE, N. M. y HEATH, R. W. (1971), Métodos estadísticos aplicados: México: Harper; (Madrid: Editorial del Castillo). DUHACHEK , A. and I ACOBUCCI, D. (2004), Alpha’s Standard Error (ASE): An Accurate and Precise Confidence Interval Estimate. Journal of Applied Psychology, Vol. 89 Issue 5, p792-808. ETXCHEBERRIA , J. (1999), Regresión múltiple. Madrid: La Muralla. F AN, X. and THOMPSON, B. (2001), Confidence Intervals About Score Reliability Coefficients, please: An EPM Guidelines Editorial. Educational and Psychological Me asurement, 61 (4), 517-531. FELDT, L. S. (1975), Estimation of the Reliability of a Test Divided into Two Parts of Unequal Length, Psychometrika, 40, 4, 557-561. FELDT, L. S. and K IM, S. (2006), Testing the Difference Between Two Alpha Coefficients With Small Samples of Subjects and Raters. Educational and Psychological Me asurement , 66 (4), 589-600. FINK , A. (1998), Conducting Research Literature Reviews, From Paper to the Internet. Thousand Oaks & London: Sage Publications. FOX , J. (1993), Regression diagnostics: An Introduction. En LEWIS-BECK , MICHAEL S. (Ed.). Regression Analysis. International Handbooks of Quantitative Applications in the Social Sciences, Volume 2. London: SAGE Publications, 245-334. G ARDNER , P. L. (1970), Test Length and the Standard Error of Measurement. Journal of Educational Measurement 7 (4), 271–273. GLASS, G. V., MCG AW , B. and SMITH, M. L. (1981), Meta-Analysis in Social Research. Be verly Hills, Cal.: Sage Publications. GLINER , J. A.; LEECH, N. L. and MORGAN, G. A. (2002), Problems With Null Hypothesis Significance Testing (NHST): What Do the Textbooks Say? The Journal of Exprimental Education. 71 (1), 83-92.
352
REFERENCIAS BIBLIOGRÁFICAS
GÓMEZ FERNÁNDEZ , D. (1981), El “ESP-E”, un nuevo cuestionario de personalidad a disposición de la población infantil española. Revista de Psicología General y Aplicada, 36, 450-472. GUILFORD, J. P. (1954), Psychometric Methods, New York: McGraw-Hill; GUILFORD, J. P. and FRUCHTER , B. (1973), Fundamental Statistics in Psychology and Education. New York: McGraw-Hill (en español, Estadística aplicada a la psicología y la educación, 1984, México: McGraw-Hill). H ANCOCK , G. R. and K LOCKARS, A. J. (1996), The Quest for?: Developments in Multiple Comparison Procedures in the Quarter Century Since Games (1971). Review of Educational Research, 66, (3). 269 - 306. HEDGES, L. V. and OLKIN, I. O. (1985), Statistical Methods for Meta-Analysis . Orlando, FL: Academic Press. HEIMAN, G. W. (1996), Basic Statistics for the Behavioral Sciences, 2nd edit. Boston: Houghton Mifflin. HERNÁNDEZ S AMPIERI, R. FERNÁNDEZ COLLADO, C. y B APTISTA LUCIO, P. (2000), Metodología de la Investigación. Segunda Edición. México: McGraw-Hill. HINKLE, D. E.; W IERSMA , W. and JURS, S. G. (1998), Applied Statistics for the Behavioral Sciences, fourth edition. Boston: Houghton-Mifflin. HOLLEY , J.W. and LIENERT, G. A. (1974), The G Index of Agreement in Multiple Ratings, Educational and Psychological Measurement, 34, 817-822. HORST, P. (1953), Correcting the Kuder-Richardson Reliability for Dispersion of Item Difficulties, Psychological Bulletin, 50, 371-374. HOYT, C. J. (1941), Test Reliability Estimated by Analysis of Variance, Psychometrika, 3, 153-160. HOYT, C. J. (1952), Estimation of Test Reliability for Un-Restricted Item Scoring Methods, Educational and Psychological Measurement, 12, 752-758. HUBBARD, R. and R YAN, P. A. (2000), The Historical Growth of Statistical Significance Testing in Psychology-and Its Future Prospects. Educational and Psychological Measurement, Vol. 60 (5), 661-681. HUBERTY , C. J. (2002), A History of Effect Size Indices. Educational and Psychological Measurement, Vol. 62 (2), 227-240. HUNTER , J. E. and SCHMIDT, F. L. (1990), Methods of Meta-Analysis. Newbury Park: Sage Publications. JOURARD, S. M. (1971), Self-Disclosure, An Experimental Analysis of the Transparent Self. New York: Wiley-Interscience. K ERLINGER , F. N., Investigación del Comportamiento. México: Interamericana. K IRK , R. E. (1995), Experimental Design, Procedures for the Behavioral Sciences, third edit. Pacific Grove: Brooks/Cole. K IRK , R. E. (1996), Practical Significance: A Concept Whose Time Has Come. Educational and Psychological Measurement, 56 (5), 746-759. K RISTOF, W. (1974), Estimation of the Reliability and True Score Variance from a Split of a Test into Three Arbitrary Parts, Psychometrika, 39, 4, 491-499. L ANE, D. (Rice University) (2007), HyperStat Online Statistics Textbook http://davidmlane.com/hyperstat/index.html (consultado 25, 03, 08). L ANE, D. History of Normal Distribution http://cnx.rice.edu/content/m11164/latest/ (Last edited by David Lane on Jun 1, 2007; consultado 25, 03, 08).
353
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
L ANGLEY , R. (1973), Practical Statistics for Non-Mathematical People. New York: Drake. LEACH, C. (1982), Fundamentos de estadística, enfoque no paramétrico para ciencias sociales. México: Limusa. LIGHT, R. J., SINGER , J. D. and W ILLETT, J. B. (1990), By Design, Planning Research on Higher Education. Cambridge, Mass.: Harvard University Press. LINTON, M., G ALLO JR ., PHILLIP S. and LOGAN, C. A. (1975), The Practical Statistician, Sim plified Handbook of Statistics. Monterey: Brooks/Cole. M AGNUSSON, D. (1976), Teoría de los Tests, México: Trillas. M AHADEVAN, L. (2000), The Effect Size Statistic: Overview of Various Choices . Paper presented at the annual meeting of the Southwest Educational Research Association, Dallas (January 27-29, 2000) ( http://eric.ed.gov/ERICDocs/data/eric docs2/content_storage_01/0000000b/80/10/b7/3a.pdf (consultado 1 de Enero 2007) (ERIC ED438308). MCMORRIS, R. F. (1972), Evidence of the Quality of Several Approximations for Commonly Used Measurement Statistics, Journal of Educational Measurement, 9, 2, 113-122. MCNEMAR , Q. (1962), Psychological Statistics, 3rd edit., New York: John Wiley and Sons. MEHRENS, W. A. and LEHMANN, I. J. (1973), Measurement and Evaluation in Education and Psychology (3rd edition). New York: Holt, Rinehart and Winston. MEREDITH, W. M. (1971), Manual de tablas estadísticas. México: Trillas. MORALES V ALLEJO, P. (1993), Líneas actuales de investigación en métodos cuantitativos, el meta-análisis o síntesis integradoras. Revista de Educación (Ministerio de Educación y Ciencia), Enero-Abril, 300, 191-221. MORALES V ALLEJO, P. (2006), Medición de actitudes en Psicología y Educación. 3ª edición. Madrid: Universidad Pontificia Comillas. MORALES V ALLEJO, P. (2007a), Análisis de varianza para muestras relacionadas. / Muestrasrelacionadas.pdf www.upcomillas.es/personal/peter MORALES V ALLEJO, P. (2007b), Tamaño necesario de la muestra: ¿Cuántos sujetos necesitamos? http://www.upco.es/personal/peter/investigacion/Tama%F1oMuestra.pdf MORALES V ALLEJO, P. (2007c), El tamaño del efecto (effect size): análisis complementarios al contraste de medias http://www.upcomillas.es/personal/peter/investigacion/Tama%F1oDelEfecto.pdf MORALES V ALLEJO, PEDRO (2008). Sobre las hipótesis direccionales y no direccionales. http://www.upco.es/personal/peter/investigacion/Hipotesis.pdf MORALES V ALLEJO, P. UROSA S ANZ, B. y BLANCO BLANCO, Á. (2003), Construcción de escalas de actitudes tipo Likert. Una guía práctica. Madrid: La Muralla. MORSE, D. T. (1995), Book Review of Spatz, Chris, (1993), Basic Statistics: Tales of Distributions (5th Edit.). Pacific Grove, CA: Brooks/Cole. Educational and Psychological Measurement, 55 (1), 140-146. MOSS, P. A. (1994), Can There Be Validity Without Reliability? Educational Researcher, 23, 2, 5-12. NUNNALLY , J. C. (1978), Psychometric Theory . New York: McGraw-Hill. NUNNALLY , J. C. and BERNSTEIN, I. H. (1994), Psychometric Theory, 3rd. Ed. New York: McGraw-Hill.
354
REFERENCIAS BIBLIOGRÁFICAS
OSBORNE, J. W. (2003), Effect sizes and the disattenuation of correlation and regression coefficients: lessons from educational psychology. Practical Assessment, Rese arch & Evaluation, 8(11) http://PAREonline.net/getvn.asp?v=8&n=11. OSBORNE, J. W. and O VERBAY , A. (2004), The power of outliers (and why researchers should always check for them). Practical Assessment, Research & Evaluation, 9(6). Retrieved August 26, 2007 from http://PAREonline.net/getvn.asp?v=9&n=6 PERNEGER , T. V. (1998), What’s wrong with Bonferroni adjustments. British Medical Journal 1998;316:1236-1238 (disponible en http://www.bmj.com/cgi/content/full/ 316/7139/1236 , consultado 31, 03, 08). PFEIFFER , J. W.; HESLIN, R. AND JONES, J. E. (1976), Instrumentation in Human Relations Training. La Jolla, Ca.: University Associates. R ANDOLPH, J. J. and EDMONDSON , R. S. (2005), Using the Binomial Effect Size Display (BESD) to Present Magnitude of Effect Sizes to the Evaluation Audience. Practical Assessment, Research & Evaluation , 10 (4), http://pareonline.net/pdf/ v10n14.pdf R ODRÍGUEZ OSUNA , J. (1993), Métodos de muestreo. Casos prácticos. Cuadernos metodológicos. Madrid: Centro de Investigaciones Sociológicas (CIS). R OSENTHAL, R. (1987), Judgment Studies, Design, analysis and meta-analysis. Cambridge: Cambridge University Press. R OSENTHAL, R. (1991), Meta-Analysis Procedures for Social Research. Beverly Hills, CA: Sage Publications. R OSENTHAL, R. (1994), Parametric Measures of Effect Size. En COOPER , H ARRIS and HEDGES, L. V. (Eds.), The Handbook of Research Synthesis. New York: Russell Sage Foundation, 231-244. R OSENTHAL, R. and R OSNOW , R. L. (1991), Essentials of Behavioral Research, Methods and Data Analysis. Boston: McGraw-Hill. R OSENTHAL, R. and R UBIN, D. B. (1979), A Note on Percent Variance Explained as A Measure of the Importance of Effects. Journal of Applied Social Psychology, 9 (5), 395-396. R UNYON, R. P. y H ABER , A. (1984), Estadística para las Ciencias Sociales. México: Fondo Educativo Interamericano. S ALKIND, N. J. (1998), Métodos de Investigación, 3ª edición, México: Prentice-Hall. S AUPE, J. L. (1961), Some Useful Estimates of the Kuder-Richardson formula number 20 Reliability Coefficient, Educational and Psychological Measurement, 21, 1, 63-71. SCHMITT, N. (1996), Uses and abuses of Coefficient Alpha. Psychological Assessment, 8 (4), 350-353 ( http://ist-socrates.berkeley.edu/~maccoun/PP279_Schmitt.pdf ). SHROUT, P. E. AND FLEISS, J. L. (1979), Intraclass Correlations: Uses in Assessing Rater Reliability, Psychological Bulletin, 86, 420-428. SIEGEL, S. N. (1972), Estadística no paramétrica aplicada a las ciencias de la con ducta. México: Trillas. (La primera edición en inglés es de 1956, New York: McGraw-Hill). SIEGEL, S. N. and C ASTELLAN JR ., N. JOHN (1988), Nonparametric Statistics For the Behavioral Sciences. Second edition. New York: McGraw-Hill. SPATZ, C. (1993), Basic Statistics: Tales of Distributions, 5th Edit. Pacific Grove, CA: Brooks/Cole.
355
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
STATP AC, INC (2003), Questionnaires & Survey Design http://www.statpac.com/ surveys/index.htm#toc STATSOFT, INC. (2002), Electronic Statistics Textbook . Tulsa, OK: StatSoft. WEB: http://www.statsoft.com/textbook/stathome.html STEMLER , S. E. (2004), A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical Assessment, Research & Evaluation, 9(4) http://pareonline.net/getvn.asp?v=9&n=4 STREINER , D. L. (2003), Staring at the Beginning: An Introduction to Coefficient Alpha and Internal Consistency. Journal of Personality Assessment, 80 (1), 99-103. THOMPSON, B. (1994), Guidelines for authors. Educational and Psychological Measurement, 54, 837-847. THOMPSON, B. (1996), AERA Editorial Policies Regarding Statistical Significance Testing: Three Suggested Reforms. Educational Researcher, Vol. 25 (2) 26-30. THORNDIKE, R. L. (1982), Applied Psychometrics, Boston: Houghton Mifflin. TRAUB, R. E. (1994), Reliability for the Social Sciences: Theory and Applications, Newbury Park, N. J.: Sage. TRAUB, R. E. and R OWLEY , G. L., (1991), Understanding Reliability, Educational Measurement: Issues and Practice, 10 (1) 37-45. UEBERSAX , J., Statistical Methods for Rater Agreement http://ourworld.compuserve. com/homepages/jsuebersax/agree.htm (Last updated: 19 Feb 2008, consultado 30, 03, 08. V ALENTINE, J. and COOPER , H. (2003), Effect Size Substantive Interpretation Guidelines: Issues in the Interpretation of Effect Sizes. Washington, D.C.: What Works Clearing House www.whatworks.ed.gov/reviewprocess/essig.pdf (consultado 24, Nov. 2006). W ILKINSON, LELAND and T ASK FORCE ON STATISTICAL INFERENCE APA BOARD OF S CIENTIFIC A F FAIRS (1999 ), Statistical Methods in Psychology Journals: Guidelines and Explanations American Psychologist August 1999, Vol. 54, No. 8, 594–604 http://www.lo yola.edu/library/ref/articles/Wilkinson.pdf (consultado 1, Enero, 2007) y en http://www.uic.edu/classes/psych/psych242/APAPublicationGuide.html W OLF, F. M. (1986), Meta-Analysis, Quantitative Methods for Research Synthesis . Be verly Hills, CA: Sage Publications. Selección de direcciones de Internet con programas de análisis estadísticos
En la mayoría de los capítulos incluimos algún anexo con direcciones de Internet referidas a los análisis específicos tratados en ese capítulo. En esta selección figuran en parte las mismas direcciones y también otras en las que se pueden encontrar otros muchos análisis de interés y enlaces a otras direcciones. Arsham, Hossein Europe Mirror Site Collection, http://home.ubalt.edu/ntsbarsh/ Business-stat/otherapplets/Normality.htm#rmenu Becker, Lee A. Effect size calculators . http://web.uccs.edu/lbecker/Psy590/ escalc3.htm Coe, Robert (2000) Effect Size Resources (Durham University, Cem Centre) http://www.cemcentre.org/RenderPage.asp?LinkID=30310000
356
REFERENCIAS BIBLIOGRÁFICAS
College of Saint Benedict, Saint John’s University http://www.physics.csbsju. edu/stats/ Creative Research Systems. The Survey System Sample Size Calculator http://www. surveysystem.com/sscalc.htm Custominsight.com. Survey Random Sample Calculator http://www.customin sight.com/articles/random-sample-calculator.asp Department of Obstetrics and Gynaecology, The Chinese University of Hong Kong http://department.obg.cuhk.edu.hk/ResearchSupport/Correlation.asp Dimension Research, Inc. Resources http://www.dimensionresearch.com/re sources/resources_overview.html Glass, Gene V. (Arizona State University College of Education) (Delta COE502, Intro to Quant Methods, http://glass.ed.asu.edu/stats/index.html , Online statistical calculators that can perform many different analyses. GraphPad, Free Online Calculators for Scientists , http://graphpad.com/quickcalcs/index.cfm Preacher, Kristopher J. (May, 2001) The Ohio State University, Calculation for the Chi-Square Test, http://www.psych.ku.edu/preacher/chisq/chisq.htm Kristopher J. Preacher, University of Kansas, quantpsy.org, http://www.psych. ku.edu/preacher/ SISA, Simple Interactive Statistical Analysis http://home.clara.net/sisa/index. htm#TOP Soper, Daniel homepage; statistical calculators, http://www.danielsoper.com/de fault. aspx Statistics Calculators , University of California, Los Angeles, Department of Statistics, http://calculators.stat.ucla.edu/ StatPages.net, Web Pages that Perform Statistical Calculations, http://statpages.org/in dex.html (John C. Pezzullo’s Home Page http://statpages.org/JCPhome.html Interactive Statistics Pages)) Surfstat.australia : an online text in introductory Statistics http://www.anu. edu.au/nceph/surfstat/surfstat-home/ Universität Ulm-Medizinische Fakultät, Sektion Informatik in der Psychotherapie (Software und Werkzeuge) http://sip.medizin.uni-ulm.de/informatik/projekte/Odds/est.html VassarStats: Wen Site for Statistical Computation, Richard Lowry, Vassar College Poughkeepsie, NY USA http://faculty.vassar.edu/lowry/VassarStats.html
357
TABLAS DE LA DISTRIBUCIÓN NORMAL
Puntuación típica positiva Área mayor Área menor
Puntuación típica negativa
Proporción de casos por debajo
Proporción de casos por encima
Proporción de casos por encima
Proporción de casos por debajo
Proporción de casos por debajo: percentil (multiplicando por 100) correspondiente a cada puntuación típica; Puntuación típica positiva: área mayor Puntuación típica negativa: área menor
z
0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
Área mayor
0.50 0.504 0.508 0.512 0.516 0.5199 0.5239 0.5279 0.5319 0.5359
Área menor
0.50 0.496 0.492 0.488 0.484 0.4801 0.4761 0.4721 0.4681 0.4641
z
0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19
359
Área mayor
0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
Área menor
0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
z
0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 0.31 0.32 0.33 0.34 0.35 0.36 0.37 0.38 0.39 0.40 0.41 0.42 0.43 0.44 0.45 0.46 0.47 0.48 0.49 0.50 0.51 0.52 0.53 0.54 0.55 0.56 0.57 0.58 0.59 0.60 0.61
Área mayor
0.5793 0.5832 0.5871 0.591 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.648 0.6517 0.6554 0.6591 0.6628 0.6664 0.67 0.6736 0.6772 0.6808 0.6844 0.6879 0.6915 0.695 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.719 0.7224 0.7257 0.7291
Área menor
z
0.4207 0.4168 0.4129 0.409 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.352 0.3483 0.3446 0.3409 0.3372 0.3336 0.330 0.3264 0.3228 0.3192 0.3156 0.3121 0.3085 0.305 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.281 0.2776 0.2743 0.2709
0.62 0.63 0.64 0.65 0.66 0.67 0.68 0.69 0.70 0.71 0.72 0.73 0.74 0.75 0.76 0.77 0.78 0.79 0.80 0.81 0.82 0.83 0.84 0.85 0.86 0.87 0.88 0.89 0.90 0.91 0.92 0.93 0.94 0.95 0.96 0.97 0.98 0.99 1.00 1.01 1.02 1.03
360
Área mayor
0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.758 0.7611 0.7642 0.7673 0.7703 0.7734 0.7764 0.7794 0.7823 0.7852 0.7881 0.791 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.834 0.8365 0.8389 0.8413 0.8438 0.8461 0.8485
Área menor
0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451 0.242 0.2389 0.2358 0.2327 0.2297 0.2266 0.2236 0.2206 0.2177 0.2148 0.2119 0.209 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.166 0.1635 0.1611 0.1587 0.1562 0.1539 0.1515
TABLAS DE LA DISTRIBUCIÓN NORMAL
z
1.04 1.05 1.06 1.07 1.08 1.09 1.10 1.11 1.12 1.13 1.14 1.15 1.16 1.17 1.18 1.19 1.20 1.21 1.22 1.23 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 1.41 1.42 1.43 1.44 1.45
Área mayor
0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.877 0.879 0.881 0.883 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.898 0.8997 0.9015 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265
Área menor
z
0.1492 0.1469 0.1446 0.1423 0.1401 0.1379 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.123 0.121 0.119 0.117 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.102 0.1003 0.0985 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735
1.46 1.47 1.48 1.49 1.50 1.51 1.52 1.53 1.54 1.55 1.56 1.57 1.58 1.59 1.60 1.61 1.62 1.63 1.64 1.65 1.66 1.67 1.68 1.69 1.70 1.71 1.72 1.73 1.74 1.75 1.76 1.77 1.78 1.79 1.80 1.82 1.81 1.83 1.84 1.85 1.86 1.87
361
Área mayor
0.9279 0.9292 0.9306 0.9319 0.9332 0.9345 0.9357 0.937 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 0.9641 0.9656 0.9649 0.9664 0.9671 0.9678 0.9686 0.9693
Área menor
0.0721 0.0708 0.0694 0.0681 0.0668 0.0655 0.0643 0.063 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 0.0359 0.0344 0.0351 0.0336 0.0329 0.0322 0.0314 0.0307
ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES
z
1.88 1.89 1.90 1.91 1.92 1.93 1.94 1.95 1.96 1.97 1.98 1.99 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 2.12 2.13 2.14 2.15 2.16 2.17 2.18 2.19 2.20 2.21 2.22 2.23 2.24 2.25 2.26 2.27 2.28 2.29
Área mayor
0.9699 0.9706 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.975 0.9756 0.9761 0.9767 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 0.9821 0.9826 0.983 0.9834 0.9838 0.9842 0.9846 0.985 0.9854 0.9857 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.989
Área menor
z
0.0301 0.0294 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.025 0.0244 0.0239 0.0233 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183 0.0179 0.0174 0.017 0.0166 0.0162 0.0158 0.0154 0.015 0.0146 0.0143 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.011
2.30 2.31 2.32 2.33 2.34 2.35 2.36 2.37 2.38 2.39 2.40 2.41 2.42 2.43 2.44 2.45 2.46 2.47 2.48 2.49 2.50 2.51 2.52 2.53 2.54 2.55 2.56 2.57 2.58 2.59 2.60 2.61 2.62 2.63 2.64 2.65 2.66 2.67 2.68 2.69 2.70 2.71
362
Área mayor
0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 0.9918 0.992 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 0.9938 0.994 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 0.9953 0.9955 0.9956 0.9957 0.9959 0.996 0.9961 0.9962 0.9963 0.9964 0.9965 0.9966
Área menor
0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084 0.0082 0.008 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064 0.0062 0.006 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048 0.0047 0.0045 0.0044 0.0043 0.0041 0.004 0.0039 0.0038 0.0037 0.0036 0.0035 0.0034