Pruebas de contraste de hipótesis para variables cualitativas. Introducción
En numerosas ocasiones, se necesita analizar la relación de dependencia o independencia entre dos variables de tipo cualitativo o categórico. A estas variables también se les denomina factores, mientras que a las distintas categorías de la variable se les suele denominar niveles. Existen diferentes pruebas para medir la dependencia entre dos variables cualitativas, entre ellas la prueba ji-cuadrado en sus diferentes versiones. En este capítulo repasaremos las pruebas estadísticas ms utilizadas en la investigación biomédica para cruzar variables categóricas, así como ejemplos que faciliten su comprensión. !upongamos que realizamos un estudio en "# pacientes en el que deseamos estudiar la relación entre el $bito tabquico % E&'( diagnosticado mediante espirometría obteniendo los resultados de la )abla )abla *. &odemos ver que +# pacientes de # /01 tenían E&'( dentro del grupo de fumadores, mientras que tan solo # de / #01 presentaron E&'( en el grupo de no fumadores. 2esde un punto de vista clínico las diferencias son importantes, pero 3lo sern desde un punto de vista estadístico4 Tabla Tabla I. Relación entre EPOC y hábito tabáquico. Frecuencias observadas y porcentajes de columna. Fumador EPOC No Sí Total
No +# 5#01 # #01 2% '%%#$
Sí +/ "/01 +# /01 25 '%%#$
Total 25 55!"#$ 2% &&!$ &5 '%%#$
Prueba ji-cuadrado ji-cuadrado X X 2$
6a prueba ji-cuadrado de &earson 7 1 es una de las pruebas ms utilizadas en el mbito de la medicina % la biología. Esta prueba no mide el grado o la fuerza de la asociación entre dos variables categóricas, para ello %a existen medidas como la odds ratio o ratio o el riesgo relativo, adecuadas para estos fines. !e aplica principalmente para estudiar la asociación entre dos variables categóricas o cualitativas % para comparar proporciones o porcentajes. !u uso no est restringido 8nicamente para variables dicotómicas. !i alguna de las dos variables es de naturaleza ordinal, se debe aplicar la prueba ji-cuadrado de tendencia lineal como veremos ms adelante. )ambién )ambién podremos encontrarla bajo el nombre de 9c$i-cuadrado:, siendo su origen la traducción al castellano castella no del término inglés 9c$i-squared:. ;a ;a que el nombre en castellano para la letra griega 7 es 9ji:, utilizaremos esta denominación. 6a prueba 7 puede aplicarse con una sola variable para comparar valores observados respecto a esperados, aunque su uso ms frecuente es para comparar dos proporciones.
!implemente diremos que los valores que toma el estadístico ji-cuadrado con un grado de libertad corresponden a los obtenidos a una distribución normal tipificada elevados al cuadrado, % que por tanto la prueba ji-cuadrado solo tiene una cola tomando 8nicamente valores positivos. 6a expresión de la prueba ji-cuadrado es la siguiente> 'bs> frecuencias observadas. Esp> frecuencias esperadas. En nuestro ejemplo de la )abla * $emos cruzado dos variables cualitativas EPOC % (umador con dos categorías cada una. Exclu%endo las celdas de los totales denominadas marginales1 obtenemos una tabla de filas por columnas. que la proporción de pacientes con E&'( sea ms alta o ms baja en los fumadores, por lo tanto la prueba es bilateral o también denominada de 9dos colas:.
!i al calcular los valores de la expresión 7, que es la diferencia entre lo observado % lo esperado, sobrepasamos cierto valor crítico, diremos que las diferencias encontradas son demasiado grandes como para poder ser explicadas por el azar. !i en nuestro estudio tenemos / pacientes con E&'( de "# personas ""01, para que la $ipótesis nula fuese cierta, tendríamos que tener la misma proporción de pacientes con E&'( en los fumadores % en los no fumadores. Es decir, de los # fumadores, esperamos tener #B/1C"#, que serían ++ fumadores aproximadamente. 2e este modo obtendríamos las frecuencias esperadas para el resto de las D celdas )abla **1. Tabla II. Relación entre EPOC y hábito tabáquico. Frecuencias esperadas. Fumador EPOC No Sí
No ++,+ ##,01 F, "","01
Sí +D, ##,01 ++,+ "","01
Total 25 55!"#$ 2% &&!$
Total
2%
25
&5
!i miramos en las tablas de la distribución ji-cuadrado para un grado de libertad, podemos ver que la significación estadística pGH/,/#, se alcanza para aquellos valores de 7 iguales o superiores a D,F". (omo el valor obtenido en nuestro estudioI #,#+ es ma%or al valor crítico de D,F", podemos rec$azar la $ipótesis nula /1 % afirmar que las diferencias encontradas difícilmente pueden ser explicadas por el azar, siendo ma%or la proporción de pacientes con E&'( en los fumadores pG/,/#1. (omo puede comprobarse, el valor del estadístico ji-cuadrado no cambia al permutar las filas por las columnas. !i recordamos un poco la distribución normal tipificada media / % desviación típica +1, el intervalo -+,I J+,1 recoge el #0 de la probabilidad, dejando solo un #0 fuera. &recisamente +,1 es D,F". !i disponemos de un ordenador o en su defecto de una tabla con los valores de p % de la 7 , podremos ver que el valor de p asociado a una 7 H#,#+ con un grado de libertad es de pH/,/+. &ara aplicar correctamente la prueba ji-cuadrado, al menos el F/0 de las celdas debe tener una frecuencia esperada ma%or de #. !i esto no es así, siempre tenemos el recurso de agrupar categorías excepto cuando nuestra tabla sea de K ambas variables dicotómicas1, en cu%o caso debemos utilizar la prueba exacta de Fisher . A veces se introduce una modificación en el clculo de la expresión 7 , denominada corrección de Yates o corrección por continuidad , siendo su efecto mínimo en muestras de gran tama=o. 6a consecuencia de su aplicación es una reducción del valor final de la ji-cuadrado, % por tanto la $ace un poco ms conservadora. !i bien no existe consenso en la literatura sobre su utilización, su uso se debe al $ec$o de que en ocasiones variables numéricas se transforman en dicotómicas con un punto de corte. Otras pruebas de contraste de hipótesis entre variables categóricas
deseemos cruzar el consumo de tabaco medido en tres categorías> no fumador, fumador moderado, fumador alto, con E&'( )abla ***1. &odemos ver claramente, que la proporción de pacientes con E&'( aumenta con el consumo de tabaco. Tabla III. Melación E&'( % $bito tabquico. )*bito tab*+uico EPOC
No (umador
,oderado
-lto
Total
No
D 5,51
+ D,D1
+# #/,/1
5 "/!/#$
Sí
5 D,D1
++ D,51
+# #/,/1
// /"!#$
Total
/% '%%#$
/% '%%#$
/% '%%#$
0% '%%#$
!i calculsemos en este ejemplo el estadístico ji-cuadrado, obtendríamos un valor de ",/ % una pH/,+++ dos grados de libertad1. Este valor es el mismo independientemente de cómo $ubiéramos ordenado las categorías del consumo de tabaco. En el clculo de la prueba 7 de &earson no se tiene en cuenta el orden de las categorías % de este modo perdemos una valiosa información. 6a prueba 7 de tendencia lineal, siempre tiene un grado de libertad, e inclu%e una modificación para su clculo respecto a la expresión de la prueba ji-cuadrado de &earson, de modo se tiene en cuenta el orden de las categorías. En nuestro ejemplo de la )abla ***, el valor de p sería /,/DD, indicando que a medida que aumenta el consumo de tabaco, lo $ace también el porcentaje de pacientes con E&'(. El mismo problema, se podría $aber resuelto mediante la prueba no paramétrica < de Nann-O$itne%, %a que también permite la comparación de dos variables ordinales. !i queremos cruzar dos variables ordinales para estudiar su relación de dependencia, podemos utilizar el coeficiente de correlación no paramétrico de !pearman, aunque también tenemos otras medias de asociación para variables ordinales, como la Pamma, )au-b de Qendall, )au-( de Qendall % 2 de !omers. 6a interpretación de estos coeficientes es similar en todos ellos, tomando valores entre -+ % +. Lalores próximos a + nos indicarían una fuerte asociación positiva, es decir, a medida que aumentan los valores de una variable, también lo $acen los de la otra. &or el contrario, valores próximos a -+, indicarían una fuerte asociación negativa, % por tanto a medida que aumentan los valores de una variable, disminu%en los de la otra. En el ejemplo de la )abla *L, en el que medimos el grado % el sentido de la asociación entre $bito tabquico % gravedad de la E&'(, al calcular el valor de de la Pamma obtenemos un resultado de /,5+F, indicando una fuerte asociación positiva entre ambas variables. Nuc$os de estos coeficientes vienen incluidos en los programas estadísticos como el !&!! o !A!. Tabla IV. Melación entre gravedad de la E&'( % $bito tabquico, )*bito tab*+uico EPOC
No (umador
,oderado
-lto
Total
1eve
/ ,501
F ,501
,501
/% //!/#$
,oderado
F ,501
+/ DD,D01
F ,501
2" 2!0#$
3rave
,501
+ "/,/01
/ ,501
/& /!#$
Total
/% '%%#$
/% '%%#$
/% '%%#$
0% '%%#$
&ara finalizar recomendamos al lector otras lecturas especializadas para profundizar en estos coeficientes, %a que seg8n el contexto % la situación pueden ser preferibles unos a otros. Bibliografa
+ Rerrn Aranaz, N. +1. !&!! para OindoSs. &rogramación % anlisis estadístico. )ablas de contingencia % medidas de asociación. NcPraS-ill. Nolinero, 6. N. //"1. $ttp>CCse$-lel$a.orgCstat+.$tm. Asociación de variables cualitativas nominales % ordinales. Alce *ngeniería1. D &ita Rernndez, !. % !. &értega 2íaz //"1. $ttp>CCSSS.Risterra.com. Asociación de variables cualitativas> test de c$i-cuadrado. (ad Aten &rimaria. " Nartínez Ponzlez, N. A., ToUin de *rala % R. T. Raulín Rajardo //+1. Vioestadística Amigable. Ed> 2íaz de !antos.