Res umen El estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del mismo nombre, sirve para someter a prueba hipótesis referidas a distribuciones de frecuencias. En términos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. En este artículo se describe el uso del estadístico ji-cuadrado para probar la asociación entre dos variables utiliando una situación hipotética ! datos simulados. "uego se describe su uso para evaluar cu#n buena puede resultar una distribución teórica, cuando pretende representar la distribución real de los datos de una muestra determinada. $ esto se le llama evaluar la bondad de un ajuste. %robar la bondad de un ajuste es ver en qué medida se ajustan los datos observados a una distribución teórica o esperada. %ara esto, se utilia una segunda situación hipotética ! datos simulados.
&el mismo modo que los estadísticos ', con su distribución normal ! 't, con su distribución t de tudent, nos han servido para someter a prueba hipótesis que involucran a promedios ! porcentajes, el estadístico ji-cuadrado (o chi cuadrado), que tiene distribución de probabilidad del mismo nombre, nos servir# para someter a prueba hipótesis referidas a distribuciones de frecuencias. En primer lugar usaremos el estadístico ji-cuadrado para probar la asociación entre dos variables, ! luego lo usaremos para evaluar en qué medida se ajusta la distribución de frecuencias obtenida con los datos de una muestra, a una distribución teórica o esperada. En términos generales, esta prueba contrasta frecuencias observadas con las frecuencias esperadas de acuerdo con la hipótesis nula. $l igual que en el caso de las pruebas anteriormente presentadas, ilustraremos con ejemplos. J i -c u ad r a doc omopr u eb ad ea s oc i a c i ó n
upongamos que un investigador est# interesado en evaluar la asociación entre uso de cinturón de seguridad en vehículos particulares ! el nivel socioeconómico del conductor del vehículo. *on este objeto se toma una muestra de conductores a quienes se clasi+ca en una tabla de asociación, encontrando los siguientes resultados Uso de cinturón
Nivel socioeconómico bajo
Nivel socioeconómico medio
Nivel socioeconómico alto
TOTAL
SI
8
15
28
51
NO
13
16
14
43
TOTAL
21
31
42
94
Tabla I. I. abla abla de asociación, valores observados.
%ermiten estos datos a+rmar que el uso del cinturón de seguridad depende del nivel socioeconómico/ 0saremos un nivel de signi+cación alfa12,23. "os pasos del an#lisis estadístico en este caso son los siguientes 1. En primer lugar se debe plantear las hipótesis que someteremos a prueba H0: “El uso de cinturón de seguridad es independiente del nivel socioeconómico”. H1: “El uso de cinturón de seguridad depende del nivel socioeconómico”. En esta prueba estadística siempre la hipótesis nula plantea que las variables analiadas son independientes. 2. En segundo lugar, obtener (calcular) las frecuencias esperadas Estas son las frecuencias que debieran darse si las variables fueran independientes, es decir, si fuera cierta la hipótesis nula. "as frecuencias esperadas se obtendr#n de la distribución de frecuencias del total de los casos, 34 personas de un total de 56 usan el cinturón ! 67 de 56 no lo usan. Esa misma proporción se debería dar al interior de los tres grupos de nivel socioeconómico, de manera que el c#lculo responde al siguiente raonamiento si de 56 personas 34 usan cinturón8 de 94 personas, cu#ntas debieran usarlo/ "a respuesta a esta pregunta se obtiene aplicando la 'regla de tres ! es 44,6. Este procedimiento debe repetirse con todas las frecuencias del interior de la tabla. El detalle de los c#lculos es el siguiente :ivel bajo (94;34<56)144,6-(94;67<56)15,= :ivel medio (74;34<56)14=,>-(74;67<56)146,9 :ivel alto (69;34<56)199,>-(69;67<56)145,9 Estas son las frecuencias que debieran presentarse si la hipótesis nula fuera verdadera !, por consiguiente, las variables fueran independientes. Estos valores los anotamos en una tabla con las mismas celdas que la anterior8 así tendremos una tabla con los valores observados ! una tabla con los valores esperados, que anotaremos en cursiva, para identi+carlos bien. Uso de cinturón ? :@ @$"
i!el ba"o 11,4 ,6 94
i!el medio 16,8 14,2 74
i!el alto 22,8 1,2 69
T#T$% 34 67 56
Tabla II. abla de asociación, valores esperados. &. En tercer lugar se debe calcular el estad'stico de prueba En este caso, el estadístico de prueba es Ai-cuadrado que, como dijimos al comieno, compara las frecuencias que entregan los datos de la muestra (frecuencias observadas) con las frecuencias esperadas, ! tiene la siguiente fórmula c#lculo
donde oi representa a cada frecuencia observada ! ei representa a cada frecuencia esperada. &e este modo el valor del estadístico de prueba para este problema ser#
Entonces Este es el valor de nuestro estadístico de prueba que ahora, siguiendo el procedimiento de problemas anteriores (paso 6), debemos comparar con un valor de la tabla de probabilidades para jicuadrado ( 9). Esta tabla es mu! parecida a la tabla t de student , pero tiene sólo valores positivos porque ji-cuadrado sólo da resultados positivos. Béase gr#+co 4, que muestra la forma de la curva, con valores desde 2 hasta in+nito.
r*+co 1. &ado que el estadístico ji cuadrado sólo toma valores positivos, la ona de rechao de la hipótesis nula siempre estar# del lado derecho de la curva. Uso de tabla "icuadrado "a tabla de ji-cuadrado tiene en la primera columna los grados de libertad ! en la primera +la la probabilidad asociada a valores ma!ores a un determinado valor del estadístico (véase gr#+co de la tabla ???). "os grados de libertad dependen del nCmero de celdas que tiene la tabla de asociación donde est#n los datos del problema ! su fórmula de c#lculo es mu! sencilla Drados de libertad (gl)1(n de +lasF4);(n de columnasF4) $sí, en nuestro ejemplo, en que ha! 9 +las ! 7 columnas, los grados de libertad ser#n gl1(9-4);(7-4)19 :ótese que no se consideran la +la ni la columna de los totales.
Tabla III. abla de ji-cuadrado. $l comieno elegimos un nivel de signi+cación alfa12,23. Entonces un valor de tabla para 9 asociado a 9 grados de libertad ! alfa 2,23 es 3,55. %or lo tanto, como en el gr#+co 9 vemos que 3,97 se encuentra a la iquierda de 3,55, la probabilidad asociada a valores superiores a 3,97 es ma!or que alfa (2,23).
r*+co 2. egCn esto, debemos aceptar la hipótesis nula que plantea que las variables 'uso de cinturón de seguridad ! 'nivel socioeconómico son independientes. "imitación como norma general, se e;ige que el >2G de las celdas en una tabla de asociación tengan valores esperados ma!ores de 3. J i c u a dr a doc omopr u eb ad eb on da dd ea j u s t e
ambién se puede usar el estadístico ji-cuadrado para evaluar cu#n buena puede resultar una distribución teórica, cuando pretende representar la distribución real de los datos de una muestra determinada. $ esto se le llama e!aluar la bondad de un a"uste. %robar la bondad de un ajuste es ver en qué medida se ajustan los datos observados a una distribución teórica o esperada. omemos como ejemplo la distribución esperada para los individuos de una población que son clasi+cados segCn grupo sanguíneo. egCn estudios realiados en población, se espera que dicha distribución, en porcentajes, sea la siguiente rupo $H $ H 2
-recuencia esperada 9,2G 72,3G 5,7G 3>,9G
Tabla I. Ejemplo de distribución esperada. En una muestra de 432 dadores de sangre se encontró la siguiente distribución rupo $H $ H 2
-recuencia obser!ada 6 6> 43 >7
Tabla . Ejemplo de distribución observada. 1. %as hipótesis del problema son/ H0: los datos se a!ustan a la distri"ución teórica. H1: los datos no se a!ustan a la distri"ución teórica. 2. 0iguiendo el esquema general de solución propuesto para las pruebas de hipótesis, ahora corresponde elegir un ni!el de signi+cación
Elegimos entonces alfa12,24. El estadístico de prueba ser# ji-cuadrado, cu!a fórmula es
&ebemos calcular las frecuencias esperadas en nuestro grupo. i aplicamos los porcentajes esperados a la muestra de 432 casos podemos obtener las siguientes frecuencias esperadas (ei) rupo $H $ H 2 otal
-rec. oi 6 6> 43 >7 432
-rec. ei 7,22 63,I3 47,53 >I,72 432,22
Tabla I. Ejemplo de frecuencias esperadas. "os grados de libertad de esta tabla se obtienen restando 4 al nCmero de +las, en este caso gl16-417 Jecordemos que la +la del total no se considera para los grados de libertad. i !a tenemos las frecuencias observadas ! esperadas, podemos proceder a evaluar la diferencia entre ellas utiliando el estadístico jicuadrado. i la diferencia entre frecuencias observadas ! esperadas es grande, signi+car# que la hipótesis nula es falsa, o sea, esta distribución no se ajusta a la distribución teórica ! si, en cambio, resulta que la diferencia entre frecuencias observadas ! esperadas no es mu! grande, signi+car# que la hipótesis nula es verdadera8 por lo tanto, la distribución en la muestra se ajusta a la distribución teórica ! diremos que no ha! signi+cación estadística. El valor del estadístico de prueba ( 9) es una medida de la diferencia entre frecuencias observadas ! esperadas8 por lo tanto, mientras ma!or resulte , m#s f#cil ser# rechaar la hipótesis nula. &. 0e calcula el estad'stico de prueba con los datos del e"emplo
. 0e compara este !alor con el !alor de "icuadrado de la tabla El valor de ji-cuadrado lo buscaremos con alfa12,24 ! 7 grados de libertad. egCn tabla, ese valor es 44,76. $l comparar el valor del estadístico de prueba (2,I7) con el valor de tabla (44,76), vemos que 2,I7 se encuentra a la iquierda de 44,76 desplaado hacia el centro de la curva ! que, por lo tanto, la probabilidad de valores ma!ores a él es mu! superior al nivel de signi+cación alfa12,24. . 3onclusión &ado que la probabilidad de es ma!or que alfa, se acepta la hipótesis nula. Esto signi+ca que los datos observados se ajustan a la
distribución teórica, por lo tanto las diferencias observadas no son estadísticamente signi+cativas. 4. r*+co
r*+co &. %rueba de bondad de ajuste.