UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE MEDICINA DEPARTAMENTO ACADÉMICO DE MEDICINA PREVENTIVA Y SALUD PÚBLICA PÚBLICA EAP DE ENFERMERÍA . ASIGNATURA: BIOESTADÍSTICA PROMOCIÓN 2017 MARZO – JULIO JULIO 2017
SOLUCIONARIO DE LA PRÁCTICA 11 PRUEBAS DE ASOCIACION (Miércoles 28 de Junio del 2017) Dr. Ricardo Terukina Terukina Profesor Principal
Usos de la Prueba de Chi cuadrado o Ji cuadrado. A. Cuando se trata de una tabla de 2 x 2.
Si n > 40, se usa X 2 corregida por continuidad de Yates . Algunos recomiendan no aplicar esta corrección cuando el tamaño de la muestra es mayor de 50.
Si n se halla entre entre 20 y 40, se usa X2 cuando todas las frecuencias esperadas son mayores de 5.
Si n es menor de 20, no usar Chi Chi cuadrado, sino utilizar la Prueba exacta de Fisher.
B. Cuando se trata de una tabla con grados de libertad mayor de 1.
Usar Chi cuadrado cuando menos del 20% de las celdas tienen frecuencias esperadas menor de 5 y cuando ninguna de las celdas tiene una frecuencia esperada menor de 1. Si no se cuenta con estos requisitos, se pueden combinar celdas para aumentar las frecuencias en las diferentes celdas.
Aplicaciones: a. Prueba de independencia: Cuando se trata de determinar si hay asociación entre dos o más variables. Se trabaja con una sola muestra (Diseño de corte transversal). b. Prueba de homogeneidad: Se trata de determinar si dos o más poblaciones pertenecen a una misma población. Se trabaja con dos o más muestras (Diseño de casos y controles, diseño de cohorte) c. Prueba de bondad del ajuste: Se lleva a cabo cuando la interrogante es saber si un grupo observado ob servado de mediciones sigue una distribución teórica de cierta clase (Distribución normal, binomial, Poisson, etc) 1. Se está interesado en estudiar la contaminación de cierto componente nutricional con relación al distribuidor q ue los suministra. Para realizar esto, tomamos una muestra de 100 muestras de cada uno de los 3 distribuidores que nos distribuyen el producto comprobando el número de muestras contaminadas para cada distribuidor. La siguiente tabla muestra el número de muestras contaminadas para cada uno de los distribuidores. Distribuidor 1 2 3 Total
Muestras contaminadas 16 24 19 59
Formule la prueba estadística correspondiente, use α=0.01
Muestras validas
Total
84 76 81 241
100 100 100 300
La prueba de Chi cuadrado se utiliza fundamentalmente en las pruebas de independencia y de homogeneidad.
Pruebas de independencia: Permite probar la hipótesis nula de que dos criterios de clasificación, cuando se aplican al mismo conjunto de entidades (personas, animales o cosas), son independientes. En estos casos, se trata de SOLO UNA MUESTRA en la que los individuos son clasificados simultáneamente en función de las variables cuya asociación se quiere demostrar. Ejemplo: La asociación entre la edad (Edad ≥ 21 años y Edad < 21 años) y la reacción de la prueba de tuberculina (PPD + y PPD - ).. Prueba de homogeneidad: Nos permiten conocer si dos o mas muestras pertenecen a una misma población En estos casos se trata de DOS O MÁS MUESTRAS en las que se quiere demostrar que varían en relación a alguna variable de estudio. Por ejemplo: Comparar la efectividad de dos esquemas de tratamiento. Pasos: Se tienen las variables: Distribuidores de alimentos y muestras contaminadas. Paso 1. Formulación de hipótesis: Ho : Los tres distribuidores no difieren con respecto a la proporción de muestras contaminadas H1 : Los tres distribuidores difieren con respecto ala proporción de muestras contaminadas Paso 2: Nivel de significación α = 0,01 Paso 3: Elección de la prueba de significaciòn estadìstica: Ji cuadrada . Prueba de homogeneidad. Paso 4: Regla de decisión: estadística: Grados de libertad = (F-1) (C-1) = (3-1) (2-1) = 21 x 1 = 2 La H0 se rechazará con un nivel de significación de 0,01 y 2 grados de libertad si el Ji cuadrado calculado es ≥ 9,210 Paso 5: Cálculo de la prueba: Para el cálculo de Chi cuadrado se utiliza la siguiente fórmula:
Χ
2
(O E) E2
2
Χ 2 Σ Donde O E
Valor de Chi cuadrado Suma de Valor observado Valor esperado o teòrico
Se siguen los siguientes pasos: a. Identificar los valores observados (O). Los valores observados (O ) vienen a ser los resultados del estudio. Así, el valor observado de muestras contaminadas del Distribuidor 1 es de 16 y el de muestras válidas es de 84, tal como se observa en el cuadro adjunto. Igualmente, los valores observados de muestras contaminadas del Distribuidor 2 es de 24 y el de muestras válidas es de 76. Asimismo, los valores observados de muestras contaminadas del Distribuidor 3 es de 19 y el de muestras válidas es de 81. b. Calcular los valores esperados (E). Los valores esperados (E) son los valores que se tendrían si los tres Distribuidores tuviesen la misma proporción de muestras contaminadas. En el cuadro se observa que el total de Distribuidores que presentaron muestras contaminadas es de 19,67% (59/300) y los que presentaron muestras válidas es del 80,33% (241/300). Sin embargo, estos porcentajes son diferentes en el Distribuidor 1 (16% y 84%), en el Distribuidor 2 (24% y 76%) y en el Distribuidor 3 (19% y 81% respectivamente); es decir, existe una diferencia, aparentemente, entre la proporción de muestras contaminadas en los tres Distribuidores. Si no hubiese diferencia en la proporción de muestras contaminadas, el porcentaje de muestras contaminadas sería igual tanto en el Distribuidor 1, 2 y 3; entonces, se esperaría en el Distribuidor 1 que el 19,67% de las muestras se encuentren contaminadas, o sea 19,67 muestras (100 x 0,1967 = 19,67) ; este sería el valor esperado de muestras contaminadas en el Distribuidor 1. En forma similar, el valor
esperado de muestras contaminadas en el Distribuidor 2 sería también de 19,67%, o sea 19,67 muestras contaminadas (100 x 0.1967 = 19,67). Igualmente, el valor esperado de muestras contaminadas en el Distribuidor 3, también sería de 19,67%, o sea 19,67 muestras contaminadas (100 x 0,1967 = 19,67). Siguiendo el mismo razonamiento, el porcentaje de muestras válidas también sería igual en los tres Distribuidores; entonces, se esperaría en el Distribuidor 1 que el 80,33% de las muestras sean válidas, o sea 80,33 muestras contaminadas (100 x 0,8033 = 80,33); este sería el valor esperado de las muestras válidas en el Distribuidor 1. En forma similar, el valor esperado de muestras válidas en el Distribuidor 2 sería también del 80,33%, o sea 80,33 muestras válidas (100 x 0,8033 = 80,33). Igualmente, el valor esperado de muestras válidas en el Distribuidor 3, también sería de 80,33%, o sea 80,33 muestras válidas (100 x 0,8033 = 80,33).
Distribuidor 1 2 3 Total
Distribuidor 1 2 3 Total
Muestra contaminada Número % 16 16,00 24 24,00 19 19,00 59 19,67
Muestra válida Número % 84 84,00 76 76,00 81 81,00 241 80,33
Muestra contaminada Observado Esperado 16 19,67 24 19,67 19 19,67 59 59,01
Muestra válida Observado Esperado 84 80,33 76 80,33 81 80,33 241 240,99
Total 100 100 100 300
Total 100 100 100 300
Una forma práctica para calcular los valores esperados es empleando la siguiente fórmula: E
(Total marginal de fila) (Total marginal de columna)
Total general
Para la casilla superior izquierda (Distribuidor 1 con muestras contaminadas) : E
(100) (59)
300
5900
300
.19,67
Para la casilla media izquierda (Distribuidor 2 con muestras contaminadas) : E
(100) (59)
300
5900
300
.19,67
Para la casilla inferior izquierda (Distribuidor 3 con muestras contaminadas) : E
(100) (59)
300
5900
300
.19,67
Para la casilla superior derecha (Distribuidor 1 con muestra válida) : E
(100) (241) 300
24100 300
80,3333
80,33
Para la casilla media derecha (Distribuidor 2 con muestra válida) : E
(100) (241) 300
24100 300
80,3333
80,33
Para la casilla inferior derecha (Distribuidor 2 con muestra válida) :
E
c.
(100) (241) 300
24100 300
80,3333
80,33
Calcular Chi-cuadrado: Se aplica la fórmula: X2
(O E) 2 E
0,6847 0,4453 0, 0228 0,2335 0,2335 0,0056 1,6254
(Ver tabla adjunta)
16 24 19 84 76 81
-
19,67 19,67 19,67 80,33 80,33 80,33
(O E)
(O – E)2
O-E = = = = = =
-3,67 4,33 -0,67 3,67 -4,33 0,67
-3,672 4,332 --0,672 3,672 -4,332 0,672
= = = = = =
13,4689 18,7589 0,4489 13,4689 18,7589 0,4489
2
E
13,4689 18,7589 0,4489 13,4689 18,7589 0,4489
/ / / / / /
19,67 19,67 19,67 80,33 80,33 80,33 X
= = = = = = =
0,6847 0,9537 0,0228 0,1677 0,2335 0,0056 2,0680
Paso 6 Decisión estadística y conclusión: Como X2 = 2,0680 es menor que 9,210, NO se rechaza la hipótesis de nulidad. No sólo debemos expresar si rechazamos o no la Hipótesis nula, sino que además debemos determinar el valor de p. Consultando Excel (Función Estadística : DISTR.CHICUAD.CD) para X 2 = 2,0680 para 2 grados de liberta, p = 0,355581785 Conclusión: No existe diferencia en la proporción de muestras contaminadas entre las tres Distribuidoras. 2. Se está interesado en estudiar la relación entre cierta enfermedad y la adicción al tabaco. Para ello se selecciona una muestra de 150 individuos, 100 individuos no fumadores y 50 fumadores. La siguiente tabla muestra las frecuencias de enfermedad en cada grupo. Grupo No Fumadores Fumadores Total
Enfermos 12 25 37
Sanos 88 25 113
Total 100 50 150
Formule la prueba estadística correspondiente, use α=0.05 Pasos: Se tienen las variables: Hábito de fumar y estado de salud. Paso 1. Formulación de hipótesis: Ho : No existe asociación entre el hábito de fumar y el estado de salud. H1 : Hay asociación entre el hábito de fumar y el estado de salud. Paso 2: Nivel de significación α = 0,05 Paso 3: Elección de la prueba de significaciòn estadìstica: Ji cuadrada . Prueba de independencia. Paso 4: Regla de decisión: estadística: Grados de libertad = (F-1) (C-1) = (2-1) (2-1) = 21 x 1 = 1
La H0 se rechazará con un nivel de significación de 0,05 y 1 grados de libertad si el Ji cuadrado calculado es ≥ 3,841 Paso 5: Cálculo de la prueba: Para el cálculo de Chi cuadrado se utiliza la siguiente fórmula:
Χ
2
(O E)
Χ 2 Σ Donde O E
2
E2
Valor de Chi cuadrado Suma de Valor observado Valor esperado o teòrico
Se siguen los siguientes pasos: a. Se calculan los valores esperados: Una forma simple y rápida para calcular los valores esperados (E) es empleando la siguiente fórmula: E
(Total marginal de filas) (Total marginal de columna)
Total general
Para la casilla superior izquierda (Pacientes no fumadores y enfermos): E
(100) (37)
3700
150
150
24,67
Para la casilla inferior izquierda (Pacientes de fumadores y enfermos) E
(50) (37)
1850
150
150
12,33
Para la casilla superior derecha (Pacientes no fumadores y sanos): E
(100) (113)
11300
150
150
75,33
Para la casilla inferior derecha (Pacientes de sexo masculino sin diabetes): E
(50) (113)
5650
150
150
37,67
Estado de salud Enfermo Sano Observado Esperado Observado Esperado (O) (E ) (O) (E ) 12 88 24,67 75,33 25 25 12,33 37,67 37 113
Grupo No fumadores Fumadores Total
Total 100 50 150
b. Calcular Ji-cuadrado: Se aplica la fórmula: 2
X
(O E) 2 E
6,5070 13, 0194 2,1310 4,2615 25,9189
O-E
( O – E )2
12 – 24,67 = -12,67 25 – 12,33 = 12,67 88 – 75,33 = 12,67
-12,672 = 160,5289 12,672 = 160,5289 12,672 = 160,5289
( O E )2 E
160,5289 / 24,67 = 6,5070 160,5289 / 12,33 = 13,0194 160,5289 / 75,33 = 2,1310
25 – 37,67 = -12,67
-12,672 = 160,5289
160,5289 / 37,67 = 4,2615 X2 = 25,9189
Otra alternativa para obtener Ji cuadrado en una tabla 2 x 2:: Como alternativa se puede utilizar una fórmula más breve y simple, porque no es necesario calcular los valores esperados. Una tabla auxiliar nos puede ayudar a comprender el procedimiento; en ella se presenta la estructura de una tabla 2 x 2 para la fórmula simplificada: Estado de salud Enfermo Sano a b c d a+c b+d
Grupo No fumadores Fumadores Total
Total a+b c+d a + b+ c + d = n
Se emplea la siguiente fórmula: X
2
n (ad bc) 2 (a b) (c d) (a c) ( b d)
Datos: Estado de salud Enfermo Sano a (12) b (88) c (25) d (25) a + c (37) b + d (113)
Grupo No fumadores Fumadores Total
(150) Total a + b (100) c + d (50) n (150)
Aplicando la fórmula: X
2
(a b) (c d ) (a c) ( b d ) 2
2
n (ad bc) 2
150 1900 20905000
(12 88) ( 25 25) (12 25) (88 25)
150 (3610000 ) 20905000
2
150 (12) (25) (88) (25)
541500000 20905000
25,90289404
150 300 2200
(100 ) (50) (37) (113 )
25,9029
Resultado casi igual, salvo una diferencia de 16 milésimo por redondeo. 6. Decisión estadística y conclusión: Grados de libertad = (F-1) (C-1) = (2-1) (2-1) = 1 x 1 = 1 La H0 se rechazará con un nivel de significación de 0.05 y 1 grados de libertad si el Ji cuadrado calculado es ≥ Ji cuadrado tabular (3.841) Como X2 = 25,9029 es mayor que 3.841, se rechaza la hipótesis de nulidad. Conclusión: Hay asociación entre el hábito de fumar y el estado de salud. Como el tamaño de la muestra es mayor de 50 (150 casos), no es necesario aplicar la corrección de Yates. Sin embargo, algunos consideran que en todos los casos de tabla 2 x 2 se debe usar la corrección de Yates. Para ello se emplea la siguiente fórmula:
Χ
2
Χ 2 Valor de Ji cuadrado ( O E - 0.5) 2 Σ Suma de Donde E O Valor observado E Valor esperado o teòrico
En la fórmula corregida, las barras verticales que encierran O – E , indican que en el resultado de la diferencia sólo se tome en cuenta su valor absoluto, ignorando los signos negativos. Aplicando la fórmula, se tiene:
│O - E│- 0.5 | 12 – 24,67| - 0.5 = | 25 – 12,33| - 0.5 = | 88 – 75,33| - 0.5 = | 25 – 37,67| - 0.5 =
2
X
( O – E
E
12,172 =
12,17 12,17 12,17 12,17
( O - E - 0.5)
( O E )2
)2
148,1089 148,1089 12,172 = 148,1089 12,172 = 148,1089 12,172 =
148,1089/24,67 = 6,0036 148,1089/12,33 = 12,0121 148,1089/75,33 = 1,9661 148,1089/37,67 = 3,9317 X2 = 23,9135
2
E
6,0036 12,0121 1,9661 3,9317 23,9135
El valor de Ji cuadrado corregido es menor. Y una X2 menor significa que la hipótesis nula no se rechazará con tanta frecuencia como ocurre con la Ji cuadrada mayor sin corregir; es decir, es más conservadora. Por consiguiente, existe menor riesgo de cometer un error de tipo I, pero aumenta el riesgo de un error tipo II.. Otra alternativa para obtener Ji cuadrado corregida, es utilizando la fórmula simplificada: X
2
n ( ad bc 0.5 n ) 2 (a b) (c d ) (a c) ( b d )
150 1900
75
20905000
2
150 (12) ( 25) (88) ( 25) 0.5 (150 )
2
(12 88) ( 25 25) (12 25) (88 25) 2
150 1825 20905000
150 3330625 20905000
499593750 20905000
150 (300 2200 ) 75
2
(100 ) (50) (37) (113 )
23,89828988
23,8983
Resultado casi igual, salvo una diferencia de 152 diez milésimo por redondeo. La H 0 se rechazará con un nivel de significación de 0.05 y 1 grados de libertad si el Ji cuadrado calculado es ≥ Ji cuadrado tabular ( 3.841) Como X2 = 23,9135 es mayor que 3.841, se rechaza la hipótesis de nulidad. Consultando Excel (Función Estadística DISTR.CHICUA.DC) p = 1,00763 -6 = 0,00000100763
Comentario: Como se observa, tanto con Ji cuadrado corregida como sin corregir, se rechaza la hipótesis nula; esto significa, desde un punto de vista práctico, que vale la pena aplicar la corrección de Yates cuando el valor de Ji cuadrado es muy cercano al valor crítico de Ji cuadrado para un determinado nivel de significación (Ji cuadrado tabular). Asimismo, la probabilidad de Ji cuadrada corregida es mayor que sin corregir (25,9189 > 23,9138) Conclusión: Hay asociación entre el hábito de fumar y el estado de salud. 3. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Deportista No deportista Total
Sin depresión 38 31 69
Con depresión 9 22 31
Total 47 53 100
Determinar si existe independencia entre la actividad del sujeto y su estado de ánimo. Emplee un nivel de significación de 5%.
Pasos: Se tienen las variables: Práctica deportiva y depresión.. Paso 1. Formulación de hipótesis: Ho : No existe asociación entre la práctica deportiva y la depresión. H1 : Hay asociación entre la práctica deportiva y la depresión. Paso 2: Nivel de significación α = 0,05 Paso 3: Elección de la prueba de significaciòn estadìstica: Ji cuadrada . Prueba de independencia. Paso 4: Regla de decisión: estadística: Grados de libertad = (F-1) (C-1) = (2-1) (2-1) = 21 x 1 = 1 La H0 se rechazará con un nivel de significación de 0,05 y 1 grados de libertad si el Ji cuadrado calculado
es ≥ 3,841
Paso 5: Cálculo de la prueba: Se obtiene el valor de chi cuadrado por el procedimiento ya conocido y se halla que es de 5,8227 Al obtener los valores esperados, ninguno de ellos fue < 5 Paso 6. Decisión estadística y conclusión: Grados de libertad = (F-1) (C-1) = (2-1) (2-1) = 1 x 1 = 1 La H0 se rechazará con un nivel de significación de 0.05 y 1 grados de libertad si el Ji cuadrado calculado
es ≥ Ji cuadrado tabular (3.841)
Como X2 = 25,9029 es mayor que 3.841, se rechaza la hipótesis de nulidad. Conclusión: Existe asociación entre práctica deportiva y la depresión, siendo menor la proporción de depresión en los que practican alguna actividad deportiva. 4. Un estudio que se realizó con 81 personas referente a la relación entre la cantidad de violencia vista en la televisión y la edad del televidente produjo los siguientes resultados. Violencia Poca Mucha
16-34 8 18
35-55 12 15
56 a mas 21 7
¿Indican los datos que ver violencia en la televisión está asociado a la edad del televidente, a un nivel de significación del 5%?
Pasos: Se tienen las variables: cantidad de violencia observada en la televisión y edad del televidente. Paso 1. Formulación de hipótesis: Ho : No existe asociación entre la cantidad de violencia observada en la televisión y la edad del televidente. H1 : Existe asociación entre la cantidad de violencia observada en la televisión y la edad del televidente. Paso 2: Nivel de significación α = 0,05 Paso 3: Elección de la prueba de significaciòn estadìstica: Ji cuadrada . Prueba de independencia.
Paso 4: Regla de decisión: estadística: Grados de libertad = (F-1) (C-1) = (2-1) (3-1) = 1 x 2 = 2 La H0 se rechazará con un nivel de significación de 0,05 y 2 grados de libertad si el Ji cuadrado calculado es ≥ 5,99 Paso 5: Cálculo de la prueba: Se obtiene el valor de chi cuadrado por el procedimiento ya conocido y se halla que es de 11,1688 Paso 6. Decisión estadística y conclusión: Como X2 = 11,1688 es mayor que 5,99, se rechaza la hipótesis de nulidad. Consultando Excel p = 0,0038 Conclusión: Existe asociación entre la edad del televidente y la observación de violencia en la televisión.
Revisado Dr. Ricardo Terukina 20-06-2016