Herramienta para Análisis de Datos: ANOVA: Análisis de varianza de un solo factor
Problema ejemplo: Suponga que usted sea dueño de un restaurante mexicano y que ofrezca una salsa especial que acompaña las enchiladas. Usted cuenta con clientes regulares que vienen todos los días. La mayoría de sus clientes son estudiantes, obreros o unos empleados de oficina. lgunos de ellos casi siempre piden la salsa especial, pero usted tiene la impresi!n de qu e a los estudiantes y a los obreros les gusta g usta m"s esta salsa que a los empleados. #as"ndose en $% días representativos para cada grupo, &existe en este caso alguna relaci!n significativa' Número de veces que los clientes piden la salsa especial Día
Es t ud i a n t e s
E m p l e ad o s
O br e r o s
1
25
15
25
2
10
18
29
3
14
13
28
4
14
15
27
5
20
14
25
6
27
9
28
7
19
9
29
8
22
10
27
9
19
11
26
10
14
13
28
Observaciones: La función Análisis de Varianza de un solo factor realiza un an álisis de varianza sencillo, que somete a prueba la hip ótesis seg ún la cual las medias de varias muestras son iguales. Generalmente, el an álisis de varianza, es un procedimiento estad í stico stico que se utiliza para determinar si las medias de dos o m ás muestras fueron extra í das das de la misma poblaci ón. La función de ANOVA de un solo factor le pide que provee la siguiente informaci ón. Input Range: Range: Rango de entrada. Escriba la referencia correspondiente al rango de datos de la hoja de c álculo que desee analizar. El rango de entrada deber á contener dos o más rangos adyacentes organizados en columnas (como se ve arriba) o filas. Si el rango de entrada contiene t í tulos tulos de fila o de columna, deber á seleccionar la casilla de verificación. Output Range: Rango Range: Rango de salida. Escriba la referencia correspondiente a la celda superior izquierda del rango en el cual desea que aparezca los resultados. Para utilizar las herramientas de an álisis, seleccione Data Analysis del Analysis del men ú de Tools.
(entro de la opci!n de herramienta de an"lisis, esco)a *+- *+- Single /actor*. 0n seguida, registre el 1ango de entrada y el 1ango de Salida, refiri2ndose a la direcci!n de las celdas requeridas. 3uando utilize una herramienta de an"lisis, 0xcel crea una tabla de
resultados. Si usted incluye títulos en el rango de entrada, 0xcel los utiliza para los datos de la tabla de salida. 0l resultado de la tabla de los datos del e)emplo, lo puede encontrar aba)o. Anova: De un solo factor Resumen Grupos
Cuenta
Suma
Promedio
Varianza
Estudiantes
10
184
18.4
29.16
Empleados
10
127
12.7
8.678
Obreros
10
272
27.2
2.178
ANOVA Origen de Variaciones Entre Grupos
Suma de Cuadrados 1067.27
Grados Libertad 2
Promedio Cuadrados 533.6
Dentro de los Grupos
360.1
27
13.34
Total
1427.37
29
F
Prob.
40.01
8.42E09
Valor Crítico 3.354
El resultado de una ANOVA le da el valor estadí stico de la "F." En este caso el valor de la "F" o la variación entre los tres grupos es 40.01. Para saber si los resultados en este ejemplo son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la "F" necesita ser al menos 3.354 (o sea, el valor cr í tico para F). Entonces, como el valor de nuestra "F" es de 40.01 y es mucho mayor que el valor crí tico para F (3.354) estamos seguros que los resultados de nuestras pruebas son significativos. En otras palabras, s í existe una relaci ón significativa entre cuanto que cada grupo pide la salsa especial. La probabilidad demuestra a qu é nivel los resultados son estad í sticamente significativos.
Problema para el estudiante 4magine que la compañía 5ortillas /amiliares, S.. haya lanzado una nueva marca de tostaditas que vienen con nuevos colores. #as"ndose de una encuesta que la compañía condu)o enfoc"ndose a los colores de la tostadita, la textura y los sabores, tenemos unos datos de las opiniones de diferentes clientes acerca de nuestro producto. 6emos tenido algunas discusiones que indican que las opiniones de los colores de las tostaditas dependen de las diferentes edades de los clientes. Los resultados de las encue stas se dividieron entre diferentes rangos de edades. Los resultados est"n tabulados a una escala de $%% puntos 7el punto m"s alto, significa que le gustan m"s las tostaditas8. #as"ndose en estos resultados, &existe alguna diferencia estadística entre las opiniones de las tostaditas y la edad de los clientes' Tostaditas de nuevos colores Encuesta: Resultados por Edad Informante
< 20
21-40
> 40
1
89
85
64
2
95
67
66
3
94
90
68
4
81
73
63
5
82
83
59
6
86
73
75
7
87
86
80
8
92
61
60
9
90
89
59
10
93
75
73
Anova: De un solo factor Resumen Grupos
Cuenta
Suma
Promedio
Varianza
< 20 años
10
889
88.9
23.6556
21 – 40 años
10
782
78.2
96.8444
> 40 años
10
667
66.7
52.4556
ANOVA Origen de Variaciones
Suma de Cuadrados
Grados Libertad
Promedio Cuadrados
F
Prob.
Valor Crítico
Entre Grupos
2465.26
2
1232.63
21.38
2.72E06
3.354
Dentro de los Grupos
1556.6
27
57.65
Total
4021.86
29
Nótese: Para ser significativo, el valor de F tiene que ser mayor de 3.35 y el valor de F observado en este caso llega a ser 21.38. Como resultado, el ANOVA indica que sí existe una diferencia significativa entre los tres grupos encuanto a su opini ón sobre las tostaditas de nuevos colores.
Herramienta para Análisis de Datos: ANOVA: Análisis de varianza de dos factores con una sola muestra por grupo
Problema ejemplo: Suponga que usted haya experimentado con levadura para una receta de panes dulces. 9arece ser que la cantidad de az:car y la temperatura del agua afectan el tamaño de los panes. #as"ndose en los siguientes datos, usted realiza un an"lisis de varianza para averiguar lo que es significativo de estas recetas. Levadura: Tamaño de los panes dulces Agua Fría
Agua Tibia
Agua Caliente
Poco Azúcar
75
87
60
Azúcar Normal
74
82
55
Mucho Azúcar
70
79
53
Observaciones: Esta función permite realizar un an álisis de varianza de dos factores con una sola muestra por grupo. En general, el análisis de varianza es un procedimiento estad í stico que se utiliza para determinar si las medias de dos o más muestras han sido extra í das de poblaciones con la misma media. La funci ón de ANOVA: dos factores con una sola muestra por grupo le pide que provee la siguiente informaci ón. Input Range: Rango de entrada. Escriba la referencia correspondiente al rango de datos de la hoja de c álculo que desee analizar. El rango de entrada deber á contener dos o más rangos adyacentes organizados en columnas (como se ve arriba) o filas. Si el rango de entrada contiene t í tulos de fila o de columna, deber á seleccionar la casilla de verificación. Output Range: Rango de salida. Escriba la referencia correspondiente a la celda superior izquierda del rango en el cual desea que aparezcan los resultados. Para utilizar las herramientas de an álisis, seleccione Data Analysis del menú de Tools. Dentro de la caja de herramienta de an álisis, escoja "ANOVA: Two-factor Without Replication." En seguida, registre el Rango de entrada y el Rango de Salida, refiri éndose a la direcci ón de las celdas requeridas. Cuando utilize una herramienta de an álisis, Excel crea una tabla de resultados. Si usted incluye t í tulos en el rango de entrada,
Excel los utiliza para los datos de la tabla de salida. El resultado de la tabla de los datos del ejemplo, lo puede encontrar abajo.
Anova: Dos factores con una sola muestra Resumen
Cuenta 3
Suma 222
Promedio 74
Varianza 183
Azucar Normal
3
211
70.33
192.33
Mucho Azúcar
3
202
67.33
174.33
Agua Fría
3
219
73
7
Agua Tibia
3
248
82.67
16.33
Agua Caliente
3
168
56
13
Poco Azúcar
ANOVA Origen de Variaciones Filas
Suma de Cuadrados 66.89
Grados Libertad 2
Promedio Cuadrados 33.44
F
Prob.
23.15
0.0063
Columnas
1093.56
2
546.78
378.53
2.7E05
Error
5.78
4
1.44
Total
1166.22
8
Valor Crítico 6.94 6.94
El resultado del ANOVA (An álisis de varianza) indica el valor estad í stico de la "F." En este caso el valor de la "F" por las filas (cantidad de az úcar) es 23.15. Para saber si estos resultados son significativos (o sea, si la probabilidad "P" tiene un valor menor a 0.05), el valor de la " F" observado necesita ser al menos 6.94 (o sea, el valor cr í tico de la F). Entonces, como el valor de "F" observado es de 23.15 y es mucho mayor que el valor cr í tico de la F (6.94), estamos seguros que los resultados de nuestras pruebas son significativas. El valor de la "F" para las columnas (temperatura del agua) es igual a 378.53. Esto es tambi én significativo, porque el valor de "F" cr í tico es solamente 6.94. En otras palabras, existe una relaci ón significativa en la cantidad de azúcar, la temperatura del agua y el tama ño de los panes dulces. La probabilidad muestra a qu é nivel los resultados son estad í sticamente significativos.
Problema para el estudiante: 4magine que la compañía 5ortillas /amiliares, S.. haya analizado el n:mero de clientes que entra a la tienda principal. 3ada hora, ellos han contado el n:mero promedio de clientes que entra a la tienda. 0stos n:meros est"n resumidos por hora y por trimestre. &0xiste alguna relaci!n significativa en el n:mero de clientes que entra a la tienda por medio de las variables que son la hora y el trimestre del año'
Promedio de clientes en la tienda Hora Trim 1 Trim 2 Trim 3 Trim 4 8:00AM
7
4
5
9
9:00AM
10
7
8
20
10:00AM
25
15
17
35
11:00AM
50
20
25
67
12:00PM
75
35
40
85
1:00PM
79
40
46
103
2:00PM
74
43
49
96
3:00PM
68
38
38
85
4:00PM
52
34
38
80
5:00PM
54
30
35
86
6:00PM
45
25
30
85
7:00PM
69
27
35
75
8:00PM
50
20
33
70
9:00PM
40
17
29
62
Anova: Dos factores con una sola muestra Resumen
Cuenta
Suma
Promedio
Varianza
8:00 AM
4
25
6.25
4.916
9:00 AM
4
45
23
35.58
10:00 AM
4
92
23
82.67
11:00 AM
4
162
40.5
484.33
12:00 PM
4
235
58.75
622.92
1:00 PM
4
268
67
870
2:00 PM
4
262
65.5
593.67
3:00 PM
4
229
57.25
542.25
4:00 PM
4
204
51
433.33
5:00 PM
4
205
51.25
643.58
6:00 PM
4
185
46.25
739.58
7:00 PM
4
206
51.5
577
8:00 PM
4
173
43.25
468.92
9:00 PM
4
148
37
366
Trim 1
14
698
49.85
534.29
Trim 2
14
355
25.35
146.55
Trim 3
14
428
30.57
169.49
Trim 4
14
958
68.42
792.73
ANOVA Origen de Variaciones Filas
Suma de Cuadrados 18179.58
Grados Libertad 13
Promedio Cuadrados 1398.42
F
Prob.
17.149
3.19E12
Columnas
16214.05
3
5404.68
66.28
2.27E15
Error
3180.19
39
81.54
Total
37573.83
8
Valor Crítico 1.98 2.84
Nótese: El valor de F significativo para las filas (i.e., la hora del d í a) nos indica que de acuerdo con la hora del dí a, hay una diferencia significativa en el n úmero de clientes que pasa por la tienda. El valor significativo para las columnas (i.e., trimestre) nos indica que de acuerdo con el trimestre del a ño, hay una diferencia significativa en el n úmero de clientes que pasa por la tienda.
Ejemplo 1 Se quiere evaluar la eficacia de distintas dosis de un fármaco contra la hipertensión arterial, comparándola con la de una dieta sin sal. Para ello se seleccionan al azar 25 hipertensos y se distribuyen aleatoriamente en 5 grupos. l primero de ellos no se le suministra ning!n tratamiento, al segundo una dieta con un contenido pobre en sal, al tercero una dieta sin sal, al cuarto el fármaco a una dosis determinada y al quinto el mismo fármaco a otra dosis. "as presiones arteriales sistólicas de los 25 su#etos al finalizar los tratamientos son$
1 %&' %(* %(5 %&2 %&%
2 %(2 %5& %)( %)' %(5
Grupo 3 %)* %(' %5& %)2 %('
4 %5& %+) %)' %(% %55
5 %+( %52 %+* %55 %)'
"a tabla de anova es$ uente de variación ratamiento /rror otal
-" + 2' 2+
SS
MS
F
2'%',)+ 5'2,)) %%,2+ &0+,+ ++,(2 20'5,'+
1omo F ','5+,2'3 42,&( y %%,2+2,&( rechazamos la hipótesis nula y concluimos que los resultados de los tratamientos son diferentes.
Ejemplo Se quiere probar la eficacia de un somn6fero estudiando posibles diferencias de la misma por el se7o de los su#etos. Se eligen al azar dos grupos de insomnes varones y otros dos de mu#eres y tanto para los hombres como para las mu#eres se
suministra a un grupo el somn6fero y a otro un placebo y se mide, en minutos, el tiempo que tardan en dormirse. "os resultados son$ Placebo Somn6fero *' 5' +5 +( *& 5' *5 +) 25 *2
*5 *2 *' 25 *' +2 *' %5 %& 2*
8ombre
9u#er
Se trata de un anova de dos factores fi#os. "lamamos primer factor a la droga que tiene dos niveles$ placebo y somn6fero. /l segundo factor es el se7o tambi:n con 2 niveles$ hombres y mu#eres. /l tama;o de las muestras es n45. "a tabla de anova es$ Fuente de variación Somn6fero Se7o
GL
SS
MS
% )0),2 )0),2 % %'5,& %'5,& % ',2 ',2 %) %%0(,)(+,&5 %0 %000,&
Se empieza contrastando la interacción$ f 4 ',2=(+,&5 4 ',''2) que como es menor que F 0,05(1,16) 4+,+0 no se rechaza la hipótesis nula de que no e7iste interacción. continuación se contrastan los factores$ para el somn6fero f 4 )0),2=(+,&5 4 0,* que es mayor que +,+0 por lo tanto e7iste efecto del somn6fero y para el se7o f 4 %'5,&=(+,&5 4 %,+% que como es menor que +,+0 no e7iste diferencias entre los se7os. "a estimación del efecto del somn6fero será la diferencia entre las medias de los que lo toman y los que tomaron placebo, sin tener en cuenta el se7o, una vez que se ha visto que no tiene efecto
Ejemplo 3
/n el ensayo cl6nico de los analg:sicos descrito anteriormente se encuentran los siguientes resultados$ Placebo nalg:sico ;nalg:sico > *5 +' )' 5' 5'
2' *5 5' +' *'
22 +2 *' *5 22
"a tabla de anova correspondiente$ uente de -.". SS 9S variación nalg:sico 2 (+&,& *(+,+ tratamiento3 Paciente bloque3 + ()(,) %0%,0 /rror & +'0,2 5%,%5 otal %+ %025,) "os contrastes de hipótesis se hacen$ para el analg:sico f 4*(+,+=5%,%54(,*2 que como es mayor que F 0,05(2,8) 4+,+) e7iste un efecto del tratamiento. para los bloques f 4%0%,0=5%,%54*,(5 que es menor que F 0,05(4,8) 4*,&+ por tanto no hay componente a;adida por los pacientes.