CAPITULO 5 DISEÑOS FACTORIALES FACTORIALES En los diseños estudiados anteriormente solo se contaba con un factor de interés y, el objetivo del diseño era determinar si los tratamientos (niveles del factor) conducían a resultados estadísticamente estadísticamente diferentes. Es decir, si el factor f actor tenia influencia o no sobre la variable respuesta. En este capítulo se estudia el caso más general en el que se estudia la forma como influyen inf luyen varios factores (más de dos) sobre la variable repuesta.
En general, los diseños factoriales combinan todos los niveles de todos los factores de interés para determinar si existen diferencias significativas entre los diferentes tratamientos. Aquí, un tratamiento es un experimento en el cual se fijan los niveles de los factores en un valor particular y se realiza el experimento. Por ejemplo, si un ingeniero químico está interesado en investigar los efectos del tiempo de reacción y de la temperatura de reacción sobre el rendimiento de un proceso, y se consideran importantes los dos niveles de tiempo (1 y 1.5 horas) y los dos niveles de temperatura (125 ºF y 150 ºF), entonces el experimento factorial consiste en hacer corridas experimentales para cada una de las cuatro combinaciones posibles de los niveles de tiempo y temperatura de reacción.
5.1 Definiciones básicas
5.1.1 Diseño Factorial Un diseño factorial es el conjunto de experimentales o tratamientos que se forman considerando todas las posibles posibles combinaciones de los niveles niveles de los factores. Por Por ejemplo si se desean estudiar la forma como influyen dos factores sobre la variable de interés y se consideran importantes tres niveles para el primer factor y dos para el segundo, se forma el diseño 3x2, para un total de 6 corridas o tratamientos. El nombre de diseño factorial establece de manera implícita el número de corridas que se deben realizar de acuerdo a la cantidad de niveles de cada factor f actor que se combinan. Como un segundo ejemplo suponga que se desea estudiar el efecto de tres factores sobre la variable respuesta y que se tiene interés en tres niveles para el primer factor, cuatro para el segundo y cinco para el tercero. Esto da origen a un diseño 3x4x5, es decir, un total de 60 corridas o tratamientos que resultan de todas las posibles combinaciones combinaciones de los niveles de cada factor
5.1.2 Efecto principal y efecto de interacción interacción El efecto de un factor se define como el cambio observado en la variable de respuesta debido a un cambio de nivel de tal factor. En particular los efectos principales son los cambios en la medida de la variable de respuesta debidos a la acción individual de cada factor. Matemáticamente el efecto principal de un factor es la diferencia entre la respuesta media observada cuando tal factor estuvo en su nivel alto y la respuesta media observada cuando el factor estuvo en su nivel bajo. Vemos esto con un ejemplo sencillo
5.1.2.1
Ejemplo de un diseño sin interacción entre factores
Suponga que se estudia el efecto de la presión y la temperatura sobre el rendimiento de un proceso químico y que resultan importantes dos niveles de cada factor. Los resultados se muestran en la siguiente tabla
A: Temperatura
B: Presión
Baja
Alta
Baja
50
70
Alta
60
80
Tabla 5.1 Ejemplo de un diseño factorial a dos niveles sin interacción entre factores
Observe que el cambio en la variable respuesta (el rendimiento) debido a la temperatura (A) es A =
70 + 80
−
2
50 + 60 2
=
20
(5-1)
Es decir que hay un cambio de 20 unidades en el rendimiento promedio al pasar de la temperatura baja a la temperatura alta. De la misma forma: B =
60 + 80 2
−
50 + 70 2
= 10
(5-2)
Que indica que el rendimiento cambia, en promedio, 10 unidades cuando cambia la presión del nivel bajo al nivel alto.
Note que, en este ejemplo, el efecto de A no depende de B ni el del B depende de A. Es decir, el rendimiento siempre cambiar 10 unidades al pasar de la presión baja a la presión alta independientemente de cual sea la presión y que el cambio será de 20 unidades al pasar de la temperatura baja a la alta independientemente de cual sea la presión. Siempre que ocurre esto decimos que no existe interacción entre los dos factores. Así, el efecto de A en el nivel bajo de B es A = 70 − 50 = 20 y en el nivel alto A = 80 − 60 = 20 que concuerda con el valor promedio obtenido en la ecuación (5-1) De igual forma, el efecto de B sobre la variable respuesta en el nivel bajo de A es B
=
60 − 50 = 10 y en el nivel alto de A B = 80 − 70 = 10 que concuerda con el valor
medio encontrado en la ecuación (5-2) Esto es típico cuando no existe interacción entre los factores de interés: su efecto sobre la variable respuesta es el mismo independientemente del nivel de los otros factores y por lo tanto es igual al efecto promedio. En la siguiente figura se muestra esquemáticamente el efecto de la temperatura y la presión sobre el rendimiento. Efecto de la presión, B sobre el rendimi ento
Efecto de la Temperatura, A sobre el rendimiento 85
85
80
80
75
75
20 unidades
70
10 unidades
70
65
T Baja
65
P Baja
60
T Alta
60
P Alta
55
55
50
50
45
45 40
40 P Baja
P Alta
T Baja
T Alta
Figura 5.1 Diseño factorial con dos factores sin interacción
Las dos figuras dan la misma información y en ambas se puede apreciar que no existe interacción entre los dos factores de interés. Note que el efecto de la temperatura sobre el rendimiento siempre es de 20 unidades independientemente de la presión y que el efecto de la presión siempre es de 10.unidades independientemente de la temperatura Una regla que resulta de utilidad a la hora de identificar si existe o no interacción entre los factores estudiados en un diseño experimental es observar si en la gráfica de los factores (como la Figura 5.1) las líneas son casi paralelas. Si las líneas se cruzan entonces es porque existe una interacción entre los dos factores de interés
5.1.2.2
Ejemplo de un diseño con interacción entre factores
En algunos experimentos, la diferencia en la respuesta entre los niveles de un factor no es la misma para todos los niveles de los otros factores. Cuando esto sucede, existe una interacción entre los factores. Por ejemplo, considérense los datos del mismo problema explicado anteriormente en la sesión 5.1.2.1 pero con los siguientes datos:
A: Temperatura
B: Presión
Baja
Alta
Baja
50
70
Alta
60
40
Tabla 5.2 Ejemplo de un diseño factorial a dos niveles con interacción entre factores
El efecto de la temperatura se calcula igual que en caso anterior
A =
70 + 40
−
50 + 60
2
=
2
0
(5-3)
Lo que lleva, de manera tentativa, a concluir que el factor A no tiene ningún efecto. Sin embargo, cuando se examinan los efectos de A para diferentes niveles del factor B, se observa que éste no es el caso. Observe que el efecto de A en el nivel bajo de B es de A = 70 − 50 = 20 y en el nivel alto es de A = 40 − 60 = −20 lo que lleva a un valor promedio de cero.
En este ejemplo se aprecia que el efecto del factor A depende de los niveles del factor B. Por tanto, el conocimiento de la interacción AB es más útil que el conocimiento del efecto principal. Una interacción significativa puede enmascarar la significancia de los efectos principales. En consecuencia, cuando la interacción está presente, los efectos principales de los factores involucrados en ella tal vez no tengan mucho significado. Es fácil estimar el efecto de interacción en experimentos factoriales tales como los ilustrados en los ejemplos anteriores (Tabla 5.1 y Tabla 5.2). En este tipo de experimento, cuando ambos factores tienen dos niveles, el efecto de la interacción AB es la diferencia entre los promedios de las diagonales. Esto representa la mitad de la
diferencia entre los efectos de A para los dos niveles de B. Por ejemplo, en Tabla 5.1 se tiene que el efecto de la interacción AB es
AB =
50 + 80
−
60 + 70
2
2
=
0
(5-4)
Por tanto, no hay interacción entre A y B. En la Tabla 5.2, el efecto de la interacción AB es AB =
50 + 40
−
60 + 70
2
2
= −20
(5-5)
Tal como se mencionó, el efecto de interacción en estos datos es muy grande.
El concepto de interacción puede ilustrarse de manera gráfica en varias formas. La Figura 5.2 es una gráfica de los datos de la Tabla 5.2 contra los niveles de A para los dos niveles de B. Efecto de la presión, B sobre el rendimiento
Efecto de la Temperatura, A sobre el rendimiento 75
75
70
70
65
65
60
60
55
55 50
50 T Baja T Alta
45
45 P Baja P Alta
40
40 P Baja
P Alta
T Baja
T Alta
Figura 5.2 Diseño factorial con dos factores sin interacción
Nótese que las rectas Pbajo y Palto (o Tbajo y Talto) no son paralelas, lo que indica que existe interacción entre los factores Temperatura (A) y Presión (B). Estas gráficas reciben el nombre de gráficas de interacción de dos factores , y a menudo son útiles para presentar los resultados de los experimentos. Muchos de los paquetes estadísticos utilizados para el análisis de datos construyen estas gráficas de manera automática.
Los experimentos factoriales son la única manera de descubrir la interacción entre las variables.
5.2 Experimento factorial Vs mover un factor a la vez. Uno de los errores comunes en la investigación es evaluar el efecto de los factores de manera individual cambiando uno a la vez (y manteniendo los demás constantes) y observar así el efecto sobre la variable respuesta. Consideremos nuevamente el ejemplo de rendimiento y suponga que se desean encontrar las condiciones óptimas (de mayor rendimiento) En la Figura 5.3 se muestran las curvas de nivel para el rendimiento como una función de la temperatura y la presión. Presión 70
Región del óptimo
60
95% 50 Dirección del óptimo 90% 40 85% 80%
30 70% 20
10
Condiciones
60% 100
200
300
400
500
Actuales 600
700
Temperatura
Figura 5.3 Optimización de un proceso moviendo un factor a la vez
La Figura 5.3 cada punto representa una corrida que se realiza en busca del óptimo. La figura muestra claramente que la dirección del óptimo no concuerda con la dirección que se obtiene al mover un factor a la vez y que, en general, mover un factor a la vez no necesariamente lleva al óptimo del proceso. El enfoque de mover un factor a la vez ha fallado porque no puede detectar la interacción entre los dos factores de interés (la temperatura y la presión). Los
experimentos factoriales son la única manera de detectar las interacciones . Por otra parte, el método de un factor a la vez es insuficiente, requiere más experimentación que un experimento factorial, y no existe garantía de que produzca los resultados correctos. Si no existiera interacción entre los factores de interés en el experimento, el diseño factorial y el enfoque de mover un factor a la vez nos llevaran al mismo valor óptimo.
Sin embargo, como esto no esta garantizado, y lo usual es que exista interacción entre los factores considerados (sobretodo en fenómenos complejos) el procedimiento de mover un factor a la vez no conduce a resultados correctos.
5.3 Diseños factoriales con dos factores. Dentro de los diseños factoriales, es el diseño más sencillo y con el que debemos empezar para entender los diseños factoriales generales que se verán más adelante. En este tipo de experimentos se tienen solo dos factores de interés y se desea comprobar si éstos influyen o no sobre la variable respuesta.
5.3.1 Modelo de efectos fijos Suponga que se tienen los factores A y B. El factor A tiene a niveles, mientras que el factor B tiene b niveles. La Tabla 5.3 contiene este experimento factorial con dos factores. El experimento tiene n réplicas, y cada uno contiene ab combinaciones de tratamientos. La observación en la ij-ésima celda para la k-ésima réplica está denotada por yijk. Al realizar el experimento, las observaciones abn deben obtenerse con un
orden aleatorio. Por tanto, el experimento factorial con dos factores es un diseño completamente aleatorizado.
Factor B 2 …
1 1 2 Factor A
. . .
y111 … y211 …
y112 y11n y212 y21n
y121 … y221 …
y122 y12n y222 y22n
. . .
. . .
Totales
ya11 ya12 … ya1n y•1•
ya21 ya22 … ya2n y•2•
Promedios
y •1•
y •2•
a
… … O
… … …
b y1b1 … y2b1 …
y1b2 y1bn y2b2 y2bn . . .
yab1 yab2 … yabn y•b• y •b•
Totales
Promedios
y1••
y1••
y 2••
y 2••
. . .
. . .
y a••
y a••
y•••
y •••
Tabla 5.3 Arreglo de datos para el diseño factorial con dos factores
En la tabla anterior se ha hecho uso de la notación de subíndice “punto”. Recuerde que con esta notación, cuando aparece un punto en lugar de una letra en el subíndice de la variable respuesta se debe realizar la sumatoria a lo largo de esta letra. Así, por
n
ejemplo yij•
=
∑y
ijk
. Además, la barra en la parte superior indica promedio, como por
k =1 n
∑ y ejemplo en, y ij•
=
ijk
k =1
n
Las observaciones pueden describirse con el modelo estadístico lineal
i = 1,2,..., a Y ijk = µ + τ i + β j + (τβ )ij + ε ijk j = 1,2,..., b k = 1,2,..., n donde µ es la media global o la gran media,
(5-6)
τi
es el efecto del i-ésimo nivel del factor
A, β j es el efecto del j-ésimo nivel del factor B, ( τβ)ij es el efecto de la interacción entre AyBy
es un componente de error aleatorio que tiene una distribución normal con
εijk
media cero y varianza σ2. El objetivo es determinar si no existe efecto de principal de A, B y no hay interacción entre ellos.
5.3.2 Hipótesis a evaluar y análisis de varianza Cuando existen dos factores de interés las hipótesis estadísticas a probar son las siguientes: H 0 : τ 1 H 1 : τ i
= τ 2 = ... = τ a =
(5-7) ≠
0 al menos para un i
H 0 : β 1 = β 2 H 1 : β j
0 ( A no influye)
≠
β b
=
0 (B no influye)
0 al menos para un j
H 0 : (τβ )11 H 1 : (τβ ) ij
= ... =
= ≠
(5-8)
(τβ )12 = ...(τβ )ab = 0 (No hay interacción) 0 al menos para algún ij
(5-9)
La primeras dos hipótesis [(5-7) y (5-8)] evalúan los efectos principales (A y B) y la última [(5-9)] los efectos de interacción entre los dos factores. En este caso, se pretende explicar la variabilidad observada en la variable respuesta en términos de 4 fuentes posibles de variabilidad: dos factores principales (A y B), su interacción y el error aleatorio. Este hecho también se ilustra en identidad (5-10):
a
b
2
n
∑∑∑ ( y
ijk
−
2
a
)
y...
bn
∑ ( y .. − y...)
an
i
i =1 j =1 k =1
=
∑ ( y. . − y...) j
j =1
i =1
Medida de
2
b
+
Medida de
Medida de
variabilidad
variabilidad
variabilidad
total
debida al factor A
debida al factor B
a
n
2
b
∑∑ ( y
)
a
i =1 j =1
+
b
n
∑∑∑ ( y
. − y i .. − y. j . + y... ij
(5-10) 2
ijk
−
)
y ij .
i =1 j =1 k =1
Medida de
+
Medida de variabilidad debida a la interacción
variabilidad debida
entre A y B
al error aleatorio
La identidad (5-10) muestra la forma como se puede descomponer la variabilidad total de la variable respuesta en términos de los dos factores principales, la interacción y el error aleatorio. El sentido de esta identidad se comprende mejor si se analizan las cantidades 2
a
involucrados en cada término. Por ejemplo, bn
∑ ( y .. − y...) involucra la suma de los i
i =1
cuadrados de las diferencias entre los promedios del primer factor, y i•• y la gran media, y ••• ; si esta sumatoria es diferente de cero es precisamente debido al efecto del primer factor, A. De igual forma, si B no influyera sobre la variable respuesta, entonces todos los sus promedios serian iguales a la gran media y por lo tanto la cantidad 2
b
an
∑ ( y. . − y...) seria igual a cero. j
j =1
En la en la Tabla 5.4 se destacan en color verde y azul las calidades involucradas en el cálculo de la suma de cuadrados debida al factor A y B respectivamente. Si todos los
valores
verde
son
aproximadamente
iguales
entonces
la
cantidad
2
a
bn
en
∑ ( y .. − y...) es cercana a cero y como consecuencia A no influye sobre la variable i
i =1
respuesta; si todos los valores en azul son aproximadamente iguales entonces la
2
b
cantidad an
∑ ( y. . − y...) es j
cercana a cero y por lo tanto B no influye sobre la
j =1
variable respuesta.
Factor B 2 …
1 1 2 Factor A
y111 … y211 …
. . .
y112 y11n y212 y21n
y121 … y221 …
y122 y12n y222 y22n
. . .
. . .
Totales
ya11 ya12 … ya1n y•1•
ya21 ya22 … ya2n y•2•
Promedios
y •1•
y •2•
a
… …
b
Totales
Promedios
y1••
y1••
y 2••
y 2••
. . .
. . .
. . .
yab1 yab2 … yabn y•b•
y a••
y a••
y•••
y •••
y1b1 … y2b1 …
O
… …
y1b2 y1bn y2b2 y2bn
y •b•
…
Tabla 5.4 Términos involucrados en la valuación de los efectos principales en un diseño con dos factores. En verde el factor A y en azul B
a
Para comprender mejor porqué el termino n
2
b
∑∑ ( y
ij
)
. − y i .. − y. j . + y... en la ecuación
i =1 j =1
(5-10) mide la interacción entre A y B considere los datos en la celda correspondiente al nivel i del factor A y el nivel j del factor B en la Tabla 5.3. El resumen de los datos involucrados en el efecto de interacción se muestra en la Tabla 5.5
Factor B y ij• Factor A
…
y i••
. . .
O
. . .
y • j•
…
y •••
Tabla 5.5 Términos involucrados en la evaluación de los efectos de interacción en un diseño con dos factores.
Observe que la cantidad dentro de paréntesis en la suma de los cuadrados debido a la
(
)− ( y. . − y...)
interacción se puede escribir en la forma y ij . − y i .. − y. j . + y... = y ij . − y i ..
j
La cantidad, y ij . − y i .. es una medida del efecto de B en el nivel i-ésimo de A y y. j. − y... es una medida del efecto promedio de B para cualquier nivel de A. Si estas dos cantidades son diferentes es porque el cambio en la variable respuesta debido a B depende de nivel escogido de A, lo cual indica que existe interacción entre A y B. La identidad de la suma de los cuadrados de la ecuación (5-10) se puede escribir de manera simbólica de la forma:
SCT
=
Suma de Cuadrados
SCA
+
Suma de =
totales
Cuadrados
SCB
+
Suma de +
Factor A
Cuadrados
SCAB
+
Suma de +
Factor B
Cuadrados
SCE Suma de
+
interacción
(5-11)
Cuadrados Error
Además, también se puede demostrar que existen en total abn – 1 grados de libertad. Los efectos principales A y B tienen a – b y b – 1 grados de libertad, mientras que el efecto de interacción AB tiene (a – 1) (b – 1) grados de libertad. Dentro de cada una de las ab celdas de la Tabla 5.3 existen n – 1 grados de libertad entre las n réplicas, y las observaciones en la misma celda sólo pueden diferir debido al error aleatorio.
Por lo tanto los grados de libertad también quedan divididos de acuerdo a la expresión:
SCT
=
SCA
+
SCB
+
SCAB
+
SCE (5-12)
abn-1
=
(a – 1)
+
(b – 1)
+
(a-1)(b-1)
+
ab(n-1)
Dividiendo cada suma de cuadrados entre sus respectivos grados de libertad se obtienen las respectivas medias de cuadrados. Si las hipótesis dadas anteriormente para los efectos principales así como la hipótesis del efecto de interacción [Hipótesis (5-9)] son todas verdaderas, se puede demostrar que todas las medias de cuadrados estiman la misma varianza común,
2
σ
. Por lo tanto, se puede utilizar la distribución F
para verificar las hipótesis estadísticas en el diseño factorial con dos factores [Hipótesis de (5-7) y (5-9)].
Los resultados se suelen escribir en una tabla como la siguiente
Fuente de Variación
Grados Suma de Cuadrados
SC A
=
∑
2
yi
Factor B
SC B
=
∑
AB
Error
a
SC AB
=
b
∑∑
⋅ j ⋅
−
n
−
SC T
=
y 2 ⋅ ⋅ ⋅
y 2 ⋅ ⋅ ⋅ abn
SC E = SC T − SC AB b
⋅⋅⋅
abn
2
yij ⋅
2
abn
an
i =1 j =1
a
Total
2
y
j =1
Interacción
−
y
bn
i =1 b
⋅⋅
− SS A − SS B
− SC A − SC B
n
∑∑∑ y
2 ijk
i =1 j =1 k =1
−
y 2 ⋅ ⋅ ⋅ abn
F0
cuadrados
libertad a
Factor A
Media de
de
a-1
MC A
=
b-1
MC B
=
(a-1)(b-1)
MC AB
=
ab(n-1)
MC E
=
SC A
Valor P
F 0
=
F 0
=
F 0
=
MC E
a −1 SC B
(a − 1)(b − 1)
MC B MC E
b −1 SC AB
MC A
MC AB MC E
Probabilidad
Probabilidad
Probabilidad
SC E ab(n − 1)
abn-1
Tabla 5.6 Tabla ANOVA para un diseño factorial con dos factores
5.3.3 Comparación de medias Cuando ambos factores son fijos, las comparaciones entre las medias de cualquier factor pueden efectuarse mediante el empleo de métodos de comparación múltiple, tales como el método gráfico o la prueba de rango múltiple de Duncan. Cuando no hay interacción, estas comparaciones pueden realizarse con el empleo de los promedios por renglón, y i•• o por columna, y • j • . Sin embargo, cuando la interacción es significativa, las comparaciones entre las medias de un factor (por ejemplo, A) pueden verse oscurecidas por la interacción AB. En este caso, puede aplicarse a las medias del factor A un procedimiento tal como la prueba de rangos múltiples de Duncan, con el valor del factor B ubicado en un nivel en particular.
5.3.4 Verificación de la adecuación del modelo y de los supuestos hechos. Al igual que en los experimentos de un solo factor, los residuos de un experimento factorial juegan un papel importante en la evaluación de la adecuación de un modelo. Los residuos de un experimento factorial de dos factores son eijk = yijk - y ij·
(5-13)
Esto es, los residuos son precisamente la diferencia entre las observaciones y los promedios de celda correspondientes.
5.3.5 Una observación por celda En algunos casos donde se tiene un experimento factorial con dos factores, se tiene sólo una réplica –esto es, sólo una observación por celda-. En esta situación, existen tantos parámetros en el modelo del análisis de la varianza como observaciones, y en los grados de libertad del error son cero. Por tanto, no es posible probar hipótesis con respecto a los efectos principales y a las interacciones, a menos que se hagan suposiciones con adicionales. Un a de éstas es suponer que el efecto de interacción es despreciable y utilizar la media de cuadrados de ésta como error cuadrático medio. De este modo, el análisis es equivalente al utilizado en el diseño aleatorizado por bloques. Esta suposición de no interacción puede ser peligrosa, y el experimentador debe examinar con cuidado los datos y los residuos para determinar si existen o no indicios de interacción.
5.4 Diseños factoriales con tres factores. En este diseño se tienen tres factores de interés denotados como A, B y C. Suponga que se tienen a niveles del factor A, b niveles del factor B, c niveles del factor C y n replicas. Esto da un total de a ×b×c×n observaciones, las cuales resultan de todas las posibles combinaciones de los niveles de cada factor. Por ejemplo, si se tiene 3 niveles de A, 2 niveles de B y 4 niveles de C se obtienen 3 ×2×4 combinaciones posibles; y si se decide realizar 3 replicas, el total de observaciones será de 3 ×2×4×3 = 72.
En el diseño factorial con tres factores, la variable respuesta, Y se pretende explicar a partir del modelo:
i = 1,2,..., a j = 1,2,..., b Y ijkl = µ + τ i + β j + γ k + (τβ )ij + (τγ )ik + ( βγ ) jk + (τβγ )ijk + ε ijkl k = 1,2,..., c l = 1,2,..., n
(5-14)
Este modelo incluye, en total, 8 fuentes de variabilidad: tres efectos principales, tres efectos de interacción entre dos factores, un efecto de interacción entre tres factores y el termino de error aleatorio. El término de error aleatorio incluye el efecto de aquellas variables o factores distintos a los tres factores considerados en el diseño, que también pueden influir sobre la variable respuesta, pero que se espera que su efecto sea pequeño y aleatorio. La Tabla 5.7 muestra la tabla del Análisis de Varianza para los diseños factoriales con tres factores. Fuente de Variación
Grados Suma de Cuadrados
libertad 2
a
Factor A
de
SC A
y••••
a-1
MC A
=
y j2•••
Factor B
SC B
y•2•••
∑ acn − abcn
=
b-1
MC B
=
yk 2•••
Factor C
SC C
=
y•2•••
∑ abn − abcn
c-1
MC C
=
a
SC AB
=
∑∑
AB
Interacción
a
SC AC
=
c
∑∑
(a-1)(b-1)
MC AB
=
b
SC BC
=
c
∑∑
ABC
Error
SC AB
=
⋅
SS B
−
−
y•2•••
2
−
n −
=
y••••
SS B
SS C
MC AC
=
SS C
(a-1)(c-1)
(b-1)(c-1)
SC AB ( a − 1)(b − 1)
=
F 0
=
F 0
=
F 0
=
F 0
=
F 0
=
F 0
=
MC A MC E
MC B MC E
MC C MC E
−
SS A
− SC A − SC B
∑∑∑ y
2 ijk
−
MC BC
(b − 1)(c − 1)
(a-1)(b-1)(c-1)
y 2 ⋅ ⋅ ⋅ abn
abc(n-1)
Probabilidad
Probabilidad
Probabilidad
abcn-1
( a − 1)(b − 1)(c − 1)
=
MC BC MC E
Probabilidad
Probabilidad
Probabilidad
=
SC ABC
MC E
MC AC MC E
SC BC
=
MC AB MC E
SC AC (a − 1)(c − 1)
MC ABC
SS AC − SS BC
n
i =1 j =1 k =1
−
− SS B −
abn
SC E = SC T − SC AB
SC T
−
2
y ijk • ⋅
SS C − SS AB
b
SS A
−
abn
i =1 j =1 k =1
−
y ••••
an
∑∑∑
SS A
abn
y•2 jk • ⋅
c
−
2
−
bn
b
a
Total
2
j =1 k =1
a
y •••• abn
yi •k •
F 0
2
−
cn
i =1 k =1
BC
Interacción
2
y ij •• ⋅
i =1 j =1
AC
Interacción
b
SC B c −1
k =1
Interacción
SC B
Valor P
b −1
j =1 b
SC A a −1
i =1 b
F0
cuadrados
2
yi•••
∑ bcn − abcn
=
Media de
SC E abc( n − 1)
MC ABC MC E
Probabilidad
Tabla 5.7 Tabla ANOVA para un diseño factorial con tres factores
En la tabla de Análisis de Varianza (Tabla 5.7) se puede apreciar las 7 hipótesis nulas en tela de juicio: las que evalúan los tres efectos principales, los tres de interacción binarias y la interacción entre tres factores. Cada una de estas hipótesis establece que el efecto correspondiente no es significativo, y se deben rechazar, a favor de la hipótesis alternativa correspondiente, si su valor P en la tabla ANOVA (Tabla 5.7) es menor que el nivel de significancia establecido para la prueba (usualmente del 5%).
5.5 Diseños factoriales generales. Para estudiar el caso general, considere f factores A, B, C,…, K con niveles a, b, c,…, k, respectivamente, donde la letra K denota al f-ésimo o último factor del conjunto a estudiar, no necesariamente al decimoprimero, que es el lugar de esta letra en el alfabeto. Con estos niveles y factores se puede construir el diseño factorial general a x b x… x k, que consiste de a x b x k tratamientos o puntos de prueba. Con este diseño se pueden estudiar f efectos principales, f (f - 1) /2 interacciones dobles, f (f – 1)(f – 2)/(3 x 2) interacciones triples, y así sucesivamente hasta la única interacción de los f factores (ABC …K). El cálculo del número de interacciones de cierta cantidad m de factores se hace mediante la operación “combinaciones de f en m”
( )= f m
f ! m!( f − m )!
que cuenta el número de maneras diferentes de seleccionar m factores de los f, donde f! = f x (f – 1) x…x 2 x 1.
En resumen, con el diseño factorial general descrito se pueden estudiar los siguientes 2f – 1 efectos:
f = f efectos principales (A, B, … K) 1 f f ( f − 1) = interacción entre dos factores (AB, AC, …) 2 2 M
f = f interacción entre f-1 factores (ABC…K-1,…) f − 1 f = 1 interacción con todos los factores (ABC…K) 1
(5-15)
Por ejemplo, el diseño factorial 2 5 tiene cinco efectos principales, 10 interacciones dobles, 10 interacciones triples, cinco interacciones cuádruples y una interacción quíntuple, lo que da un total de 5 +10 +10 +5 +1= 31 efectos. Por su parte, el factorial 35 tiene también estos 31 efectos, pero al contar con tres niveles en cada factor, cada efecto principal se puede descomponer en su parte lineal
y cuadrática, y cada
interacción doble en cuatro componentes, las triples en ocho componentes, así sucesivamente, las interacciones se parten según los grados de libertad que tienen sus sumas de cuadrados. Cabe hacer notar que mientras el diseño factorial 25 tiene 32 tratamientos, el factorial 3 5 tiene 243, una cantidad de tratamientos difícil de manejar. Aun si pudiera correrse, representa una opción muy ineficaz; además de que existen arreglos experimentales más pequeños y eficientes.
Una fracción de la tabla de Análisis de Varianza con la columna de fuente de variación, Suma de cuadrados y grados de libertad se muestra en Tabla 5.8
Fuente Variación
Suma de cuadrados
Grados de liberta
Efecto A
SCA
a-1
M
M
M
Efecto k
SCK
k-1
Interacción AB
SCAB
(a-1) (b-1)
M
M
M
Interacción K(k-1)
SC(K-1)K
(l-1) (k-1)
Interacción ABC
SCABC
(a-1)(b-1)(c-1)
M
M
M
Interacción (K-2)(K-1)K
SC(K-2)(K-1)K
(m-1)(l-1)(k-1)
M
M
M
Interacción AB…K
SCAB…K
(a-1)(b-1)…(k-1)
Error
SCE
abc…j(n-1)
Total
SCT
(abc…kn)-1
Tabla 5.8 ANOVA para el diseño factorial general
La columna de la media de cuadrados, el valor F y el valor P de la tabla ANOVA, se obtienen de manera análoga a como se vio en los diseños con dos o tres factores. De acuerdo a lo antes dicho, en el factorial general a x b x…x k, se pueden plantear
2f – 1 hipótesis que se prueban mediante el análisis de varianza. Las primeras tres columnas de este ANOVA se muestran en la Tabla 5.8.
La suma de cuadrados totales está dada por
a
SC T
=
b
k
n
∑ ∑L∑ ∑ y i =1 j =1
2 ijLmr
−
y•2••L•• N
m=1 r =1
,
(5-16)
donde N= abc… kn es el total de observaciones en el experimento; los subíndices k y m representan al tercero y último factor, respectivamente. Las sumas de cuadrados de efectos son
yi2•L••
∑ bc Llkn −
y•2••L•••
y•2 j •L•••
y•2••L•••
a
SC A
=
b
SC B
=
∑ ac Llkn − 2
SC C
=
y•• k L•••
∑ abLlkn −
(5-18)
N
j =1 a
(5-17)
N
i =1
2
y•••L•••
(5-19)
N
i =1
M 2
k
SC K
=
y•••L•m•
∑ abc L ln −
2
y•••L•••
a
SC AB
=
yij2•L•••
b
(5-20)
N
m=1
∑∑ c Llkn −
y•2••L•••
i =1 j =1
−
N
SC A
−
SC B
(5-21)
M l
SC (k −1)K
=
y•2••L pm•
k
∑∑ abc L n −
y•2••L•••
a
SC ABC =
b
c
∑∑∑ i =1 j =1 k =1
2 yijk L•••
−
−
SC (k −1) − SC K
−
SC A
N
p =1 m=1
y•2••L•••
lkn
N
(5-22)
−
SC B
− L SC AC −
SC BC
−
SC A
−L−
−L−
(5-23)
M a
SC ABLK
=
b
l
k
∑ ∑L∑ ∑ i =1 j =1
p =1 m =1
yij2L pm•
−
y•2••L•••
n
SC E = SC T − SC A − L − SC K − SC AB
N
− L − SC ( k −1)K −
SC AB
SC ABLK −1 .
SC ABC − L − SC ABLK .
(5-24) (5-25)
En el ANOVA de la Tabla 5.8 para el factorial general a x b x…x k se observa la necesidad de contar con al menos dos réplicas del experimento para poder calcular la suma de cuadrados del error (SC E), y poder completar toda la tabla de ANOVA. Sin embargo, esta necesidad de réplicas (n ≥2) es para el caso irreal de que interesan los 2f – 1 efectos. Pero resulta que, con excepción del factorial 22, prácticamente nunca en un factorial completo interesan todos sus posibles efectos, puesto que en general sólo algunos de ellos están activos. El principio de Pareto, que en este contexto se llama también principio de esparcidad de efectos, dice que la mayoría de la variabilidad observada se debe a unos pocos de los efectos posibles; por lo común se debe a algunos efectos principales e interacciones dobles. En general no influyen las interacciones de tres o más factores, por lo que es innecesario gastar recursos experimentales para estudiar estos efectos.
En resumen, sólo en el caso irreal de que todos los posibles efectos en el diseño factorial general estén activos, es necesario realizar al menos dos réplicas del experimento. En las situaciones reales se replican al menos dos veces (y no siempre) sólo los diseños factoriales consistentes de 16 o menos puntos de prueba.
5.6 Ejercicios propuestos. 1. A continuación se muestra parte del ANOVA para un diseño factorial 3 x 5 con dos réplicas, el factor A con tres niveles y el B con cinco.
F. de variación
Suma de
Grados de
Cuadrado
cuadrados
libertad
medio
A
800
B
900
AB
300
Error
400
Razón F
Total
a. Suponga efectos fijos, anote el modelo estadístico apropiado y formule las hipótesis a probar para este experimento. b. Agregue en esta tabla los grados de libertad, el cuadrado medio y la razón F para cada una de las fuentes de variación.
c. Explique de manera esquemática cómo calcularía el p-value para A, por ejemplo. d. ¿Con la información disponible se pueden hacer conjeturas sobre cuáles de las fuentes de variación son significativas estadísticamente? Argumente.
2. En una fábrica de aceites vegetales comestibles la calidad se ve afectada por la cantidad de impurezas dentro del aceite, ya que éstas causan oxidación, y por ello repercute a su vez en las características de sabor y color del producto final. El proceso de “blanqueo” que consiste básicamente en elevar la temperatura del aceite, agregar cierta cantidad de arcilla (arena), y agitar durante cierto tiempo para que las impurezas se adhieran a la arcilla; de esta manera al bajar la temperatura del aceite y dejarlo en reposo, la arcilla junto con las impurezas se depositen en el fondo del tanque de aceite. Una forma de medir la eficacia del proceso de blanqueo es midiendo el color del aceite. De acuerdo al método de medición que se aplica en esta planta, consideran que a un aceite se le eliminó las suficientes impurezas si el color es mayor a 4.8 (a mayores valores más claro el aceite). Cuando los lotes del proceso de blanqueo no cumplen con los requerimientos de blancura, la solución del problema implica reprocesos, aumento del tiempo de ciclo, entre otras cosas. Para generar una primera aproximación a la solución del problema se decide estudiar la temperatura y el porcentaje de arcilla a nivel laboratorio inicialmente. El diseño y los datos de las pruebas experimentales se muestran a continuación.
Porcentaje de arcilla Temperatura
0.8
0.9
1.0
1.1
90
5.8
5.9
5.4
5.5
4.9
5.1
4.5
4.4
100
5.0
4.9
4.8
4.7
4.6
4.4
4.1
4.3
110
4.7
4.6
4.4
4.4
4.1
4.0
3.7
3.6
a. Construya el modelo estadístico y formule las hipótesis pertinentes. b. ¿Cuál es el nombre del diseño utilizado? c. Normalmente, a condiciones reales se utiliza 1.1% de arcilla y 100 grados de temperatura. ¿Por qué cree que se han elegido precisamente los niveles de prueba para el experimento? d. Realice un análisis de varianza para probar las hipótesis y obtenga conclusiones.
e. Apoyándose en las gráficas de efectos, ¿cuál es la relación general entre el color y los factores controlados en su rango de experimentación? f.
A partir de la gráfica de interacciones, ¿cree que haya un efecto no lineal? Apoye su respuesta con el análisis de varianza apropiado.
g. Considerando que el nivel mínimo aceptable de blancura es de 4.8, ¿qué tratamiento utilizaría? h. ¿Vale la pena ahora plantear el estudio a condiciones reales? i.
¿Qué cambio le haría al experimento si lo corre a condiciones reales?
3. En un laboratorio de microbiología se realiza un experimento para investigar si influye el tipo de verdura (lechuga-L, cilantro-C, zanahoria-Z) y la temperatura (8 y 20ºC) de almacenamiento en la sobrevivencia del vidrio colerae. Se hicieron varias réplicas. El porcentaje de sobrevivencia obtenido después de 24 horas de inoculado el alimento se muestra a continuación.
Temperatura Alimento
20
8
L
13.1 15.0 33.6 35.5 42.0 11.1 12.8
6.2 28.5 41.0 35.9 25.0 23.8 79.0 41.6
C
19.0 19.0 66.6 66.6 11.0 11.0 49.0 49.0
84.3 68.7 68.7 30.5 30.5 11.0 11.0 20.0
Z
1.2 1.2 0.2 0.1 0.3 0.2 0.1 0.4 0.2 0.3
25.8 21.8 16.0 16-0 20.1 15.4 13.3 25.2
a. Señale el nombre del diseño que se ha empleado y formule las hipótesis que pueden ser apropiadas. b. Haga un análisis de varianza e interprételo con detalle. c. Verifique el supuesto de igual varianza entre los tratamientos (varianza constante). ¿Si se cumplen satisfactoriamente? d. En caso de que no se cumpla el supuesto anterior, ¿cómo afecta esto a sus conclusiones? 4. Para el caso del problema anterior: a. Transforme los datos con logaritmos, haga el análisis de varianza. b. Verifique supuestos. c. ¿Cuáles son las diferencias más importantes que encontró en los dos análisis? ¿Por qué? d. Con los datos transformados, y en caso de que haya alguna interacción relevante, interprétela con detalle.
5. En una empresa alimenticia se desean evaluar cuatro antioxidantes, a través de su efecto en un aceite vegetal. El propósito es seleccionar el producto que retrase más la oxidación. Las pruebas se hacen a condiciones de estrés, midiendo como variable respuesta el índice de peróxidos. Diferentes unidades experimentales se evalúan a diferentes tiempos. Los datos obtenidos se muestran a continuación (en el control no se agrega ningún antioxidante)
Tiempo Producto
4 horas
8 horas
12 horas
Control
3.84,
3.72
27.63,
27.58
39.95,
39.00
A
4.00,
3.91
22.00,
21.83
46.20,
45.60
B
3.61,
3.61
21.94,
21.85
43.58,
42.98
C
3.57,
3.50
20.50,
20.32
45.14,
44.89
D
3.64,
3.61
20.30,
20.19
44.36,
44.02
a. Señale los factores controlados y la variable de respuesta. b. Formule el modelo estadístico apropiado al problema y la hipótesis estadística que se pueden probar. c. Haga un análisis de varianza y observe los aspectos más relevantes. d. ¿Los supuestos del modelo se cumplen? e. Considerando que a menor índice de peróxidos mejor es el producto, ¿hay algún producto que sea mejor estadísticamente?