Capítulo 9
Análisis de la varianza (un factor): ANOVA 9.1. 9.1.
Intr Introdu oducc cció ión n
Veíamos cómo contrastar la igualdad de medias en dos poblaciones normales e independientes. En ocasiones necesitamos contrastar la igualdad de medias de un número mayor de poblaciones para detectar posibles diferencias signi ficativas entre ellas en cuanto a una variable o característica: H 0
: µ1 = µ2 = .... = µ I
H 1
:
Alguna distinta,
siendo I el número de poblaciones. Surge así el análisis de la varianza. El análisis El análisis de la varianza es varianza es un procedimiento creado por Fisher en 1925 para descomponer la variabilidad de un experimento en componentes independientes que puedan asignarse a causas distintas. El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se diferencia diferencian n en un factor: un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de distintas marcas (factor marca), componentes producidos por distintas máquinas (factor máquina), etc. En cada elemento observamos una característica continua ( X ) que varía aleatoriamente de un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida 141
142
Capítulo 9. Análisis de la varianza (un factor): ANOVA
de los componentes, etc. A esta característica se le llama variable respuesta . Nuestro objetivo será conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas el mismo consumo de gasolina?, ¿tendrán los componentes fabricados por las distintas máquinas la misma duración?. Vamos a centrarnos en este ejemplo de las máquinas para ver y desarrollar el modelo inmerso en un problema del análisis de la varianza. Supongamos que se desea comprobar si la duración de piezas fabricadas por un grupo de I máquinas es la misma, es decir, la duración no depende de la máquina. Supongamos además que la duración de las piezas producidas por una misma máquina varía debido a muchos factores no controlables como por ejemplo la pureza de la materia prima, desajustes aleatorios de la máquina, la habilidad del operario, etc. Es decir, la duración de las piezas producidas por cada máquina será una variable aleatoria. Denotamos por yij la duración de la pieza j producida por la máquina i. Si para cada máquina i medimos la duración a una muestra de ni piezas, tendremos un total de n =
I i=1
P
ni observaciones:
Máq1
Máq2
MáqI
y11
y21
yi1
.. .
.. .
.. .
y1j
y2j
.. .
.. .
y1n
9.2.
1
...
yij
.. .
y2n
2
yin
I
El modelo
Vamos a ajustar a nuestras observaciones un modelo matemático de la forma yij = µi + uij , con el fin de poder tratarlas estadísticamente. Según este modelo vamos a admitir que la
duración de las piezas fabricadas por una misma máquina i oscila aleatoriamente alrededor de un valor desconocido µi que caracteriza a la máquina i (duración media de sus piezas) y que las diferencias entre los valores observados para esta máquina, y ij , y su media, µ i , son el resultado de múltiples factores que no controlamos y que in fluyen en la variable respuesta, en este caso en la duración. Las englobamos en un término uij llamado error experimental o perturbación , uij = y ij − µi .
143
9.3. Contraste de igualdad de medias
Hipótesis del modelo: E (uij ) = 0 ∀ i, j o E (yij ) = µ i . V ar(uij ) = σ 2 ∀i, j (homoscedasticidad).
= r o j 6 = k. (incorrelación). E (uij urk ) = 0 ∀ i 6 uij → N (0, σ2 ) o y ij → N (µi , σ2 ) (normalidad).
las dos hipótesis anteriores implican independencia. En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza es la misma en todos los grupos y los grupos son independientes. El paso siguiente sería estimar los parámetros del modelo. Estimación de los parámetros del modelo: Los parámetros a estimar son: µi , i = 1,...,I, y σ2 . Utilizamos para ello el método de máxima verosimilitud, y resultan: ni
ˆ
−
µi = yi. = ˆ 2
σ =
X
j =1
yij , i = 1,..,I,
ni
I
ni
i=1
j =1
2
X X ³
−
yij − yi.
´
n
ˆ
,
−
Los residuos del modelo son uij = eij = yij − yi. , y se utilizan sobre todo a la hora de comprobar si se veri fican o no las hipótesis del modelo. Si no se veri fican, este modelo no sería el adecuado.
9.3.
Contraste de igualdad de medias
Hemos visto que los yij → N (µi , σ2 ) y son independientes. Por lo tanto los grupos (máquinas) sólo difieren en las medias, las varianza es la misma en todos. Esto signi fica que contrastar si los grupos son estadísticamente iguales equivale a contrastar si sus medias lo son:
Delia Montoro Cazorla.
H 0
: µ1 = µ2 = .... = µ I
H 1
:
Dpto.
Alguna distinta de Estadística e I.O. Universidad de Jaén.
144
Capítulo 9. Análisis de la varianza (un factor): ANOVA
9.4.
Descomposición de la variabilidad
Según se comentó al principio, el análisis de la varianza es un procedimiento para descomponer la variabilidad total presente en un experimento en componentes independientes que puedan asignarse a causas distintas. Concretamente, según el modelo se llega a que la variabilidad total en el experimento es igual a la suma de la variabilidad existente dentro de los grupos más la variabilidad existente entre los grupos. −
−
−
−
yij − y.. = (yi. − y.. ) + ( yij − yi. ),
XX
(yij − y.. )2 =
i
−
j
X
ni (yi. − y.. )2 + −
−
i
XX i
e2ij
j
↓
V T = V E + V NE V T : Variabilidad total V E : Variabilidad explicada por el modelo; variabilidad entre grupos V NE : Variabilidad no explicada por el modelo, o residual; variabilidad dentro de los grupos.
La medida R2 =
VE indica V T
la variabilidad que explica el modelo de entre toda la presente
en el experimento. Toma valores entre 0 y 1. Un valor próximo a 0 indicaría que el modelo no es válido.
9.5.
Tabla Anova. Contraste de la F
El contraste básico del análisis de la varianza utiliza la descomposición de la variabilidad V T = V E + V N E .
Tabla ANOVA: Fuentes de variabilidad
S. cuadrados
G. libert.
Entre grupos (VE)
P n (y − y ) V E = P P e = V NE = P nσ = P P (y − y ) V T =
Varianza ˆ
i
i
−
−
i.
..
2
I − 1
2
Dentro de grupos (VNE)
i
i
i
j
2
S R =
ni
i
= nσ 2n
n − I
2
−
Total (VT)
S e = ˆ
ij
2
j
ij
..
2
=
ˆ
n−1
2
S y =
V E I − 1 V NE , n − I V T n−1
145
9.5. Tabla Anova. Contraste de la F
siendo yi. y σ 2n respectivamente la media y varianza de los datos de la muestra del grupo −
i
−
2
i , y y.. y σn la media y varianza del total de las observaciones.
La media total puede calcularse de la siguiente forma: I
X −
y.. =
−
ni yi.
i=1
n
Contraste de la F : H 0
: µ1 = µ 2 = .... = µ I
H 1
:
Alguna distinta,
El estadístico de contraste (bajo H 0 ) es: ˆ
2
S e
F =
ˆ
2
→ F I −1,n−I
S R
Rechazamos H 0 cuando F > F 1−α,I −1,n−I . En tal caso, podremos decir que no se han detectado diferencias signi ficativas entre los grupos en cuanto a la variable respuesta, para un nivel del significación del αx100%. Si rechazamos en el contraste anterior H 0 estamos diciendo que no todas las medias de los diferentes grupos son iguales simultáneamente, sin embargo puede ocurrir que algunas de las medias sí coincidan. Ejemplo 9.1: Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una válvula electrónica que tienen tres tipos diferentes de recubrimiento para los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se obtienen los siguientes datos: Tipo de recubrimiento
Conductividad
1
143
141
150
146
2
152
149
137
143
3
134
133
132
127
Contrastar con un nivel de signi ficación del 5 % si el tipo de recubrimiento tiene algún efecto sobre la conductividad. Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
146
Capítulo 9. Análisis de la varianza (un factor): ANOVA
Se supone que las muestras proceden de poblaciones normales e independientes con la misma varianza. Solución: Queremos comprobar si la conductividad media de la válvula será la misma con los tres tipos de recubrimiento, en cuyo caso el tipo de recubrimiento no tendría ningún efecto sobre la conductividad. Planteamos el contraste: H 0
: µ1 = µ 2 = µ 3
H 1
:
Alguna distinta
y seguidamente realizamos todos los cálculos necesarios para rellenar la tabla Anova y concluir en el contraste. Comenzamos con el cálculo de las medias y varianzas en las muestras: Muestra
Media (yi. )
Varianza (σ2n )
Tamaño (ni )
Tipo 1
145
11.5
4
Tipo 2
145.25
33.188
4
Tipo 3
131.5
7.25
4
−
i
,
y la media y varianza totales resultan: y.. = 140,583 y σ 2n = 58,576 −
Calculamos ahora las variabilidades explicada, no explicada y total. V NE =
X
ni σ2n = 4(11,5 + 33,188 + 7,25) = 207,752 i
i
V T = nσ 2n = 12(58,576) = 702,912 V E = V T − V NE = 495,160
Las varianzas explicada y no explicada son entonces: ˆ
2
S e ˆ
S R
=
495,160 V E = = 247,58 2 I − 1
=
207,752 V NE = = 23,084, 9 n − I
2
y el estadístico resulta: ˆ
F =
2
S e ˆ
S R
2
=
247,58 = 10 ,725 23,084
Ahora concluimos: como F = 10,725 es mayor que F 0,95,2,9 = 4,26, rechazamos H 0 . Existen por tanto diferencias signi ficativas entre los tres tipos de rucubrimiento, es decir, el tipo de recubrimiento influye en la conductividad de la válvula.
147
9.6. Ejercicios
9.6.
Ejercicios
1. Un fabricante está interesado en estudiar la resistencia a la tensión de una fi bra sintética, y sospecha que puede estar relacionada con el porcentaje de algodón en su composición. Con este fin, estudia la resistencia de la
fibra
considerando 5 niveles de porcentaje de
algodón en su composición. Los datos observados se muestran en la siguiente tabla. Porcentaje de algodón
Tensión de ruptura
15
7
7
15
11
9
20
12
17
12
18
18
25
14
18
18
19
19
30
19
25
22
19
23
35
7
10
11
15
11
Contrastar al 5 % de significación si el fabricante está acertado en su sospecha. 2. Un ingeniero de electrónica está interesado en estudiar el efecto sobre la conductividad de una válvula electrónica que tienen cinco tipos diferentes de recubriminento para los tubos de rayos catódicos utilizados en un dispositivo de visualización de un sistema de telecomunicaciones. Se obtienen los siguientes datos: Tipo de recubrimiento
Conductividad
1
143
141
150
146
2
152
149
137
143
3
134
133
132
127
4
129
127
132
129
5
147
148
144
142
Contrastar con un nivel de signi ficación del 5 % si el tipo de recubrimiento tiene algún efecto sobre la conductividad. 3. Un artículo publicado en el Journal of the Association of Asphalt Paving Technologists (1998) describe un experimento para determinar el efecto de las burbujas de aire sobre la resistencia del asfalto. Para
fines
del experimento, las burbujas se controlan en tres
niveles. bajo (2-4 %), medio (4-6 %) y alto (6-8 %). Los datos obtenidos aparecen en la Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
148
Capítulo 9. Análisis de la varianza (un factor): ANOVA
tabla siguiente. Resistencia del asfalto Bajo Burbujas de aire Medio Alto
106
90
103
90
79
88
92
95
80
69
94
91
70
83
87
83
78
80
62
69
76
85
69
85
¿Afectan de manera significativa los diferentes niveles de burbujas de aire la resistencia del asfalto?. Tomar α = 0,05 Suponer que las muestras proceden de poblaciones normales, independientes, con la misma varianza. 4. La tabla muestra las medidas hechas por Heyl de la constante G gravitatoria con bolas hechas de oro, platino y vidrio. Contrastar la hipótesis de que los tres materiales tienen la misma constante G. Tomar un nivel de signi ficación del 5 %. Oro
6.683
6.681
6.676
6.678
6.679
Platino
6.661
6.661
6.667
6.667
6.664
Vidrio
6.678
6.671
6.675
6.672
6.674
6.672
5. Un artículo publicado en el Material Research Bulletin (1991) investigó cuatro métodos diferentes para preparar el compuesto superconductor PbMo6 S 8 . Los autores sostienen que la presencia de oxígeno durante el proceso de preparación afecta la temperatura de transición T c de superconducción del material. Los métodos de preparación 1 y 2 utilizan técnicas que están diseñadas para eliminar la presencia de oxígeno, mientras que los métodos 3 y 4 permiten que el oxígeno esté presente. Para cada método se toman 5 observaciones de T c (en 0 K ). Los resultados son: Método
Temperatura de transición T c
1
14.8
14.8
14.7
14.8
14.9
2
14.6
15.0
14.9
14.8
14.7
3
12.7
11.6
12.4
12.7
12.1
4
14.2
14.4
14.4
12.2
11.7
149
9.6. Ejercicios
a. ¿Tiene algún efecto la presencia de oxígeno durante la preparación del compuesto en la temperatura de transición?. Realizar el contraste con un nivel de significación del 5 %. b. ¿Existen diferencias significativas entre métodos de un mismo tipo?. Tomar α = 0,01. 6. Tres profesores dan clases teóricas en una misma autoescuela. Se desea contrastar, si existen diferencias signi ficativas en la forma de enseñanza de los tres profesores. Para ello se seleccionan tres muestras de alumnos y se anota el número de preguntas correctas en el examen.
Prof. 1
Prof. 2
Prof. 3
43
48
29
35
47
31
44
44
28
46
46
42
39
39
31
44
45
36
38
49
35
42
48
36
45
45
39
Contrastar al 5 % de significación si existen diferencias entre los profesores. 7. Un grupo de químicos están interesados en estudiar la cantidad de radón liberado en las duchas. Para ello realizan un experimento en el que se utiliza agua enriquecida con radón, y se prueban tres diámetros diferentes para los ori ficios de las alcachofas. La siguiente tabla recoge el radón liberado (en %) para cada diámetro: Diámetro 1
80
83
83
84
85
84
81
Diámetro 2
74
75
76
74
75
78
76
Diámetro 3
60
62
59
61
62
63
64
En base a los datos obtenidos, ¿podemos a firmar que el tamaño del orificio afecta el porcentaje de radón liberado?. Realizar el contraste con un nivel de signi ficación del 5 %. Delia Montoro Cazorla.
Dpto.
de Estadística e I.O. Universidad de Jaén.
150
Capítulo 9. Análisis de la varianza (un factor): ANOVA
Nota: Suponer para todos los ejercicios normalidad, independencia, e igualdad de varianzas en las poblaciones.