DEFINICIÓN
Se utiliza para contrastar la igualdad de medias de mas de dos poblaciones normales e independientes, para detectar posibles diferencias significativas entre ellas en cuanto a una variable o característica: H0 : μ1 = μ2 = .... = μ I H1 : Alguna distinta. El análisis de la varianza es un procedimiento creado por Fisher en 1925 para descomponer la variabilidad de un experimento en componentes independientes que puedan asignarse a causas distintas. El problema general que vamos a estudiar es el siguiente: disponemos de n elementos que se diferencian en un factor: por ejemplo, alumnos de distintas clases (factor clase), coches de distintas marcas (factor marca), etc. En cada elemento observamos una característica continua (X) que varía aleatoriamente de un individuo a otro: notas de Estadística de los alumnos, consumo de gasolina, tiempo de vida, etc
El objetivo es conocer si existe o no relación entre la variable respuesta y el factor: ¿habrá diferencias en las notas de los distintos grupos de Estadística?, ¿tendrán coches similares de distintas marcas el mismo consumo de gasolina? 1.- Variable numérica 2.- Distribución Normal 3.- Homogeneidad de varianzas
En resumen: la variable respuesta en cada grupo sigue una distribución Normal, la varianza es la misma en todos los grupos y los grupos son independientes.
EJERCICIO
Hemos medido la autoestima en 4 escuelas profesionales de la universidad (3 individuos en cada una). El objetivo de ANOVA es ver si las diferencias entre estas medias muestrales son compatibles con que las poblaciones sean iguales o mas bien sugieren que hay diferencias entre las medias poblacionales. enfermería
psicología
promedio
12 8 13 11
21 17 19 19
8 7 9 8
16 21 17 18
suma de cuadrados
14
8
2
14
varianza desviacion error estandar
7 2.65 1.53
4 2.00 1.15
1 1.00 0.58
7 2.65 1.53
Psicología
Enfermería
derecho ing civil
Ing. civil
( − )2 =
, SCD = (14+8+2+14)=38. Esta es mayor cuanto mayor es la dispersión de los valores individuales respecto a la media de su grupo , glD = es la suma de los tamaños de todos los grupos menos el numero de tratamientos: glD =12-4=8. También se obtiene como la suma de los tamaños de cada grupo menos 1:gl=2+2+2+2=8 , MCD= SCD /glD =38/8 =4.75. Mide la dispersión de los valores de la variable intra grupo. Cuando los grupos son del mismos tamaño se puede calcular como el promedio de las cuasivarianzas muestrales, 2 , en los K grupos (K=4 carreras profesionales) MCD = (7+4+1+7) / 4=19 / 4 = 4.75
, = es la suma de cuadrados entre las medias de los grupos multiplicada por el tamaño de ellos, si todos son de igual tamaño. En este ejemplo las medias muestrales son 11, 19, 8 y 18. la media de las 4 medias es 14 y la suma de cuadrados entre las medias es:
(11−14)2+(19−14)2+(8−14)2+ (18 − 14)286
Multiplicando por 3, que es el tamaño de los grupos, se obtiene
=86 * 3 = 258
= es el numero de grupos menos 1 : 4 - 1 = 3 , = / = 258 / 3 = 86. Mide las diferencias entre las medias muestrales: es cero cuando todas son iguales y es mayor cuanto mas difieren entre si dichas medias. Los datos son mas difícilmente compatibles con la 0 cuanto mas diferentes son las medias muestrales, es decir, cuanto mayor es la . La idea básica es: - Medias muestrales parecidas, implica pequeña, esto es, datos compatibles con la 0 , que no constituyen evidencia contra ella - Medias muestrales muy diferentes, implica grande, esto es, datos difícilmente compatibles con la 0 , que constituyen evidencia contra ella 0 , que constituyen evidencia contra ella ¿Cuan grande tiene que ser la para que sea fuerte evidencia contra la 0 ? Depende de cuan dispersa sea la variable estudiada. Un mismo valor de es mas ,
indicativo de que hay diferencias entre las medias poblacionales, si la variable es poco
En la evidencia contra la 0 , lo relevante no es el valor absoluto de la , sino cuanto supera a la . La relación entre y se cuantifica por su cociente, llamando Razón de Medias Cuadradas, Razón de Varianza o valor F.
/
El valor de es 18.1; ahora calcularemos el , debemos calcular los grados de libertad del numerador y del denominador. Del numerador es . Del denominador es y con un nivel de significancia de 0.05. Entonces el valor de es de 4.07
−4−13
Como es mayor que significativas entre los 4 grupos
− 4 3−1 8
, entonces se rechaza la 0. Si existen diferencias
Los programas informáticos producen como salida esta tabla
ENTRE INTRA
SC
gl
MC
SCE = 258
3
86
SCD = 38
8
4.75
F
P
18.1
0.0006
En teoría, el valor P del ANOVA solamente coincide con el P verdadero si se cumplen, las mismas condiciones que en la comparación de dos medias: Normalidad y Homogeneidad de varianzas. El supuesto de homogeneidad de varianza se verifica con el test de Levene Si el valor p del test es mayor que 0,05 entonces aceptamos la hipótesis nula y decimos que se cumple el supuesto de homocedasticidad. Si el valor p fuera menor de 0,05 y entonces no se cumple el supuesto de homogeneidad de varianza. En este caso ya no podremos usar el test F de ANOVA para comparar las medias o tratamientos. Existe un test de comparación de medias que toma en cuenta este problema y se llama el test de Welch.
CASO
No hay varianzas homogéneas
Esto implica un problema sólo si se considera que las poblaciones tienen distribuciones marcadamente asimétricas y en direcciones opuestas. El test de Kolmogorov-Smirnov es un test clásico y conocido. El test de Shapiro-Wilk es más nuevo y recomendado para tamaños muestrales mayores a 50. En todo caso, se espera que las conclusiones con cualquiera de los dos test sean las mismas. 0 Las muestras son normales Las muestras son diferentes Por lo tanto si el valor p del correspondiente test es mayor que 0,05 aceptamos la hipótesis nula y concluimos que se cumple el supuesto de Normalidad. Note que en este caso especial la hipótesis de interés es la hipótesis CASO nula.
No hay distribución normal
El método de Tukey es casi siempre bueno - Si se tienen muchos tratamientos y poca planificación (muchas preguntas) Scheffe es el más seguro, pero más exigente
Si se tiene un grupo control con el cual se quieren comprar los tratamientos, existe la prueba de Dunnet