PRUEBA DE DURBIN
Aldo Escobedo Benito Rodríguez Facultad de Matemáticas Universidad Autónoma de Yucatán
Descripción Diseño:
La prueba de Durbin es una prueba no paramétrica para diseños de bloques incompletos balanceados que se reduce a la prueba de Friedman en el caso de un diseño de bloques completo. En un diseño de bloques al azar, se aplican k tratamientos a b bloques. En un diseño de bloque completo, cada tratamiento se ejecuta para cada bloque y los datos están dispuestos de la siguiente manera: Tratamiento Bloque
1
2
...
k
1
X11
X12
...
X1k
2
X21
X22
...
X2k
3
X31
X32
...
X3k
...
...
...
...
...
b
Xb1
Xb2
...
Xbk
Descripción Para algunos experimentos, puede no ser realista ejecutar todos los tratamientos en todos los bloques. En este caso, puede que tenga que ejecutar un diseño de bloque incompleto. Si necesita ejecutar un diseño de bloque incompleto, se recomienda que ejecute un diseño incompleto balanceado. Un diseño de bloque incompleto balanceado tiene las siguientes propiedades: 1. Cada bloque contiene k unidades experimentales. 2. Cada tratamiento aparece en b bloques. 3. Cada tratamiento aparece un número igual de veces.
Supuestos e Hipótesis de la Prueba La prueba de Durbin se basa en los siguientes supuestos: •
•
Los bloques b son mutuamente independientes. Esto significa que los resultados dentro de un bloque no afectan los resultados dentro de otros bloques. Los datos deben tener al menos una escala ordinal.
La hipótesis de la prueba de Durbin es:
0: Los efectos del tratamiento son idénticos. : Al menos un tratamiento es diferente de otro tratamiento.
Modelo matemático
; Donde:
es la mediana global. es el efecto del bloque ∈ {1,2,⋯,}. es el efecto del tratamiento ∈ {1,2,⋯,} . es el error aleatorio. 0: ⋯ : ≠ para ≠ ,, ∈ 1,2,⋯, .
Estadístico de Prueba
Sea R ( ) el rango asignado a dentro del bloque i (es decir, rangos dentro de una fila dada). Los rangos medios se utilizan en el caso de los empates. Las filas se suman para obtener:
( ) =
t = el número de tratamientos k = el número de tratamientos por bloque (k
Estadístico de Prueba T1 fue la estadística original propuesta por Durbin (1951).
12 1 ( 1)( 1) 2 1 =
(1).
En caso de la existencia de empates dentro de los bloques, se usa la media de los rangos, y se necesita hacer un ajuste. A es la suma de los cuadrados de los rangos y rangos medios; y C es el de .
; = =
“factor corrección” ( 1) 4 .
corregido para empates es: . 1 σ= Una alternativa a este procedimiento, es usar el ANOVA ordinario con los rangos y rangos medios. Esto resulta en el siguiente estadístico , el cual es una función de : 1 ( 1 /)/( 1) . Entonces el estadístico
Región de rechazo y distribución de los estadísticos.
( )
La distribución exacta del estadístico es difícil de calcular, por lo que usualmente se usa la distribución aproximada. La distribución aproximada de es aproximadamente Chi cuadrada con grados de libertad. Esta aproximación suele ser muy conservadora por lo que se prefiere el estadístico y , con una distribución aproximada con
1
1 1
Se rechaza la hipótesis nula si:
> ,−,−−+; donde ,, es el valor de la distribución , tal que P , > ,, . ∝, sin embargo
Es importante recalcar que estas aproximaciones tienden a dar valores inflados de usaremos el estadístico , ya que arroja valores más cercanos que los arrojados por
.
Comparaciones múltiples Si se rechaza la hipótesis de efectos de tratamiento idénticos, a menudo es deseable determinar qué tratamientos son diferentes (es decir, comparaciones múltiples). Los tratamientos i y j se consideran diferentes si: Si no hay empates:
> (−∝,−−+) 6 1 1 ( 1) . Si hay empates:
> (−∝,−−+) 2 1 1 1 . Observación:
(−∝,) es el valor de la distribución tal que P > −∝, .
Ejemplo 1 Suponga que una empresa de helados busca analizar las preferencias de 7 variedades de helado en la gente. Ellos dan a probar a cada persona 3 sabores de helado y los clasifican con números del 1 al 3 (1 se asigna al sabor favorito). Cada variedad es comparada con otra un igual número de veces. 7 personas son seleccionadas para probar 3 variedades cada uno y los rangos resultantes se presentan en la Tabla 1.
Tabla 1. Datos. Persona
1
Variedad 1
2
2
3 3
2
3
1 1
3
7
3
Rj=
8
2 1
3 2 1
1 9
7
3
3
6
6
2
1
4 5
5
1
2
3
4
4
2 3
En este caso: t = 7 tratamientos k = 3 el número de variedades comparadas al mismo tiempo b = 7 bloques r = 3 veces que se probó cada sabor λ = 1 veces que cada sabor es comparado con otro.
2
5
6
7
con la ecuación 1 debido que no hay empates. − σ + (−)(+) = 12 6 (3)(7)(2)(4) 8 6 9 6 ⋯ 7 6 12.
Primero, calculamos el estadístico
El estadístico
es:
La región de rechazo está dada por:
1 ( 1 /)/( 1) (14 12/6 12)/(8) 8. > ,−,−−+ 0.0,,, 3.58.
El estadístico están en la región de rechazo, es decir, existen diferencias significativas al 5% en las preferencias de las variedades de helado.
Código en R A diferencia de lo recomendado en Conover (1999), el paquete R utiliza el estadístico En nuestro ejemplo, la decisión cambia al usar este estadístico.
.
Comparaciones múltiples con código en R
pero lo encontramos importante mostrar el codigoy laforma en laque nosdalarespuesta elsoftware.
Las comparaciones múltiples en R nos dan valores p, y en el caso de que sean menores que , se dice que son diferentes, como ya se estableció, no existen diferencias significativas bajo el estadístico
Comparaciones múltiples con el estadístico Comparaciones múltiples t
2.306004135
R1-R2
1 2.824267
R1-R3
4
R1-R4
5
R1-R5
3
R1-R6
2
R1-R7
1
R2-R3
5
R2-R4
6
R2-R5
4
R2-R6
3
R2-R7
2
R3-R4
1
R3-R5
1
R3-R6
2
R3-R7
3
R4-R5
2
R4-R6
3
R4-R7
4
R5-R6
1
R5-R7
2
R6-R7
1
Debido a que se encontraron diferencias significativas bajo el estadístico , se procede a realizar las comparaciones a pares correspondientes. Al aplicar las comparaciones se encontró que existen diferencias significativas entre los pares: (1,3), (1,4), (1,5), (2,3), (2,4), (2,5), (2,6), (3,7), (4,6), (4,7). A continuación se presenta una tabla donde se resumen las categorías en las que no se presentaron diferencias señaladas por un mismo color, siendo los sabores marcados con color amarillo los más preferidos por las personas.
Helado
Puntuación 4
3
3
4
5
5
6
6
7
7
1
8
Referencias Conover, W.J. (1999). Practical nonparametric statistics. John Wiley & sons. Hollander, M., Wolfe, D.A. (1999). Nonparametric statistical methods. 2a Ed. John Wiley and Sons. New York, USA.