¿En qué situaciones se aplica un diseño en bloques completos al azar? ¿En qué difieren los factores de tratamientos y de bloque?
Cuando se quieren comparar ciertos tratamientos o estudiar el efecto de un factor, es deseable que las posibles diferencias se deban principalmente al factor de interés y ano a otros factores que no se consideran en el estudio. Cuando esto no ocurre y existen otros factores que no se controlan o nulifican a la hora de hacer la comparación, las conclusiones podrían ser afectadas sensiblemente. El diseño en bloques completos al azar se aplica cuando el efecto de un tratamiento a comparar depende de otros factores que pueden influir en el resultado de experimento y que deben de tomarse en cuenta para anular su posible efecto y evitar sesgo al comparar los factores de interés. Para evitar este sesgo se deben incluir estos factores adicionales en la experimentación y probarlos con cada uno de los factores de interés de manera tal que puedan presentarse todas las combinaciones posibles entre ambos para obtener resultados en la comparación que sean válidos, esta forma de nulificar su efecto se llama bloqueo.
La diferencia entre los factores de tratamiento y los de bloque radica en que estos últimos no se incluyen en el experimento de manera explícita por que interese analizar su efecto, sino como un medio para estudiar de manera adecuada y eficaz al factor de interés para no sesgar la comparación. Estos entran al estudio con un nivel de importancia secundaria con respecto al factor de interés y la inclusión de estos es un medio no un fin para lograr la comparación.
¿Qué diferencia hay entre un DBCA y los diseños en cuadro latino?
El diseño de bloque completo al azar se controla un factor de bloque y uno de tratamiento más el error aleatorio y cuadro latino dos factores de bloque y uno de tratamiento por lo que se tienen cuatro fuentes de variabilidad, incluyendo el termino error, que pueden afectar la respuesta observada.
De acuerdo con el modelo estadístico para un diseño en bloques, ¿por qué a través de este diseño se reduce el error aleatorio?
Porque en el diseño en bloques se analiza bloque a bloque y se toman en cuenta todos los factores posibles que puedan afectar de manera significativa a nuestro experimento.
Porque ahora al considerar los bloques, la variabilidad observada que no se podía explicar por los factores estudiados resulta del efecto de dichos bloques y del error experimental.
4. A continuación se muestra parte del ANOVA para un diseño en bloques, que tiene tres tratamientos y cinco bloques con una sola repetición por tratamiento-bloque.
a) Agregar en esta tabla los grados de libertad, el cuadrado me dio y la razón F para cada una de las fuentes de variación.
b) Interprete en forma práctica, para cada caso, lo que estáesti mando el cuadrado medio.
El cuadrado medio interpreta una división de cada suma de cuadrados entre sus respectivos grados de libertad.
c) Escriba el modelo estadístico y las hipótesis pertinentes.
d) Apóyese en las tablas de la distribución F para aceptar o rechazar las hipótesis.
Para efecto tratamiento se rechaza la hipótesis nula (4.8 > 4.459) Para efecto del bloque se acepta la hipótesis nula (3.4 < 3.838)
Esto quiere decir que el factor tratamiento tiene efecto significativo en la respuesta del experimento y el efecto del bloque no es significativo.
e) Con apoyo de un software obtenga el valor-p para cada caso. Interprete sus resultados.
Valor- P para tratamiento: 0.003 < 0.05 (Se rechaza H0) Valor- P para bloque: 0.1014 > 0.05 (No se rechaza H0)
5. Realice el problema anterior, pero ahora suponga que no se bloqueó. ¿Se hubiesen obtenido las mismas conclusiones? Argumente.
Las conclusiones serian idénticas, ya que el resultado del bloque no tiene un efecto significativo en la respuesta y sin bloque, toda la variación se iría al término error.
6. Aunque en el análisis de varianza para un diseño en bloques completos al azar también se puede probar la hipótesis sobre si hay diferencia entre los bloques, se dice que esta hipótesis se debe ver con ciertas reservas. Explique por qué.
Esta no es una prueba F exacta, sino aproximada, debido a la restricción de aleatorización (sólo se aleatoriza dentro del bloque). En la práctica se recomienda su interpretación porque es evidencia a favor o en contra de que valió la pena el esfuerzo de controlar el factor de bloque. Si resulta significativa implica que el factor de bloques tiene influencia sobre la variable de respuesta, y debe ser tomado en cuenta para mejorar la calidad de ésta. Pero, si no se rechaza y se acepta que los bloques son iguales en respuesta media, entonces se tiene el argumento a favor de no controlar este factor en futuros experimentos sobre esta misma respuesta, además de que su influencia en la calidad de la respuesta no es significativa.
La restricción de aleatorización se debe al hecho de que no se aleatoriza el orden de las corridas experimentales en relación a los bloques. El experimento supone que sólo se aleatoriza el orden de las corridas dentro de cada bloque, lo cual evita sesgos en la comparación de los tratamientos, pero no los impide en la comparación de los bloques.
7. Explique por qué se utiliza el adjetivo azar en el nombre del diseño en bloques completos al azar.
Primeramente la palabra completo en el nombre del diseño se debe a que en cada bloque se prueban todos los tratamientos, o sea, los bloques están completos. La aleatorización se hace dentro de cada bloque; por lo tanto, no se realiza de manera total como en el diseño completamente al azar. El hecho de que existan bloques hace que no sea práctico o que incluso sea imposible aleatorizar en su totalidad
8. Una compañía farmacéutica realizó un experimento para estudiar los tiempos promedio (en días) necesarios para que una persona se recupere de los efectos y complicaciones que siguen a un resfriado común. En este experimento se hizo una comparación de distintas dosis diarias de vitamina C. Para hacer el experimento se contactó a un número determinado de personas, que en cuanto les daba el resfriado empezaban a recibir algún tipo de dosis. Si la edad de las personas es una posible fuente de variabilidad, explique con detalle cómo aplicaría la idea de bloqueo para controlar tal fuente de variabilidad.
Si fuera un número grande de personas se podrían acomodar en subgrupos o en rangos para distribuir las diferentes edades se probarían las distintas dosis en las diferentes edades.
9. A continuación se muestran los datos para un diseño en bloques al azar.
a) Complete las sumas totales que se piden en la tabla anterior.
Bloque
Total por tratamiento
Tratamiento
1
2
3
4
A
3
4
2
6
Y1. = 15
B
7
9
3
10
Y2. = 29
C
4
6
3
7
Y3. = 20
Total por bloque
Y.1 = 14
Y.2 = 19
Y.3 = 8
Y.4 = 23
Y.. = 64
b) Calcule las sumas de cuadrados correspondientes: SCTRAT, SCB, SCT y SCE.
c) Obtenga la tabla de análisis de varianza y anote las principales conclusiones.
De acuerdo al ANOVA anterior se observa que para los tratamientos se obtuvo un valor-p =0.006 < 0.05, por lo que se rechaza la hipótesis nula de que las media de los tratamientos son iguales entre si, en cuanto al factor de bloques se puede concluir que su valor-p =0.003 < 0.05, lo que nos dice que existen diferencias entre estos.
d) Obtenga la diferencia mínima significativa (LSD) para comparar tratamientos en este diseño en bloques.
10. Se hace un estudio sobre la efectividad de tres marcas de atomizador para matar moscas. Para ello, cada producto se aplica a un grupo de 100 moscas, y se cuenta el número de moscas muertas expresado en porcentajes. Se hicieron seis réplicas, pero en días diferentes; por ello, se sospecha que puede haber algún efecto importante debido a esta fuente de variación. Los datos obtenidos se muestran a continuación:
Suponiendo un DBCA, formule las hipótesis adecuadas y el modelo estadístico.
Modelo estadístico:
Yij = μ + τi + γj + εij ; i = 1,2,3 y j = 1,2,3,4,5,6
Las hipótesis adecuadas son:
Ho: μ1 + μ2 + μ3 = μ
Ha: μi μj para algún i j
Que también se puede expresar como:
Ho: τ1 = τ2 = τ3 = 0
Ha: τi 0 para algún i
Existe diferencia entre la efectividad promedio de los atomizadores?
Empleando el SW Minitab se obtiene la siguiente información:
Two-way ANOVA: Respuesta_1 versus Marca Atomizador, Día
Source DF SS MS F P
Marca Atomizador 2 296.33 148.167 2.88 0.103
Día 5 281.33 56.267 1.09 0.421
Error 10 514.33 51.433
Total 17 1092.00
De esta tabla se observa que para marca atomizador se obtuvo un valor-p = 0.103 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia entre la efectividad promedio de los atomizadores.
Hay algún atomizador mejor? Argumente su respuesta.
Empleando el SW Minitab se obtiene la siguiente información:
Individual 95% CIs For Mean Based on
Marca Pooled StDev
Atomizador Mean --+---------+---------+---------+-------
1 69.0000 (----------*----------)
2 59.1667 (----------*---------)
3 62.8333 (----------*----------)
--+---------+---------+---------+-------
54.0 60.0 66.0 72.0
En este caso como los intervalos de confianza se traslapan entonces los atomizadores son estadísticamente iguales en cuanto a sus medias.
Hay diferencias significativas en los resultados de diferentes días en que se realizó el experimento? Argumente su respuesta.
Individual 95% CIs For Mean Based on
Pooled StDev
Día Mean --+---------+---------+---------+-------
1 63.6667 (-----------*----------)
2 66.0000 (-----------*----------)
3 65.3333 (-----------*----------)
4 67.6667 (-----------*----------)
5 55.3333 (----------*-----------)
6 64.0000 (-----------*-----------)
--+---------+---------+---------+-------
48.0 56.0 64.0 72.0
En este caso como los intervalos de confianza se traslapan entonces los resultados de diferentes días en que se realizo el experimento son estadísticamente iguales en cuanto a sus medias.
Verifique los supuestos de normalidad y de igual varianza entre las marcas.
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se observa que estos siguen una distribución normal ya que tienden a quedar alineados en una línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra los residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que los tratamientos tienen igual varianza.
11. En una empresa lechera se tienen varios silos para almacenar leche (cisternas de 60 000 L). Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento. Se sospecha que en algunos silos hay problemas, por ello, durante cinco días se decide registrar la temperatura a cierta hora crítica. Obviamente la temperatura de un día a otro es una fuente de variabilidad que podría impactar la variabilidad total.
a) En este problema, ¿cuál es el factor de tratamiento y cuál el factor de bloque?
El factor de tratamiento son los silos y el factor de bloque los días.
b) Suponga un DBCA, formule las hipótesis adecuadas y el mod elo estadístico.
c) ¿Hay diferencia entre los silos?
Aquí podemos observar que el valor-p de los silos es mayor que el valor de significancia, es decir, que el valor-p de los silos es 0.246 y el nivel de significancia es 0.05 y por lo tanto es mayor, lo que significa que estadísticamente son iguales.
d) ¿La temperatura de un día a otro es diferente?
Por medio del problema anterior podemos observar que la temperatura es igual porque el valor-p de los bloques es 0.609 y el nivel de significancia es 0.05 así que se muestra que el valor-p del bloque es mayor que la significancia y por lo tanto las temperaturas son iguales.
e) Revise residuos, ¿hay algún problema evidente?
En el recuadro de la grafica de probabilidad normal nos muestra que el supuesto de normalidad se cumple porque los residuos o puntos estas más o menos cerca de la línea recta. Por mientras que en el recuadro vs ajuste también se cumple el supuesto de varianza porque los residuos se ubican aleatoriamente dentro de una banda horizontal.
12. Se diseñó un experimento para estudiar el rendimiento de cuatro detergentes. Las siguientes lecturas de "blancura" se obtuvieron con un equipo especial diseñado para 12 cargas de lavado, distrib uidas en tres modelos de lavadoras:
a) Señale el nombre del diseño experimental utilizado.
Diseño por bloques
b) Formule la hipótesis que se quiere probar en este problema.
c) Realice el análisis estadístico más apropiado para estos datos y obtenga conclusiones.
El valor-p que arroja minitab nos dice que se rechazan ambas H0, por lo tanto las medias de los diferentes tratamientos son significativamente diferentes de la media poblacional y, para el factor de bloqueo quiere decir que influye en la respuesta del experimento.
13. Con respecto al problema anterior:
a) Conteste los tres incisos del problema anterior sin tomar en cuenta el efecto de las lavadoras y obtenga conclusiones.
b) ¿Hay diferencias en las conclusiones anteriores y las del prob lema anterior? Explique su respuesta.
Si hay diferencias, debido a que en las conclusiones anteriores las medias de los diferentes tratamientos son diferentes de la media poblacional, y en este caso del diseño completamente al azar, se acepta la H0 que las medias de los tratamientos son iguales a la media poblacional.
c) ¿Con cuáles conclusiones se queda? Explique su respuesta.
Con las primeras que se obtuvieron en el diseño de bloques completo al azar porque el factor de bloqueo que consideramos tiene influencia en la respuesta.
14. Una de las variables críticas en el proceso de ensamble del brazo lector de un disco duro es el ángulo que éste forma con el cuerpo prin cipal de la cabeza lectora. Se corre un experimento con el objetivo de comparar dos equipos que miden dicho ángulo en unidades de radianes. Se decide utilizar como factor de bloque a los operadores de los equipos. Los resultados se muestran en la siguiente tabla:
a) Plantee el modelo y las hipótesis más adecuadas al problema.
b) ¿Existen diferencias entre los equipos? Argumente estadísticamente.
No existen diferencias ya que el valor –p en tratamiento equipo es de 0.078 (mayor que 0.05 de α ) por lo tanto se acepta la Ho, los dos equipos son estadísticamente iguales.
c) ¿Existen diferencias entre los operadores?
No existen diferencias entre el factor de bloque operadores, valor-p 0.129 > 0.05, son estadísticamente iguales.
d) Dibuje los diagramas de cajas simultáneos y las gráficas de medias para ambos factores, después interprételas.
e) Verifique los supuestos de normalidad e igualdad de varianza entre tratamientos, así como la posible presencia de puntos aberrantes.
15. Un aspecto crítico para que se conserve la leche es la temperatura de almacenamiento. De manera tradicional se han usado termómetros de mercurio (Mer) para verificar que la temperatura sea la adecuada, pero ahora se han comprado termómetros electrónicos (Rtd) para facilitar el proceso de medición. Sin embargo, se duda de las mediciones de estos nuevos dispositivos. Para aclarar dudas y diagnosticar la situación, durante cinco días se toman mediciones con ambos tipos de termómetros en varios silos (a la misma hora). Los datos para cinco silos se muestran a continuación:
a) Observe los datos y establezca una conjetura acerca de la confiabilidad de las mediciones con Rtd (del termómetro de mercurio no hay duda).
A primera vista, si comparamos el termómetro de Mer con el Rtd se aprecian diferencias grandes, incluso el termómetro Rtd marca temperaturas inferiores a 0°C, cosa que nunca sucede con el otro termómetro.
b) Es claro que el silo se puede ver como tratamiento y día como bloque. Considere sólo los datos de Rtd y establezca el modelo estadístico. También haga el ANOVA correspondiente y obtenga conclusiones.
El tipo de análisis sería Diseño en bloques completos al azar (DBCA), cuyo modelo es:
Yij=μ+τi+γj+εiji=1,2,…,kj=1,2,…,b
Hipótesis:
Tratamiento:
H0:μA=μB=μC=μD=μE=μ
HA:μi μj para algún i j
Bloques:
H0:γ1=γ2=γ3=γ4=γ5=0
HA:γj 0 para algún bloque j
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN
Cuenta
Suma
Promedio
Varianza
Fila 1
5
12.8
2.56
3.148
Fila 2
5
23.3
4.66
3.068
Fila 3
5
-3
-0.6
18.915
Fila 4
5
23.7
4.74
3.203
Fila 5
5
-9.3
-1.86
9.728
Columna 1
5
15.4
3.08
5.197
Columna 2
5
16
3.2
6.18
Columna 3
5
16.3
3.26
6.078
Columna 4
5
1
0.2
11.085
Columna 5
5
-1.2
-0.24
39.653
ANÁLISIS DE VARIANZA
Origen de las variaciones
Suma de cuadrados
Grados de libertad
Promedio de los cuadrados
F
Probabilidad
Valor crítico para F
Filas
182.532
4
45.633
8.09095745
0.00091159
3.00691728
Columnas
62.008
4
15.502
2.74858156
0.06486529
3.00691728
Error
90.24
16
5.64
Total
334.78
24
En tratamiento:
Dado que F0>Fcritica, la hipótesis se rechaza, esto significa que la temperatura en los silos es diferente.
En bloque:
Como F0
c) Repita el inciso anterior pero ahora para las mediciones Mer.
El tipo de análisis sería Diseño en bloques completos al azar (DBCA), cuyo modelo es:
Yij=μ+τi+γj+εiji=1,2,…,kj=1,2,…,b
Hipótesis:
Tratamiento:
H0:μA=μB=μC=μD=μE=μ
HA:μi μj para algún i j
Bloques:
H0:γ1=γ2=γ3=γ4=γ5=0
HA:γj 0 para algún bloque j
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN
Cuenta
Suma
Promedio
Varianza
Fila 1
5
16.5
3.3
2.95
Fila 2
5
21
4.2
2.2
Fila 3
5
17
3.4
0.925
Fila 4
5
21.5
4.3
2.075
Fila 5
5
17.5
3.5
0.75
Columna 1
5
20
4
0.875
Columna 2
5
22
4.4
0.8
Columna 3
5
20.5
4.1
2.925
Columna 4
5
13
2.6
2.675
Columna 5
5
18
3.6
0.3
ANÁLISIS DE VARIANZA
Origen de las variaciones
Suma de cuadrados
Grados de libertad
Promedio de los cuadrados
F
Probabilidad
Valor crítico para F
Filas
4.46
4
1.115
0.69040248
0.60921239
3.00691728
Columnas
9.76
4
2.44
1.51083591
0.24602212
3.00691728
Error
25.84
16
1.615
Total
40.06
24
En tratamiento:
Dado que F0
En bloque:
Como F0
d) ¿Las conclusiones obtenidas en los incisos anteriores coinciden? Comente su respuesta.
No las conclusiones con respecto a los tratamientos (silos) fue distinta, en el caso del termómetro Rtd había variación en los silos; mientras que con el termómetro Mer, eso no se detectó, los silos eran estadísticamente iguales. Esto quiere decir que los termómetros son distintos entre sí, ya que muestran conclusiones diferentes.
e) Datos pareados. Para comparar los dos métodos de medición (Mer y Rtd) obtenga como variable de respuesta a la diferencia de temperatura que registran los métodos para cada día en cada silo. Considerando esto, establezca el modelo estadístico, haga el ANOVA correspondiente y obtenga conclusiones.
Para "MER-RTD"
Silo
Día 1
Día 2
Día 3
Día 4
Día 5
Dif.
Dif.
Dif.
Dif.
Dif.
A
1.4
1.2
0
0.5
0.6
B
1.4
0.4
0.3
0.2
0
C
1.2
2.6
1.7
3.9
10.6
D
0.6
1
0.1
1.8
2.3
E
4
3.6
2.9
6
10.3
El tipo de análisis sería Diseño en bloques completos al azar (DBCA), cuyo modelo es:
Yij=μ+τi+γj+εiji=1,2,…,kj=1,2,…,b
Hipótesis:
Tratamiento:
H0:μA=μB=μC=μD=μE=μ
HA:μi μj para algún i j
Bloques:
H0:γ1=γ2=γ3=γ4=γ5=0
HA:γj 0 para algún bloque j
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN
Cuenta
Suma
Promedio
Varianza
Fila 1
5
3.7
0.74
0.318
Fila 2
5
2.3
0.46
0.298
Fila 3
5
20
4
14.665
Fila 4
5
5.8
1.16
0.793
Fila 5
5
26.8
5.36
8.953
Columna 1
5
8.6
1.72
1.732
Columna 2
5
8.8
1.76
1.708
Columna 3
5
5
1
1.6
Columna 4
5
12.4
2.48
5.997
Columna 5
5
23.8
4.76
27.703
ANÁLISIS DE VARIANZA
Origen de las variaciones
Suma de cuadrados
Grados de libertad
Promedio de los cuadrados
F
Probabilidad
Valor crítico para F
Filas
96.8136
4
24.2034
6.65998927
0.00235744
3.00691728
Columnas
41.9616
4
10.4904
2.88661723
0.05639643
3.00691728
Error
58.1464
16
3.63415
Total
196.9216
24
En tratamiento:
Dado que F0>Fcritica, la hipótesis nula se rechaza esto se interpreta en que, la diferencia entre las temperaturas de los termómetros, en los silos es diferente, es decir, hay diferencias entre cada tratamiento.
En bloque:
Como F0
En conclusión, se puede inferir por los resultados en los incisos anteriores, que el termómetro Rtd es diferente al termómetro Mer, y considerando que sobre éste último no hay duda de su funcionamiento, entonces, el termómetro Rtd, está dañado y no registra las temperaturas correctas.
16. Se quiere estudiar el efecto de cinco diferentes catalizadores (A, B, C, D y E) sobre el tiempo de reacción de un proceso químico. Cada lote de material sólo permite cinco corridas y cada corrida requier e aproximadamente 1.5 horas, por lo que sólo se pueden realizar cinco corridas diarias. El experimentador decide correr los exp erimentos con un diseño en cuadro latino para controlar activa mente a los lotes y días. Los datos obtenidos son:
Cómo se aleatorizó el experimento?
Se siguió la siguiente estrategia:
Se construye el cuadro latino estándar más sencillo.
Se aleatoriza el orden de los renglones (o columnas) y después se aleatoriza el orden de las columnas (o renglones).
Por último, los tratamientos a comparar se asignan en forma aleatoria a las letras latinas.
Así se cumple que cada letra debe aparecer solo una vez en cada renglón y en cada columna.
Anote la ecuación del modelo y las hipótesis estadísticas correspondientes.
Modelo estadístico:
Yij = μ + τi + γj + δl + εij ; i = 1,2,3,4,5 j = 1,2,3,4,5, l = 1,2,3,4,5
Las hipótesis adecuadas son:
Ho: μ1 + μ2 + μ3 + μ4 + μ5= μ
Ha: μi μj para algún i j
Que también se puede expresar como:
Ho: τ1 = τ2 = τ3 = τ4 = τ5 = 0
Ha: τi 0 para algún i
Existen diferencias entre los tratamientos? Cuáles tratamientos son diferentes entre si?
Análisis de varianza para Y, utilizando SS ajustadas para pruebas
Source DF Seq SS Adj SS AdjMS F P
Catalizador 4 141.440 141.440 35.360 11.31 0.000
Lote 4 15.440 15.440 3.860 1.23 0.348
Día 4 12.240 12.240 3.060 0.98 0.455
Error 12 37.520 37.520 3.127
Total 24 206.640
S = 1.76824 R-Sq = 81.84% R-Sq(adj) = 63.69%
De esta tabla se observa que para Catalizador se obtuvo un valor-p = 0.000 < 0.05, por lo tanto se rechaza Ho. Es decir que al menos dos de los catalizadores son diferentes.
Los factores de ruido, lote y día afectan el tiempo de reacción del proceso?
Del ANOVA se observa que para lote se obtuvo un valor-p = 0.348 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia entre el tiempo de reacción de un proceso químico de los lotes.
Por otro lado, del ANOVA se observa que para días se obtuvo un valor-p = 0.455 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia entre el tiempo de reacción de un proceso químico de los días.
Dibuje los gráficos de medias para los tratamientos, los lotes y los días. Cuál tratamiento es el mejor?
Sería el tratamiento 5, puesto que tiene la media más baja respecto al tiempo de reacción del proceso.
Verifique los supuestos del modelo, considerando que los datos se obtuvieron columna por columna, día a día.
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se observa que estos siguen una distribución normal ya que tienden a quedar alineados en una línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra los residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que los tratamientos tienen igual varianza.
17. En el problema anterior elimine el factor de bloque días, y conteste:
a) ¿Se justifica esta segunda eliminación en ambos problemas?
b) Después de la doble eliminación, señale el nombre del diseño, el modelo y la(s) hipótesis más adecuada(s) al problema.
c) Pruebe las hipótesis y obtenga conclusiones.
d) Compare el cuadro medio del error obtenido con los de los problemas 16 y 17. ¿Qué observa? ¿Cómo lo explica?
e) ¿Por qué se obtienen las mismas conclusiones en los tratamientos de este problema y de los dos anteriores?
f) ¿Cree que esta eliminación hubiese afectado si los factores de bloque hubieran sido significativos?
18. Con respecto a los problemas 16 y 17, además de eliminar el factor día ahora elimine el factor lote, y conteste lo siguiente:
b) Después de la doble eliminación, señale el nombre del diseño, el modelo y la(s) hipótesis más adecuada(s) al problema.
El nombre del diseño es uno de tipo multigrupo completamente al azar, el modelo es de tipo unifactorial de efectos fijos, no-equilibrado y las hipótesis adecuadas son:
Ho: μ1 + μ2 + μ3 + μ4 + μ5= μ Ha: μi μj para algún i j
La cual la podemos expresar de la siguiente forma: Ho: τ1 = τ2 = τ3 = τ4 = τ5 = 0
c) Pruebe las hipótesis y obtenga conclusiones.
Al momento de probar la hipótesis en el ANOVA por medio del programa, se observó que para días se obtuvo un valor-p = 0.455 > 0.05, por lo tanto se acepta Ho. Como conclusión eso quiere decir que no existe diferencia entre el tiempo de reacción de un proceso químico de los días.
F)
19. Se comprueba el peso en gramos de un material de tres proveedor es: A, B y C, por tres diferentes inspectores: I, II y III, utilizando tres diferentes escalas: 1, 2 y 3. El experimento se lleva a cabo como el siguiente cuadro latino:
RESPUESTA
20. Cuando se comparan varios fertilizantes o diferentes variedades de cierto cultivo, es típico que se deba considerar el gradiente de fertilidad del suelo (factor columna) o los efectos residuales de cultivos previos (factor renglón). Considerando estos factores de bloque, Gomez y Gomez (1984) plantean un experimento en cuadro latino para comparar, en cuanto a rendimiento en toneladas por hectárea, tres variedades de maíz híbrido (A, B, C) y una variedad control (C). Para ello, se utiliza un campo agrícola cuadrado de 16 hectáreas, dividido en parcelas de una hectárea. Los datos de rendimiento obtenidos en cada parcela se muestran a continuación:
a) ¿Existen diferencias en los rendimientos de las diferentes variedades de maíz?
Debido a que le Valor-p es menos que la significancia observada para el modelo 0.025< 0.05 se afirma que si existen diferencias entre los tratamientos.
b) ¿Cuál de los factores de bloque tuvo efectos?
El gradiente de fertilidad del suelo
c) ¿Se habrían detectado las mismas diferencias en los tratamientos con un diseño completamente al azar?
No, porque en este tipo de diseño en cuadro latino se controlan dos factores de bloqueo y se tienen cuatro fuentes de variabilidad para el modelo que pueden afectar la respuesta observada.
d) ¿Y con un diseño en bloques completos al azar?
No, ya que no contempla la posibilidad de comparar más de 1 factor
21. Se quieren comparar tres dietas (A, B, C) a base de proteínas de origen vegetal utilizando 18 ratas de laboratorio de una misma camada. Primero se observa por un tiempo el apetito para formar tres grupos de seis ratas, según su voracidad; y cada uno de estos grupos se clasifica a su vez en tres grupos de dos ratas, de acuerdo a su peso inicial. Se plantea un experimento donde la variable de respuesta es el peso en gramos ganado por las ratas después de cierto periodo, con los siguientes resultados:
a) Analice los datos. ¿Cuáles de los factores influyen en el peso ganado por las ratas?
El tipo de análisis es Diseño en cuadro latino (DCL), cuyo modelo es:
Yijl=μ+τi+γj+δl+εijl
Hipótesis:
Tratamiento:
H0:μA=μB=μC=μ
HA:μi μj para algún i j
Bloque 1:
H0:γ1=γ2=γ3=0
HA:γj 0 para algún bloque j
Bloque 2:
H0:γ1=γ2=γ3=0
HA:γj 0 para algún bloque j
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN
Cuenta
Suma
Promedio
Varianza
A
3
628
209.333333
550.333333
B
3
436
145.333333
1164.33333
C
3
496
165.333333
900.333333
Fila 1
3
537
179
1524
Fila 2
3
523
174.333333
840.333333
Fila 3
3
500
166.666667
3350.33333
Columna 1
3
435
145
1252
Columna 2
3
518
172.666667
1546.33333
Columna 3
3
607
202.333333
566.333333
ANÁLISIS DE VARIANZA
Origen de las variaciones
Suma de cuadrados
Grados de libertad
Promedio de los cuadrados
F
Valor crítico para F
Tratamiento
6432
2
3216
99.4639175
6.94427191
Peso inicial (B1)
232.666667
2
116.333333
3.59793814
6.94427191
Voracidad (B2)
4932.66667
2
2466.33333
76.2783505
6.94427191
Error
64.6666667
2
32.3333333
Total
11662
8
En tratamiento:
Dado que F0>Fcritica, la hipótesis nula se rechaza, es decir, los tratamientos (dietas) son diferentes entre sí.
En bloque 1:
Como F0
En bloque 2:
Como F0>Fcritica , la hipótesis nula se rechaza, es decir, que la voracidad de las ratas si es un factor que influye en los resultados.
b) ¿Cuál dieta es mejor?
Utilizando LSD
µi-µj
LSD
H0
µA
µB
64
>
19.9763391
µA
µC
44
>
19.9763391
µB
µC
20
>
19.9763391
Por lo tanto, se puede concluir que la dieta B es la mejor, ya que el incremento de peso es el menor.
c) ¿Alguno de los factores de bloque puede ser ignorado? Argumente su respuesta.
Como el peso inicial no tiene influencia en los resultados, este factor de bloque puede ser ignorado.
d) Si ése fuera el caso, analice de nuevo el experimento y saque conclusiones.
Hipótesis:
Tratamiento:
H0:μ1=μ2=μ3=μ
HA:μi μj para algún i j
Bloques
H0:γ1=γ2=γ3=0
HA:γj 0 para algún bloque j
Análisis de varianza de dos factores con una sola muestra por grupo
RESUMEN
Cuenta
Suma
Promedio
Varianza
Fila 1
3
628
209.333333
550.333333
Fila 2
3
436
145.333333
1164.33333
Fila 3
3
496
165.333333
900.333333
Columna 1
3
435
145
1252
Columna 2
3
518
172.666667
1546.33333
Columna 3
3
607
202.333333
566.333333
ANÁLISIS DE VARIANZA
Origen de las variaciones
Suma de cuadrados
Grados de libertad
Promedio de los cuadrados
F
Probabilidad
Valor crítico para F
Filas
6432
2
3216
43.264574
0.00195228
6.94427191
Columnas
4932.66667
2
2466.33333
33.1793722
0.00323209
6.94427191
Error
297.333333
4
74.3333333
Total
11662
8
En tratamiento:
Dado que F0>Fcritica, la hipótesis nula se rechaza, es decir, los tratamientos (dietas) son diferentes entre sí.
En bloque:
Como F0>Fcritica , la hipótesis nula se rechaza, es decir, que él apetito si influye en el resultado.
Es decir los resultados siguen siendo los mismos.
e) Verifique los supuestos del modelo.
Normalidad
H0:Los datos proceden de una distribución normal
HA:Los datos no proceden de na distribución normal
W=1n-1s2I=1kaixn-i+j-xi2
i
Datos en orden
Coeficientes Shapiro-Wilks
xn-i+j-xi
ai(xn-i+j-xi)
1
50
0.5888
14
8.2432
2
51
0.3244
11
3.5684
3
53
0.1976
8
1.5808
4
55
0.0947
4
0.3788
5
58
Σ
13.7712
6
59
7
61
8
62
9
64
s2= 3680.125
Entonces W= 0.00644
Y de tablas Wcritica= 0.978
Por lo tanto si Wcritica>W la hipótesis nula se acepta. Estos dato provienen de una distribución normal.
Varianza constante
Como los datos tienen una distribución normal se utiliza el estadístico de Bartlett.
H0:σA2=σB2=σ32
HA:σi2 σj2 para algún i j
χ02=2.3026qc
Dónde:
c=1+13(k-1)i=1k(ni-1)-1-(N-k)-1
q=N-klogsp2-i=1kni-1logsi2
sp2=i=1k(ni-1)si2N-k
Para tratamiento:
si2
log si2
550.333333
2.74062582
1164.33333
3.06607733
900.333333
2.95440333
Σ
2615
8.76110648
sp2=
871.666667
log sp2=
2.94035044
q=
-5212.3579
c=
1.05555556
χ2=
-11370.2924
De tablas χ2= 5.991
Por lo tanto, como χ2tablas< χ20 entonces, la hipótesis nula se rechaza, esto quiere decir que no existe Homocedasticidad en los datos.
Para bloque:
Σ
si2
1252
1546.33333
566.333333
3364.66667
log si2
3.09760433
3.18930312
2.75307212
9.03997957
sp2=
1121.55556
log sp2=
3.04982079
q=
0.2189656
c=
1.11111111
χ2=
0.45377118
De tablas χ2= 5.991
Por lo tanto, como χ2tablas> χ20 entonces, la hipótesis nula se acepta, esto quiere decir que hay homogeneidad de varianza en los datos con respecto a los bloques.
Independencia
El método analítico de comprobar el supuesto de independencia se realiza con la prueba Durbin-Watson.
H0: ρ=0 (no hay correlación)
HA:ρ 0
d=i=2n(ei-ei-1)2i=1n(ei)2
independencia
Datos
yi
ei
ei2
(ei-ei-1)2
1
183
209.333333
-26.33
693.44
2
217
209.333333
7.67
58.78
1156
3
228
209.333333
18.67
348.44
121
4
113
145.333333
-32.33
1045.44
2601
5
142
145.333333
-3.33
11.11
841
6
181
145.333333
35.67
1272.11
1521
7
139
165.333333
-26.33
693.44
3844
8
159
165.333333
-6.33
40.11
400
9
198
165.333333
32.67
1067.11
1521
Σ
5230.000
12005.000
d= 2.2954
De las tablas no viene el valor correspondiente, para p=2 y n=9, por lo tanto, no se pudo concluir el método analítico.
Gráficamente: en base al valor de R2 se puede concluir que no hay correlación entre los datos.
22. Una compañía distribuidora ubicada en los suburbios está interesada en estudiar la diferencia en costos (tiempo y gasolina) entre las cuatro rutas (A, B, C, D) que llevan a la zona comercial, más importante para ellos, en el otro extremo de la ciudad. Deciden correr un experimento en cuadro grecolatino controlando los factores de bloque chofer, marca de vehículo (a, b, c, d) y día de la semana. El experimento se repite en dos semanas diferentes, en las cuales no hay días festivos ni quincenas. Los costos observados en pesos se muestran en la siguiente tabla:
a) Haga el análisis de varianza de este experimento.
b) Realice las pruebas de comparaciones múltiples para los factores significativos.
c) Represente los tratamientos y factores de bloque usando gráficas de medias y diagramas de dispersión.
d) ¿Cuál es la mejor ruta? ¿Cuál es la peor? e) ¿Hay diferencias significativas entre los choferes? ¿Y entre el tipo o marca de unidad?
f) ¿Cuáles factores de bloque valió la pena tomar en cuenta en el experimento?
g) ¿Por qué se evitaron días festivos y quincenas en el experimento? ¿Cuáles otros aspectos se tenían que tomar en cuenta?
h) Verifique los supuestos del modelo.
23. Un investigador está interesado en el efecto del porcentaje de lisina y del porcentaje de proteína en la producción de vacas lecheras. Se consideran siete niveles en cada factor.
% de lisina: 0.0 (A), 0.1 (B), 0.2 (C), 0.3 (D), 0.4 (E), 0.5 (F ), 0.6 (G).
% de proteína: 2 (a), 4(b), 6( c), 8(d), 10(e), 12(j), 14(g).
Para el estudio, se seleccionan siete vacas al azar, a las cuales se les da un seguimiento de siete periodos de tres meses. Los datos en galones de leche fueron los siguientes:
Analice este experimento. ¿Qué factores tienen efecto en la producción de leche?
Empleando el SW Minitab se obtiene la siguiente información:
Analysis of Variance for Respuesta, using Adjusted SS for Tests
Source DF Seq SS Adj SS Adj MS F P
Vaca 6 8754 8588 1431 1.39 0.261
período 6 1761 1702 284 0.27 0.943
% lisina 6 38906 40171 6695 6.48 0.000
% proteina 6 148628 148628 24771 23.98 0.000
Error 24 24792 24792 1033
Total 48 222841
S = 32.1406 R-Sq = 88.87% R-Sq(adj) = 77.75%
Del ANOVA se observa que para VACA se obtuvo un valor-p = 0.261 > 0.05, por lo tanto se acepta Ho. Es decir que no existe diferencia en la producción de leche.
Por otro lado, del ANOVA se observa que para PERIODO se obtuvo un valor-p = 0.943 > 0.05, por lo tanto se acepta Ho.
De igual forma para el % DE LISINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto se se rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho porcentaje.
De igual forma para el % DE PROTEINA se obtuvo un valor-p = 0.000 < 0.05, por lo tanto se se rechaza Ho. Es decir si existe diferencia en la producción de leche debida a dicho porcentaje.
Interprete los resultados usando gráficos de medias.
De tal forma, los intervalos de confianza de las vacas se traslapan por lo que sus respuestas medias son iguales estadísticamente.
De tal forma, los intervalos de confianza de los períodos se traslapan por lo que sus respuestas medias son iguales estadísticamente.
De tal forma, los intervalos de confianza de los % de lisina se traslapan por lo que sus respuestas medias son iguales estadísticamente.
De tal forma, los intervalos de confianza de los % de proteína no se traslapan por lo que sus respuestas medias no son iguales estadísticamente.
¿Cómo puede explicar la falta de efectos en vacas y periodo?
El diseño pretendía verificar el efecto del porcentaje de lisina y del porcentaje de proteína en la producción de vacas lecheras por lo que se bloquearon los aspectos relacionados a las vacas y al período.
¿Qué porcentajes de lisina y proteína dan los mejores resultados?
De las gráficas anteriores, % de lisina que brinda los mejores resultados es: 0,4 (E). Respecto del % de proteínas, el mejor es: 14(γ).
Verifique los supuestos del modelo.
En la gráfica 1 (Normal Probability Plot of the Residuals) se han graficado los residuos y se observa que estos siguen una distribución normal ya que tienden a quedar alineados en una línea recta.
En la gráfica 2 (Residuals Versus the Fitted Values) se han graficado los predichos contra los residuos y se observa que los puntos se distribuyen de manera aleatoria en una banda horizontal (sin ningún patrón claro y contundente), por lo que se cumple el supuesto de que los tratamientos tienen igual varianza.