UNIVERSIDAD DE COSTA RICA ESCUELA DE ESTADISTICA XS3015-PRINCIPIOS XS3015-PRINCIPIOS DE DISEÑOS EXPERIMENTALES EXPERIMENTALES
TAREA #1
ESTUDIANTE: OSCAR MARIO CARMONA ARGUEDAS B01345
PROF. ALVARO CASTRO
I SEMESTRE 2012
EJERCICIOS DEL LIBRO “DISEÑO Y ANÁLISIS DE EXPERIMENTOS”, DOUGLAS
MONTGOMERY Ejercicio 3.10 Se determinó el tiempo de respuesta en milisegundos para tres diferentes tipos de circuitos que podrían usarse en un mecanismo de desconexión automática. Los resultados se muestran en la siguiente tabla:
a) Probar la hipótesis de que los tres tipos de circuitos tienen el mismo tiempo de respuesta. Utilizar H0: H1: al menos un valor del promedio es diferente Realizando un análisis de variancia, determinamos la igualdad de las medias. Tratamientos Tiempo de respuesta Tipo de circuito
Suma Cuadrados
Cuadrado Medio
543.6
271.8
202.8
16.9
Valor estadístico p-value asociado F al valor F 16.083 0.0004023
Como el p-value asociado tiene un valor de 0.0004023 entonces se puede decir que hay suficiente evidencia estadística como para rechazar la hipótesis nula de que las medias entre los tres tipos de circuitos son iguales; es decir que al menos un tipo de circuito no tiene el mismo tiempo de respuesta. b) Usar la prueba de Tukey para comparar pares de medias de los tratamientos. Utilizar
Pares de comparación 2-1 3-1 2-3
p-value asociado 0.0023656 0.6367043 0.0005042
Como puede notarse en la tabla con los valores de p asociado a las comparaciones de cada una de las medias de tratamientos, se puede decir que entre los circuitos 1 y 2 así como 2 y 3 existen diferencias en el tiempo de respuesta ya que sus valores p son menores al nivel de significancia. Con esto se puede concluir que el circuito 2 tiene un tiempo de respuesta diferente a los otros dos. c)
Construir un conjunto de contrastes ortogonales, suponiendo que al principio del experimento se sospechaba que el tiempo de respuesta del circuito tipo 2 era diferente del de los otros dos. H0: H1:
Utilizando la matriz de contrastes y el comando “contrasts” del software R, se obtienen los siguientes datos:
Contrastes
Suma de Cuadrados
p-value asociado
Circuito 1 y 3 vrs. 2
529.2
0.0001169
Como se puede notar, gracias al valor bajo del p-value asociado, el circuito tipo 2 es diferente a los otros dos tipos de circuitos. d) Si el lector fuera el ingeniero de diseño y quisiera maximizar el tiempo de respuesta, ¿qué tipo de circuito seleccionaría?
Seleccionaría el circuito 1 o 3 ya que no hay diferencia entre ellos y tienen el menor tiempo de respuesta. El circuito 3 aún tiene menor tiempo de respuesta que el 1.
e) Analizar los residuales de este experimento. ¿Se satisfacen los supuestos del análisis de variancia básico?
De acuerdo a los gráficos residuales, en el gráfico de normalidad se presentan algunos puntos que hacen una ligera curva de la línea de normalidad, indicando una posible violación de este supuesto. En el caso de homocedasticidad, valores extremos, gráficamente no se presentan violaciones a estos supuestos.
Ejercicio 3.11 Se estudia la vida efectiva de los fluidos aislantes en una carga acelerada de 35 kV. Se han obtenido datos de una prueba para cuatro tipos de fluidos. Los resultados fueron los siguientes:
a) ¿Hay algún indicio de que los fluidos difieran? Utilizar H0: H1: al menos un valor del promedio es diferente Realizando un análisis de variancias, obtenemos lo siguiente: Tratamientos
Suma Cuadrados
Cuadrado Medio
Vida efectiva Tipo de fluido
30.165 65.993
10.0550 3.2997
Valor estadístico p-value asociado F al valor F 3.0473 0.05246
Como la probabilidad asociada al estadístico F de la prueba es 0.05246 y es mayor a nuestro valor de alfa, se puede decir que no hay suficiente evidencia estadística como para rechazar la hipótesis nula de que los promedios de los tipos de fluidos son iguales; es decir no hay diferencias significativas entre los diferentes tipos de fluidos. b) ¿Cuál fluido seleccionaría el lector, dado que el objetivo es conseguir la vida efectiva más larga?
De acuerdo al gráfico de cajas de este experimento, se puede notar que e l tipo de fluido 3 tiene una vida efectiva mayor que los otros tipos de fluidos. A pesar de que el análisis de variancia no resultara diferencias entre ellos, puede que si ex ista ya que el valor de no rechazo es ligeramente un poco más alto que el valor de alfa. En este caso, el lector seleccionaría el fluido 3. b) Analizar los residuales de este experimento. ¿Se satisfacen los supuestos del análisis de variancia básico?
Como se puede notar en los gráficos de los residuales, no hay ninguna posible violación de los supuestos del análisis de variancia.
Ejercicio 3.12 Se estudian cuatro diferentes tipos de diseños de un circuito digital de computadora para comparar la cantidad de ruido presente. Se obtienen los siguientes datos:
a) ¿La cantidad de ruido presente es la misma para los cuatro diseños? Utilizar H0:
Realizando un ANOVA, obtenemos lo siguiente: Tratamientos Ruido observado Diseño del circuito
Suma Cuadrados
Cuadrado Medio
12042.0 2948.8
4014.0 184.3
Valor estadístico p-value asociado F al valor F 21.780 6.797e-06
Al comparar el p-value asociado a valor del estadístico de la prueba y el nivel de significancia, se puede decir que hay suficiente evidencia estadística como para rechazar la hipótesis nula de que las medias de los diseños del circuito son iguales; en otras palabras, al menos un diseño del circuito es diferente.
b) Analizar los residuales de este experimento. ¿Se satisfacen los supuestos del análisis de varianza?
Como se nota gráficamente con los residuales, no hay posibles violaciones de los supuestos del análisis de varianza. c)
¿Qué diseño del circuito se seleccionaría para usarlo? El ruido bajo es mejor.
Como se puede notar en el diagrama de cajas, el tipo de diseño 1 fue observado con ruido menor, por tanto se adecua mejor para su uso.
Ejercicio 3.13 Se pide a cuatro químicos que determinen el porcentaje de alcohol metílico en cierto compuesto químico. Cada químico hace tres determinaciones, y los resultados son los siguientes:
a) ¿Los químicos difieren sigificativamente? Utilizar H0: H1: al menos un valor del promedio es diferente Realizando un análisis de varianza obtenemos lo siguiente: Tratamientos Porcentaje de alcohol metílico Químico
Suma Cuadrados
Cuadrado Medio
1.0446
0.34819
0.8582
0.10727
Valor estadístico p-value asociado F al valor F 3.2458 0.08129
Como nos p-value asociado es mayor al nivel de significancia, se puede decir que no hay suficiente evidencia estadística como para rechazar la hipótesis nula de que el promedio de alcohol metílico en los diferentes tipos de químicos es igual; es decir no hay diferencia significativa entre los diferentes tipos de químicos. b) Analizar los residuales del experimento.
Como se puede ver gráficamente, no hay posibles violaciones a los supuestos del análisis de variancia. c)
Si el químico 2 es un empleado nuevo, construir un conjunto razonable de contrastes ortogonales que podría haberse usado al principio del experimento. H0: H1:
Utilizando la matriz de contrastes y el comando “contrasts” del software R, se obtienen los siguientes datos:
Contrastes
Suma de Cuadrados
p-value asociado
Circuito 1 y 3 vrs. 2
0.65610
0.03853
Como se puede notar, gracias al valor bajo del p-value asociado, el químico tipo 2 es diferente a los otros tipos de químicos, es decir se comprueba la diferencia del químico nuevo con los existentes anteriormente.
Ejercicio 3.16 Se llevó a cabo un experimento para investigar la eficacia de cinco materiales aislantes. Se probaron cuatro muestras de cada material con un nivel elevado de voltaje para acelerar el tiempo de falla. Los tiempos de falla (en minutos) se muestran abajo:
a) ¿Los cinco materiales tienen el mismo efecto sobre el tiempo de falla? Para conocer si los cinco materiales tienen el mismo efecto sobre el tiempo de falla se realiza un análisis de varianza, bajo las siguientes hipótesis: H0: H1: al menos un valor del promedio es diferente Tratamientos Tiempo de falla Material
Suma Cuadrados
Cuadrado Medio
103191489 62505657
25797872 4167044
Valor estadístico p-value asociado F al valor F 6.1909 0.003786
Bajo un nivel de significancia de 0.01, se puede decir que hay suficiente evidencia estadística como para rechazar la hipótesis nula de que los promedios de tiempo de falla de cada tipo de material son diferentes. Es decir, al menos un tipo de material tiene un tiempo de falla significativamente diferente a los otros.
b) Graficar los residuales contra la respuesta predicha. Construir una gráfica de probabilidad normal de los residuales. ¿Qué información transmiten estas graficas?
El primer gráfico de valores residuales versus valores predichos nos indica que hay un problema de heterocedasticidad ya que su patrón abierto hacia el lado derecho indica una que la variancia de las observaciones originales no es constante. Para el gráfico de normalidad, también se halla una violación a este supuesto puesto que no concuerda con la línea de normalidad. c)
Con base en la respuesta del inciso b, realizar otro análisis de los datos del tiempo de falla y sacar las conclusiones apropiadas. Una técnica válida para analizar de otra forma los datos y así tener un mejor ajuste a los supuestos del análisis de varianza, es la de realizar tr ansformaciones. En este caso intentaremos primero con la raíz cuadrada de la variable respuesta:
En este caso se puede notar que ambos supuestos no se corrigen. Lo próximo a realizar es la transformación logaritmo natural a la variable tiempo de falla. Con esto obtenemos los siguientes gráficos:
En ellos se puede notar que el supuesto de normalidad y homocedasticidad se cumplen. Por tanto la transformación logaritmo natural es necesaria para el análisis. Realizando el análisis de varianza de este modelo tenemos: Tratamientos Tiempo de falla Material
Suma Cuadrados
Cuadrado Medio
165.056 16.437
41.264 1.096
Valor estadístico p-value asociado F al valor F 37.657 1.176e-07
Como se puede ver, el análisis de varianza indica que al menos existe una diferencia en los promedios de los tratamientos.
Ejercicio 3.17 Un fabricante de semiconductores ha desarrollado tres métodos diferentes para reducir el conteo de partículas en las obleas. Los tres métodos se prueban en cinco obleas y se obtiene el conteo de partículas después del tratamiento. Los datos se muestran abajo:
a) ¿Todos los métodos tienen el mismo efecto sobre el conteo promedio de partículas? Para saber si los métodos tienen el mismo efecto sobre el conteo promedio, realizamos un análisis de variancia bajo las hipótesis: H0: H1: al menos un valor del promedio es diferente
Tratamientos Conteo Método
Suma Cuadrados
Cuadrado Medio
8963.7 6796.0
4481.9 566.3
Valor estadístico p-value asociado F al valor F 7.9138 0.00643
No todos los métodos tienen el mismo efecto sobre el conteo promedio de partículas ya que hay suficiente evidencia estadística como para rechazar la hipótesis nula de que los promedios de conteo de cada método son iguales. b) Graficar los residuales contra la respuesta predicha. Construir una gráfica de probabilidad normal de los residuales. ¿Hay motivo de preocupación potencial acerca de la validez de los supuestos?
El gráfico de residuos vrs predichos nos indica un patrón como estilo cono lo cual es indicador de un problema de heterocedasticidad. En el caso del gráfico de normalidad, al no existir un patrón lineal normal, parece también existir una violación de este supuesto. c)
Con base en la respuesta del inciso b, realizar otro análisis de los datos del conteo de partículas y sacar las conclusiones apropiadas.
Al igual que en el problema anterior, realizamos una transformación a la variable respuesta para analizar si se corrigen la violación a los supuestos del análisis de varianza. Primeramente se intenta con la transformación raíz cuadrada a la variable respuesta. Con esta transformación se obtienen los siguientes gráficos residuales:
Con la transformación raíz cuadrada se resuelve el problema de heterocedasticidad y normalidad. A continuación se muestra el análisis de varianza con la transformación, en el cual se nota una diferencia considerable que con el modelo antes de la transformación: Tratamientos Conteo Método
Suma Cuadrados
Cuadrado Medio
63.900 38.963
31.950 3.247
Valor estadístico p-value asociado F al valor F 9.84 0.002954
Ejercicio 3.19 Demostrar que la variancia de la combinación lineal ∑ es ∑
Primeramente, aplicamos la variancia a la combinación lineal:
a Var ci yi i 1
a
Var ci yi
Por las propiedades de la variancia, la introducimos a la sumatoria.
i 1
n ci Var yij i j a
i
2
1
Como el coeficiente “c” es constante, sale elevado al cuadrado, de la
1
variancia; por lo cual nos queda la variancia de la sumatoria de cada uno de los valores de cada una de las repeticiones de cada factor.
a
ci
2
i 1
ni
Var y Introducimos la variancia a la sumatoria. ij
j 1
Var yij
2
Entonces tenemos que la variancia de cada uno de los datos es sigma cuadrado
a
ci ni 2
2
Sustituyendo en la sumatoria entonces tenemos la variancia de la combinación lineal.
i 1
Ejercicio 3.33 Usar la prueba de Kruskal-Wallis en el experimento del problema 3.11. Comparar las conclusiones obtenidas con las del análisis de variancia usual. Para esta prueba contamos con las siguientes hipótesis: H0: H1: al menos un valor del promedio es diferente Al utilizar la prueba de Kruskal-Wallis, que no se ve afectada por el supuesto de normalidad, se puede comprobar que no rechazamos la hipótesis nula; es decir no hay diferencia significativa entre cada uno de los tipos de fluido. Kruskal-Wallis chi-cuadrado = 6.2177, df = 3, p-value = 0.1015 Este resultado apoya al resultante en el análisis de variancia del ejercicio 3.11.
Ejercicio 3.34 Usar la prueba de Kruskal-Wallis en el experimento del problema 3.12. ¿Los resultados son comparables con los encontrados por el análisis de variancia usual? Nuestras hipótesis son: H0: H1: al menos un valor del promedio es diferente Al aplicar la prueba no paramétrica de Kruskal-Wallis, obtenemos los siguientes resultados: Kruskal-Wallis chi-cuadrado = 14.931, df = 3, p-value = 0.001877 Por lo tanto concluimos que hay suficiente evidencia estadística como para rechazar la hipótesis nula de que los promedios de los diseños del circuito son iguales. Esto confirma los resultados del análisis de variancia realizado en ejercicio 3.12
Ejercicio de recolección de datos Los resultados de la toma de peso de las fajas rancheras del negocio “La Canela” se presenta a continuación. Se compró una faja ranchera en la mañana y en la tarde, en cinco días hábiles. Luego se pesó en una balanza para re postería.
Datos Experimento de las fajitas Rancheras de " La Canela " Mediciones en gramos
Lunes
Martes
Miércoles
Jueves
Viernes
Mañana
250
270
300
265
240
Tarde
240
250
230
240
260
Persona Encargada de Pesar
Mañana
Lunes Sergio
Martes Melissa
Miércoles Sergio
Jueves Melissa
Viernes Melissa
Tarde
Sergio
Melissa
Melissa
Melissa
Melissa