MATERIA: DISEÑO DE EXPERIMENTOS EXPERIMENTOS
Preguntas y ejercicios 1. ¿Cuál es el propósito general del análisis de regresión? El propósito general del análisis de regresión es de investigar la relación funcional existente entre dos o más variables, ajustando algún mod elo matemático.
2. En el análisis de regresión intervienen 2 tipos de variables: las independientes y las dependientes. Explique con sus palabras y a través de ejemplos, las características de estos dos tipos de variables.
La variable independiente es aquella cualidad o característica de una función o proceso, la cual tiene la capacidad de influir o afectar a otras variables, y recibe este nombre ya que no depende de otros factores.
La variable dependiente es también llamada variable de respuesta, y es el objeto de estudio sobre la cual se centra la investigación y como su nombre lo indica dependerá de otros factores. Ejemplo: Condiciones higiénicas del hábitat de mascotas como riesgo potencial de contagio de enfermedades parasitarias. Donde la variable dependiente es el riesgo potencial de contagio de enfermedades parasitarias y la variable independiente las condiciones higiénicas. Otros ejemplos: las variables independientes pueden ser el sexo, la raza, la edad, etc., siendo factores que afectan a otras variables y de las dependientes tasa de mortalidad, tasa de natalidad, etc.
Ejercicios: 6. En una etapa inicial del procesamiento mecánico de piezas de acero, se sabe que una herramienta sufre un deterioro gradual que se refleja en cierto diámetro de las piezas manufacturadas. Para predecir el tiempo de vida útil de la herramienta se tomaron datos de horas de uso y el diámetro promedio de cinco piezas producidas al final de la jornada. Los datos obtenidos para una herramienta se muestran a continuación:
a) ¿En este problema cuál variable se considera independiente y cuál dependiente? b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo de relación observa y cuáles son algunos hechos especiales? c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos). d) ¿La calidad del ajuste es satisfactoria? Argumente. e) Si el diámetro máximo tolerado es de 45, ¿cuántas horas de uso estima que tiene esa herramienta? f) Señale el valor de la pendiente de la recta e interprételo en términos prácticos. g) Obtenga el error estándar de estimación y comente qué relación tiene éste con la calidad del ajuste.
a) La variable independiente son las horas de uso y la variable variable dependiente es el diámetro de las piezas.
b) Diagrama de dispersión: se puede observar que existe una correlación lineal positiva entre las horas de uso y el diámetro, ya que conforme aumentan las horas de uso aumenta el diámetro. Gráfico de Diámetro vs Horas de uso
40 37 o r 34 t e m á i D 31
28 25 0
100
200 Horas de uso
300
400
c) Análisis de regresión, como podemos observar la línea recta que mejor explica la relación entre las horas de uso y el diámetro está dada por:
Diámetro = 24.8632 + 0.0464098*Horas de uso La cual se puede observar en el grafico del modelo ajustado:
Gráfico del Modelo Ajustado Diámetro = 24.8632 + 0.0464098*Horas de uso 40 37 o r 34 t e m á i D 31
28 25 0
100
200 Horas de uso
300
400
Prueba de Hipótesis: H0: β1= 0 o H0: El modelo no se ajusta H0: β1≠ 0 o H0: El modelo si se ajusta De acuerdo a la tabla de coeficientes podemos ver que si existe una pendiente, lo cual significa que entre las variables horas de uso y diámetro si existe una relación. Coeficientes Parámetro
Intercepto Pendiente
Mínimos Cuadrados Cuadrados
Estándar
Estimado
Error
24.8632 0.0464098
0.323206 0.00168629
Estadístico Estadístico T
Valor-P
76.9267 27.5218
0.0000 0.0000
Para poder rechazar o aceptar la hipótesis nula tenemos que tomar en cuenta el análisis de varianza del modelo, el cual se presenta a continuación: Análisis de Varianza Fuente
Modelo Residuo Total (Corr.)
Suma de Cuadrados
Gl
Cuadrado Medio
366.674 8.71365 375.388
1 18 19
366.674 0.484092
Razón-F
757.45
Valor-P
0.0000
Analizando esta tabla podemos concluir que el modelo si se ajusta ya que el valor-P es menor al nivel de confianza de 0.05, por ello podemos decir que con un nivel de confianza del 95% se rechaza la hipótesis nula.
Verificación de supuestos: El supuesto de varianza constante si se cumple ya que al graficar los residuos contra los predichos, los puntos caen aleatoriamente dentro de la banda horizontal sin que sigan algún patrón definido.
Gráfico de Residuos Diámetro = 24.8632 + 0.0464098*Horas de uso 1.2 0.8 0.4
o u d i s e r
0 -0.4 -0.8 -1.2 25
28
31 34 predicho Diámetro
37
40
El supuesto de independencia si se cumple ya que los puntos o residuos se encuentran dispersos de forma arbitraria dentro del grafico de residuos vs número de corrida, sin cumplir ninguna tendencia. Gráfico de Residuos Diámetro = 24.8632 + 0.0464098*Horas de uso 1.2 0.8 0.4 o u d i s e r
0 -0.4 -0.8 -1.2 0
4
8 12 número de fila
16
20
d) el coeficiente de determinación R 2ajustado es de 97.6788% lo cual indica que nuestro modelo tiene una calidad de ajuste satisfactoria, ya que explica el 97.6% de la variabilidad en Diámetro.
e) El valor sería de 433.89 horas a un diámetro de 45 mm, sin embargo realizar una extrapolación la cual está más allá de la región que contiene a las observaciones originales está mal ya que probablemente el modelo ya no se ajuste adecuadamente fuera de la región, ya que nuestra región de estudio va de 25.7 a 39.2 mm de diámetro.
f) el valor de la pendiente es de 0.0464098, esto nos indica la razón de cambio en el diámetro (y) con respecto al cambio de las horas de uso (x), es decir cuánto va a variar el diámetro cuando se varíen las horas de uso.
g) El error estándar de la estimación fue de 0.695767, lo cual indica que la calidad de ajuste de nuestro modelo es buena, ya que si el error estándar de estimación es menor la calidad del ajuste será mayor.
7. En un proceso de extracción se estudia la relación entre tiempo de extracción y rendimiento. Los datos obtenidos se muestran en la siguiente tabla.
a) ¿En este problema cuál variable se considera independiente y cuál dependiente? b) Mediante un diagrama de dispersión analice la relación entre estas dos variables. ¿Qué tipo de relación observa y cuáles son algunos hechos especiales? c) Haga un análisis de regresión (ajuste una línea recta a estos datos, aplique pruebas de hipótesis y verifique residuos). d) ¿La calidad del ajuste es satisfactoria? Argumente. e) Destaque el valor de la pendiente pendien te de la recta e interprételo en términos t érminos prácticos. f) Estime el rendimiento promedio que se espera a un tiempo de extracción de 2 minutos y obtenga un intervalo de confianza para esta estimación.
a) La variable dependiente es el % rendimiento y la variable independiente es el tiempo dado en minutos.
b) Diagrama de dispersión: se puede visualizar que no existe una relación ya que los puntos son muy dispersos, algunos incrementan y otros d ecrecen sin importar el tiempo, sin embargo se tendría que verificar los supuestos y comprobar si en verdad existe una relación entre el rendimiento y el tiempo, si no es asi los datos que miden la calidad de ajuste nos lo indicaran.
Gráfico de Rendimiento vs Tiempo
88 84 o 80 t n e i m76 i d n e R 72
68 64 8
10
12
14 Tiempo
16
18
20
c) Análisis de regresión, como podemos observar la línea recta que mejor explica la relación entre el tiempo y el porcentaje de rendimiento está dada por:
Rendimiento = 57.9578 + 1.19492*Tiempo La cual se puede observar en el grafico del modelo ajustado: Gráfico del Modelo Ajustado Rendimiento = 57.9578 + 1.19492*Tiempo 88 84 o 80 t n e i m 76 i d n e R 72
68 64 8
10
12
14 Tiempo
16
18
20
Prueba de Hipótesis: H0: β1= 0 o H0: El modelo no se ajusta H0: β1≠ 0 o H0: El modelo si se ajusta De acuerdo a la tabla de coeficientes podemos ver que si existe una pendiente, lo cual significa que entre las variables tiempo y porcentaje de rendimiento si existe una relación. Coeficientes Mínimos Cuadrados Cuadrados
Estándar
Parámetro
Estimado
Error
Intercepto Pendiente
57.9578 1.19492
6.28403 0.414959
Estadístico T
Valor-P
9.22303 2.87962
0.0000 0.0164
Para poder rechazar o aceptar la hipótesis nula tenemos que tomar en cuenta el análisis de varianza del modelo, el cual se presenta a continuación: Análisis de Varianza Fuente
Modelo Residuo Total (Corr.)
Suma de Cuadrados
Gl
Cuadrado Medio
243.684 293.872 537.557
1 10 11
243.684 29.3872
Razón-F
8.29
Valor-P
0.0164
Analizando esta tabla podemos concluir que el modelo si se ajusta ya que el valor-P es menor al nivel de confianza de 0.05, por ello podemos decir que con un nivel de confianza del 95% se rechaza la hipótesis nula.
Verificación de supuestos: El supuesto de varianza constante si se cumple ya que los puntos se encuentran dispersos de forma aleatoria por toda la gráfica a lo largo de la banda horizontal. Gráfico de Residuos Rendimiento Rendimiento = 57.9578 + 1.1949 2*Tiempo 7.5
4.5
o u d i s e r
1.5
-1.5
-4.5
-7.5 67
70
73 76 predicho Rendimiento Rendimiento
79
82
El supuesto de independencia si se cumple ya que los puntos o residuos se encuentran dispersos de forma arbitraria dentro del gráfico de residuos vs número de corrida, sin cumplir ninguna tendencia. Gráfico de Residuos Rendimiento = 57.9578 + 1.19492*Tiempo 7.5 4.5 o u d i s e r
1.5
-1.5 -4.5 -7.5 0
2
4
6 número de fila
8
10
12
d) el coeficiente de determinación R 2ajustado es de .3986 lo cual indica que nuestro modelo no tiene una buena calidad de ajuste, ya que solo nos explica el 39.865% de la variabilidad 2
en Rendimiento. Además en general, para fines de predicción se recomienda un R ajustado de al menos 0.7 o 70% de explicación del modelo.
e) el valor de la pendiente es de 1.19492, esto nos indica la razón de cambio en el %Rendimiento (y) con respecto al cambio de Tiempo(x), es decir cuánto va a variar el Rendimiento cuando se varíe el tiempo.
f) Se podría calcular el valor que piden con respecto a los 2 min, sin embargo realizar una extrapolación la cual está más allá de la región que contiene a las observaciones originales está mal ya que probablemente el modelo ya no se ajuste adecuadamente fuera de la región, ya que nuestra región de estudio va de 8 a 20 min de Tiempo.
9. En una industria se desea investigar cómo influye la temperatura (°C) en la presión del vapor de B-trimetilboro, los datos obtenidos para tal propósito se muestran en la siguiente tabla.
a) Construya un diagrama de dispersión e interprételo. b) Ajuste una línea recta y observe la calidad de ajuste. c) Señale el valor de la pendiente de la recta e interprételo en términos prácticos. d) Observe la gráfica de residuales contra predichos, ¿nota algo relevante? e) ¿Está satisfecho con el modelo ajustado? Argumente. f) ¿Hay algún otro modelo que puede funcionar mejor? Proponga uno de los que se explicaron al inicio del capítulo.
a) Diagrama de dispersión si existe una fuerte relación entre la temperatura y la presión, pero no se puede pu ede decir que qu e siguen una relación lineal, ya que claramente podemos observar una curva exponencial. Gráfico de Presión vs Temperatura
180 150 120
n ó i s 90 e r P
60 30 0 0
20
40 60 Temperatura
80
100
b) Análisis de regresión, como podemos observar la línea recta que mejor explica la relación entre el tiempo y el porcentaje de rendimiento está dada por:
Presión = -47.9351 + 2.21299*Temperatura La cual se puede observar en el grafico del modelo ajustado: Gráfico del Modelo Ajustado Presión = -47.9351 + 2. 21299*Temperatura 180 150 120 n ó i s e r P
90 60 30 0 0
20
40 60 Temperatura
80
100
c) el valor de la pendiente es de 2.21299, esto nos indica la razón de cambio en la Presión (y) con respecto al cambio de la Temperatura (°C), es decir cuánto va a variar el Rendimiento cuando se varíe el tiempo.
d) En el gráfico de residuos vs predichos se observa que los puntos siguen una tendencia formando una curva cóncava, lo cual indica que no se cumple el supuesto de varianza constante.
Gráfico de Residuos Presión = -47.9351 + 2.21299*Temperatura 40
20 o u d i s e r
0
-20
-40 -20
10
40
70 100 predicho Presión
130
160
e y f) No ya que se observa que los datos no poseen una relación lineal, por eso sería mejor realizar una regresión exponencial o linealizar los datos a plicando logaritmo, para asi obtener el modelo que mejor ajustaría estos datos, el cual sería:
2
La cual nos daría una R ajustada de 97.77%, explicando el modelo en un 97%, esto se puede observar en la gráfica del modelo ajustado.
Gráfico del Modelo Ajustado Presión = exp(0.764141 + 0.0538051*Temperatura) 180 150 120 n ó i s e r P
90 60 30 0 0
20
40 60 Temperatura
80
100
Donde la mejor ecuación que explica el modelo es:
Presión = exp(0.764141 + 0.0538051*Temperatura)
11. A partir de la siguiente tabla de datos realice los cálculos necesarios y complete una tabla similar a la 11.2.
a) Realice los cálculos indicados en la tabla. b) Con base en lo anterior, construya la tabla de análisis de regresión para la recta de regresión (tabla 11.4) y el análisis de varianza (tabla 11.5). c) A partir de lo anterior obtenga conclusiones. d) Obtenga el coeficiente de determinación y valore la calidad del ajuste.
14. En una fábrica de pintura se quiere reducir el tiempo de secado del barniz. Los siguientes datos corresponden al tiempo de secado del barniz (en horas) y a la cantidad de aditivo con el que se intenta lograr tal reducción.
a) Mediante un diagrama de dispersión investigue la relación entre el tiempo de secado y la cantidad de aditivo. b) Con base en la relación, ¿qué cantidad de aditivo recomendaría para reducir el tiempo de secado? c) Obtenga el coeficiente de correlación entre ambas variables e interprételo. d) Al parecer, el coeficiente de correlación lineal es muy bajo, ¿esto significa que el tiempo de secado no está relacionado con la cantidad de aditivo? e) ¿Usted cree que sea correcto ajustar una línea recta? f) Proponga el modelo que crea adecuado, ajústelo y haga un análisis de regresión completo para tal modelo.
a) Diagrama de dispersión no muestra ninguna relación ya que al parecer el tiempo de secado no muestra un incremento o decremento cuando se le varía la cantidad de aditivo. De hecho este grafico presenta cierta similitud a los modelos de las funciones de una parábola.
Gráfico de Tiempo de s ecado vs Cantidad Cantidad de a ditivo ditivo
15.5
o 13.5 d a c e s e 11.5 d o p m e i T9.5
7.5 0
2
4 6 Cantidad de aditivo
8
10
b) con base a la gráfica de dispersión y a los datos obtenidos la cantidad de aditivo que recomendaría para bajar la concentración del tiempo de secado sería de 4.
c) el coeficiente de correlación es igual a 0.334001, indica una relación relativamente débil entre las variables.
d) el coeficiente de correlación es muy bajo, lo cual indica que la relación entre las variables no es significativa.
e) No es correcto ajustar el modelo a una línea recta, ya que podemos ver claramente que los puntos no se alinean y se encuentran muy dispersos, además la forma del grafico es como una función de una parábola.
f) El modelo cuadrático fue el que obtuvo el mayor ajuste en el modelo sin embargo solo fue de un 22.56% por debajo del 70% para qué el modelo sea adecuado.
Tiempo de secado = 9.616 + 0.0382442*Cantidad de aditivo^2 Gráfico del Modelo Ajustado Tiempo de secado = 9.616 + 0.0382442*Cantidad de aditivo^2 15.5
o 13.5 d a c e s e d 11.5 o p m e i T 9.5
7.5 0
2
4 6 Cantidad de aditivo
8
10