DISEÑO EXPERIMENTAL Taller N°1 Angie Carolina Muriel Esteban Duque Mesa Jaidy Moreno Yulian Múnera Carolina Rodríguez Pelayo 1. Muestre que a partir de la siguiente expresión:
El coeficiente de determinación ( ) se puede escribir como:
Demostración:
Entonces:
CASO DE ESTUDIO 1 Rojas y otros (1990) investigaron la capacidad de absorción de metales pesados, entre ellos el cadmio, por la Pistia stratiotis L. Las plantas se sembraron en estanques con agua contaminada. Parte del experimento consistió en medir el cadmio absorbido por las plantas (en μg Cd/g planta seca) en las primeras 96
horas luego de haber contaminado el agua con 3.0 ppm de cadmio. En cada tiempo se hicieron cuatro repeticiones y los resultados fueron:
Tiempo (h)
0 28,3 27,6 33,4 21,4
24 195,6 217,2 274,3 269,2
48 340,0 300,0 430,9 425,5
72 286,7 289,9 431,8 568,8
96 514,6 518,0 664,7 650,8
1. ECUACION AJUSTADA DEL MODELO LINEAL
Normal Q-Q Plot
0 0 1
0 5 s e l i t n 0 a u Q e l p 0 m 5 a S 0 0 1 0 5 1 -
-2
-1
0 Theoretical Quantiles
1
2
INTERPRETACION: El valor de del parámetro es diferente de cero indica que existe una relación lineal entre el tiempo de exposición de la planta al agua contaminada y la absorción de cadmio. Además según el modelo puede decirse que hay un aumento de 5.308 ppm de cadmio por cada hora que la planta permanezca expuesta al agua contaminada.
2. VALIDACION DEL SUPUESTO DE LINEALIDAD
Prueba de hipótesis:
Nivel de significancia: α= 0,05
Estadístico de prueba: F cal= 90,567 Región de rechazo: Rechazo H 0 si Fcal> Fα; 1; n-2 Dónde: F0,05; 1; 18 = 4,413873
INTERPRETACION: Hay suficiente información para rechazar la hipótesis nula; se define entonces con un nivel de confianza del 95% que el valor de la pendiente es diferente de cero lo que indica una relación lineal entre el tiempo de exposición y la cantidad de cadmio absorbido por la planta.
3. ANALISIS DE AJUSTE DE MODELO
72.5; 4516.9; 12521.8; 54333.6 20110.5;
De la tabla ANOVA antes mostrada SCEP= 91555.3
De los datos anteriores se realiza la tabla ANOVA ampliada
FUENTE DE VARIACION Regresión Error Total Error puro Falta de ajuste
SC
Gl
CM
F
649154 129018 778172 91555.3 37462.7
1 18 19 15 3
649154 7168 6103.7 12487.6
90.567 2.04
Prueba de Hipótesis:
Nivel de significancia: α= 0,05
Estadístico de prueba: F cal= 2.04 Región de rechazo: Rechazo H 0 si Fcal> Fα; m-2; n-m Dónde: F0,05; 3; 15 = 3.287382
INTERPRETACION: No hay suficiente información para rechazar la hipótesis nula, por lo cual se puede decir que el modelo lineal de absorción de cadmio por la planta a través del tiempo con el 95% de confianza no presenta falta de ajuste. El modelo propuesto es bueno para la adaptación de los datos obtenidos.
4. COEFICIENTE DE DETERMINACIÓN
Del resumen del modelo
→ INTERPRETACION: Este valor tan alto obtenido nos dice que el ajuste del modelo es bueno. De este valor del coeficiente de determinación se puede concluir que el 83.42% de la absorción de cadmio por la planta se debe al cambio en el tiempo y no a otros factores aleatorios.
5. COMPROBACIÓN DE LA SIGNIFICANCIA ESTADÍSTICA Para la comprobación se evalúan los tres supuestos de la regresión
DISTRIBUCION DE LOS RESIDUALES
0 0 1
0 5
s e l a u d i s e r
0
0 5 -
0 0 1 -
0 5 1 -
100
200
300
400
500
valores.ajustados
Prueba de hipótesis:
Nivel de significancia: α= 0,05
Región de rechazo: Rechazo H 0 si P-value < α Dónde: P-value = 0.1648 > 0.05
INTERPRETACION: No se rechaza lo que indica una distribución normal de los errores y más profundamente dice que los errores no siguen un patrón
específico ni aumentan o disminuyen conforme lo hacen el tiempo y la concentración de cadmio.
VARIANZA DE LOS RESIDUALES ES CONSTANTE
0 0 1
0 5
s e l a u d i s e r
0
0 5 0 0 1 0 5 1 -
5
10
15
20
tiempo
Nivel de significancia: α= 0,05
Región de rechazo: Rechazo H 0 si P-value < α Dónde: P-value = 0.002732 < 0.05
INTERPRETACION: Hay suficiente información para rechazar la , por lo tanto, la varianza de los errores no es constante, esto no nos dice que se debe abandonar el modelo pues lo que explica el valor no constante de la varianza de los residuales es la cantidad reducida de datos por cada valor de X. es
decir, como no se presentan varios valores de Y para cada valor de la variable X, el análisis de la homogeneidad de las varianzas no se puede realizar; no hay más de una varianza.
INDEPENDENCIA DE LOS ERRORES
Prueba de hipótesis:
Nivel de significancia: α= 0,05
Región de rechazo: Rechazo H 0 si P-value < α Dónde: P-value = 0.1781 > 0.05
INTERPRETACION: No se rechaza , no hay suficiente información para rechazar la hipótesis nula, por lo tanto se puede decir que los residuales tienen independencia y que la muestra tomada es aleatoria.
CASO DE ESTUDIO 2 Giraldo y Vargas (1991) investigaron la morfometría de J. lamprotaenia (sardina azulita) en las Islas del Rosario, departamento de Bolívar, Colombia. Entre otras características, midieron la longitud estándar de sardinas hembras en tres estaciones de muestreo: fondo arenoso, manglar y pasto marino. Los siguientes datos (en cm) representan parte de los datos obtenidos por las investigadoras. Fondo Arenoso Manglar Fondo Marino
4,09 4,14 3,85 4,04 3,21 4,27 3,81 4,02 3,08 4,72 4,03 4,07 3,83 3,8 3,96 4,05 3,47 3,89 3,46 3,94 3,58 4,03 3,68 3,76 3,91 3,32 4,21 3,86 4,02 3,78 4,19 4,27 3,65 3,99 3,61 3,55 3,41 3,82 4,11 3,6 3,9 3,99 3,94 3,35
1. OBJETIVO DEL ESTUDIO Determinar si la estación de muestreo: fondo arenoso, manglar y marino, (pueden dar razón de disponibilidad de alimento) tiene algún efecto sobre la longitud (cm) de las sardinas hembra de la especie J. lamprotaenia.
2. METODOLOGIA ESTADISTICA
Unidad experimental: Sardina hembra de la especie J. lamprotaenia Variable respuesta: Longitud de cuerpo (cm) Factor: estación de muestreo Niveles: arenoso, manglar, marino. Tratamientos: arenoso, manglar, marino.
El tipo de modelo de diseño que solucionaría el problema de manera estadística es un diseño completamente aleatorizado de efectos fijos desbalanceado porque el experimentador está seleccionando los niveles a los cuales desea estudiar el efecto que se produce en la longitud corporal de los objetos de estudio y el número de muestras tomadas para cada tratamiento es diferente. Una forma posible para aleatorizar el experimento es que se haga un recorrido en el tramo de estudio en el cual cada 10 m se haga colecta de 5 individuos por estación de muestreo y se pongan el total de los individuos para cada una de las 3 en bolsas de las cuales posteriormente se tomaran al azar la cantidad de individuos que se desea estudiar por estación.
Modelo estadístico Se emplea un modelo de efectos fijos, puesto que los niveles del factor han sido seleccionados por las investigadoras, de modo que los efectos fijados son los niveles del factor: fondo arenoso, manglar y pasto marino .
Dónde:
=
Es la longitud (cm) de las hembras de la especie J. lamprotaenia, medida en el i-ésimo tratamiento en la j-ésima replica.
= media general = Efecto debido al i-ésimo tratamiento sobre
la longitud (cm) de J.
lamprotaenia
= Error aleatorio debido a los factores controlados y no controlados ¿CÓMO SE ALEATORIZA EL EXPERIMENTO? La aleatorización del experimento se puede llevar a cabo depositando las sardinas J. lamprotaenia que se hallaban en un estadío temprano de su ciclo de vida (alevinos), en cada uno de los hábitats: fondo arenoso, manglar y pasto marino; después se toman aleatoriamente y se evalúa el crecimiento en longitud estándar para dichos hábitats.
HIPOTESIS A PROBAR
Las medias de los tratamientos no son diferentes, por lo tanto los tratamientos de fondo arenoso, manglar y marino no tienen un efecto diferente sobre la longitud de los especímenes
Al menos dos medias son diferentes, es decir, al menos uno de los tratamientos tiene un efecto diferente sobre la longitud de las sardinas.
3. CÁLCULOS TABLA ANOVA
Región de rechazo: Rechazo Dónde:
si F > Fα; a-1; N-a
INTERPRETACION: No se rechaza H 0. Las estaciones de muestreo de fondo arenoso, manglar y pasto marino no presentan ningún efecto directo en la longitud (cm) de los especímenes hembras de la especie J. lamprotaenia.
VALIDACIÓN DE LOS SUPUESTOS DEL ERROR
DISTRIBUCION NORMAL DE LOS ERRORES
Nivel de significancia: Región de rechazo: Rechazo si Dónde: INTERPRETACION: No se rechaza , no hay suficiente información para rechazar la hipótesis nula por lo tanto, la distribución de los residuales es normal.
5 . 0
s e l a u d i s e r
0 . 0
5 . 0 -
3.82
3.84
3.86
3.88
3.90
3.92
3.94
valores.ajustados
VARIANZA DE LOS ERRORES CONSTANTE
Nivel de significancia: Región de rechazo: Rechazo si Dónde: INTERPRETACION: No se rechaza , no hay suficiente información para
rechazar la hipótesis nula por lo tanto, la varianza de los errores es
constante.
5 . 0
s e l a u d i s e r
0 . 0
5 . 0 -
0
10
20
30
40
TRATAMIENTO
INDEPENDENCIA DE LOS ERRORES
Nivel de significancia: Región de rechazo: Rechazo si Dónde: INTERPRETACION: Se rechaza , hay suficiente
información para rechazar la hipótesis nula, por lo tanto se puede decir que los residuales no
tienen independencia y que la muestra tomada no es aleatoria o que el modo de aleatorización no fue el adecuado.
CONTROL LOCAL DEL EXPERIMENTO
Donde se realizó una relación de y se obtuvo Es decir, la suma de cuadrados del error es veces más grande que la suma de cuadrados del tratamiento; lo que indica que el control local ejercido en este experimento no fue suficiente o adecuado, o que los factores externos fueron tan fuertes que no permitieron una medición o demás procesos posibles y necesarios para la obtención de datos confiables.
4) No es necesario realizar prueba post anova, ya que las estaciones de muestreo en el fondo arenoso, manglar y pasto marino no presentan ningún efecto directo en la longitud (cm) de los especímenes hembras de la especie J. lamprotaenia según lo muestra la prueba de hipótesis (las medias no presentan diferencias) . La post anova solo se realiza cuando existen diferencias, buscando patrones o relaciones, entre los grupos de las poblaciones muestreadas, donde se puede encontrar falsos positivos; ella permite obtener mayor certeza sobre los resultados de un experimento. 5) La media general en el muestro (media de todas las unidades experimentales) es 3.84. Este resultado no tiene sentido en la práctica, ya que no existen diferencias entre las medias de las estaciones de muestreo.