Universidad Nacional de Cajamarca Escuela Académico Profesional de Ingeniería Civil
CURSO
:
ESTADÍSTICA APLICADA
TEMAS
:
ESTIMACIÓN DE PARÁMETROS PUEBAS DE HIPOTESIS ANALISIS DE VARIANZA VARIANZA (ANOVA) (ANOVA)
PROFESOR
:
Mg. MACETAS HERNÁNDEZ, Miguel Ángel
ALUMNOS
:
PAREDES GARRIDO, Deener Olavi BUENO HERRERA, Pablo Enrique
CICLO
:
III
GRUPO
:
B
Cajamarca, Julio del 2013
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
I.
INTRO DUC CIÓN. CIÓN.
Al realizar una investigación investigación estadística a menudo se sabe o se supone que la población definida por una variable aleatoria x (discreta o continua), de la cual se selecciona una muestra aleatoria, tiene una forma funcional específica f(x) cuyos parámetros se intenta determinar. Si el parámetro desconocido que queremos determinares denotado por θ, entonces, la distribución de la población de x será denotada por f(x, θ).
Los métodos de inferencia estadística, básicamente consisten n seleccionar una muestra aleatoria de la población en estudio, y con la información que se obtenga de esta llegar a: a) Estimar el valor o los posibles valores del parámetro desconocido. b) Tomar la decisión de aceptar o rechazar una afirmación hecha sobre el valor o los posibles valores del parámetro desconocido. El primero de estos dos procedimientos se denomina estimación de parámetros. El segundo método se conoce como prueba de hipótesis del parámetro. El método de estimación de un parámetro puede ser puntual o por intervalo. En el primer caso, la estimación del parámetro es un número. Mientras que en el segundo caso la estimación del parámetro es un intervalo de los posibles valores que puede tener. II.
OBJETIVOS.
1. Estimar los valores de los parámetros de resistencia a la compresión simple de los ensayos realizados. 2. Realizar la estimación de parámetros para las distribuciones más importantes de variables aleatorias continuas. III.
MA RCO TEÓRICO. TEÓRICO.
En inferencia estadística se llama estimación al conjunto de técnicas que permiten dar un valor aproximado de un parámetro de una población a partir de los datos proporcionados por una muestra. Por ejemplo, una estimación de la media de una determinada característica de una población de tamaño N podría ser la media de esa misma característica para una muestra de tamaño n.1 La estimación se divide en tres grandes bloques, cada uno de los cuales tiene distintos métodos que se usan en función de las características y propósitos del estudio:
1
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Estimación puntual:
Método de los momentos;
Método de la máxima verosimilitud;
Método de los mínimos cuadrados; Estimación por intervalos. Estimación bayesiana. Estimador
Estimación puntual Consiste en la estimación del valor del parámetro mediante un sólo valor, obtenido de una fórmula determinada. Por ejemplo, si se pretende estimar la talla media de un determinado grupo de individuos, puede extraerse una muestra y ofrecer como estimación puntual la talla media de los individuos. Lo más importante de un estimador, es que sea un estimador eficiente. Es decir, que sea insesgado (ausencia de sesgos) y estable en el muestreo o eficiente (varianza mínima) Estimación puntual Sea X una variable poblacional con distribución Fθ , siendo θ
desconocido. El problema de estimación puntual consiste en, seleccionada una muestra X1, ..., Xn, encontrar el estadístico T(X1, ..., Xn) que mejor estime el parámetro θ. Una vez observada o realizada la muestra, con valores x1, ..., xn, se obtiene la estimación puntual de θ, T(x1, ..., xn) = ˆ θ . Vemos a continuación dos
métodos para obtener la estimación puntual de un parámetro: método de los momentos y método de máxima verosimilitud. Método de los momentos: consiste en igualar momentos poblacionales a momentos muestrales. Deberemos tener tantas igualdades como parámetros a estimar. Momento poblacional de orden r αr = E(Xr ) Momento muestral de orden r ar = Xn i=1 Xr i n Método de máxima verosimilitud: consiste en tomar como valor del parámetro aquel que maximice la probabilidad de que ocurra la muestra observada. Si X1, ..., Xn es una muestra seleccionada de una población con distribución Fθ o densidad fθ(x), la probabilidad de que ocurra una realización x1, ..., xn viene dada por: Lθ(x1, ..., xn) = Yn i=1 fθ(xi ) A Lθ(x1, ..., xn) se le llama función de verosimilitud.(credibilidad de
la muestra observada). Busca mos entonces el valor de θ que maximice la función de verosimilud, y al valor obtenido se le llama estimación por máxima verosimilitud de θ. Nota: si la variable X es discreta, en lugar de fθ(xi ) consideramos la función masa de probabilidad pθ(xi ). Ejemplo 7.1: Sea X → N(µ, σ), con µ desconocido.
Seleccionada una m.a.s. X1, ..., Xn, con realización x1, ..., xn, estimamos el parámetro µ por ambos métodos. Según el método de los momentos: E(X) = Xn
2
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
i=1 Xi n = − X, y al ser µ = E(X) se obtiene que ˆ µ = − x. Por el método de máxima verosimilitud: Lµ(x1, ..., xn) = Yn i=1 fµ(xi ) = = Yn i=1 1 √ 2πσ e −(xi−µ) 2 2σ
Estimación por Intervalos de confianza 109 y maximizamos en µ tal función; en este caso resulta más fácil maximizar su logaritmo: lnLµ(x1, ..., xn ) = − 1 2σ 2 Xn i=1 (xi − µ) 2 − n ln( √ 2πσ) ∂ ∂µ lnLµ(x1, ..., xn) = 1 σ 2 Xn i=1 (xi − µ) = n − x − nµ σ 2 = 0 ⇐⇒ ˆ µ = − Estimación por intervalos Consiste en la obtención de un intervalo dentro del cual estará el valor del parámetro estimado con una cierta probabilidad. En la estimación por intervalos se usan los siguientes conceptos: Intervalo de confianza El intervalo de confianza es una expresión del tipo [θ1, θ2] ó θ1 ≤ θ ≤ θ2, donde θ es el parámetro a estimar. Este intervalo contiene al parámetro estimado con una determinada certeza o nivel de confianza. Pero a veces puede cambiar este intervalo cuando la muestra no garantiza un axioma o un equivalente circunstancial. Variabilidad del Parámetro Si no se conoce, puede obtenerse una aproximación en los datos aportados por la literatura científica o en un estudio piloto. También hay métodos para calcular el tamaño de la muestra que prescinde de este aspecto. Habitualmente se usa como medida de esta variabilidad la desviación típica poblacional y se denota σ. Error de la estimación Es una medida de su precisión que se corresponde con la amplitud del intervalo de confianza. Cuanta más precisión se desee en la estimación de un parámetro, más estrecho deberá ser el intervalo de confianza y, si se quiere mantener o disminuir el error, más ocurrencias deberán incluirse en la muestra estudiada. En caso de no incluir nuevas observaciones para la muestra, más error se comete al aumentar la precisión. Se suele llamar E, según la fórmula E = θ2 - θ1. Límite de Confianza Es la probabilidad de que el verdadero valor del parámetro estimado en la población se sitúe en el intervalo de confianza obtenido. El nivel de confianza se denota por (1- α), aunque habitualmente suele expresarse con un porcentaje ((1 α)·100%). Es habitual tomar como nivel de confianza un 95% o un 99%, que se corresponden con valores α de 0,05 y 0,01 respectivamente. 3
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Valor α
También llamado nivel de significación. Es la probabilidad (en tanto por uno) de fallar en nuestra estimación, esto es, la diferencia entre la certeza (1) y el nivel de confianza (1-α). Por ejemplo, en una estimación con un nivel de confianza del 95%, el valor α es (100 -95)/100 = 0,05 Valor crítico Se representa por Zα/2. Es el valor de la abscisa en una determinada distri bución que deja a su derecha un área igual a α/2, siendo 1 -α el nivel de confianza.
Normalmente los valores críticos están tabulados o pueden calcularse en función de la distribución de la población. Por ejemplo, para una distribución normal, de media 0 y desviación típica 1, el valor crítico para α = 0,1 se calcularía del siguiente modo: se busca en la tabla de la distribución ese valor (o el más aproximado), bajo la columna "Área"; se observa que se corresponde con -1,28. Entonces Zα/2 = 1,64. Si la media o desviación típica de la distribución normal no coinciden con las de la tabla, se puede realizar el cambio de variable t =(X- μ)/σ para su cálculo. Con estas definiciones, si tras la extracción de una muestra se dice que "3 es una estimación de la media con un margen de error de 0,6 y un nivel de confianza del 99%", podemos interpretar que el verdadero valor de la media se encuentra entre 2,7 y 3,3, con una probabilidad del 99%. Los valores 2,7 y 3,3 se obtienen restando y sumando, respectivamente, la mitad del error, para obtener el intervalo de confianza según las definiciones dadas. Para un tamaño fijo de la muestra, los conceptos de error y nivel de confianza van relacionados. Si admitimos un error mayor, esto es, aumentamos el tamaño del intervalo de confianza, tenemos también una mayor probabilidad de éxito en nuestra estimación, es decir, un mayor nivel de confianza. Otros usos del término El término estimación también se utiliza en ciencias aplicadas para hacer referencia a un cálculo aproximado, que normalmente se apoya en la herramienta estadística aunque puede no hacerlo. En este sentido, un ejemplo clásico son los poco conocidos pero útiles en economía problemas de Fermi.
4
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
PRUEBA DE HIPÓTESIS Hipótesis estadísticas Un test estadístico es un procedimiento para, a partir de una muestra aleatoria y significativa, extraer conclusiones que permitan aceptar o rechazar una hipótesis previamente emitida sobre el valor de un parámetro desconocido de una población. La hipótesis emitida se designa por H 0 y se llama hipótesis nula. La hipótesis contraria se designa por H 1 y se llama hipótesis alternativa. Contrastes de hipótesis 1. Enunciar la hipótesis nula H 0 y la alternativa H1. Bilateral
H0=k
H1 ≠ k
H0≥ k
H1 < k
H0 ≤k
H1> k
Unilateral
2. A partir de un nivel de confianza 1 − α o el de significación α . Determinar: El valor zα/2 (bilaterales), o bien z α (unilaterales) La zona de aceptación del parámetro muestral (x o p'). 3. Calcular: x o p', a partir de la muestra. 4. Si el valor del parámetro muestral está dentro de la zona de la aceptación, se acepta la hipótesis con un nivel de significación α. Si no, se rechaza .
Contraste bilateral Se presenta cuando la hipótesis nula es del tipo H 0: μ = k (o bien H0: p = k) y la hipótesis alternativa, por tanto, es del tipo H 1: μ≠ k(o bien H1: p≠ k).
El nivel de significación α se concentra en dos partes (o colas) simétricas respecto
de la media. 5
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
La región de aceptación en este caso no es más que el correspondiente intervalo de probabilidad para x o p', es decir:
O bien:
Se sabe que la desviación típica de las notas de cierto examen de Matemáticas es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven estos datos para confirmar la hipótesis de que la nota media del examen fue de 6, con un nivel de confianza del 95%? 1. Enunciamos las hipótesis nula y alternativa: H0 : μ = 6 La nota media no ha variado. H1 : μ ≠ 6 La nota media ha variado. 2. Zona de aceptación Para α = 0.05, le corresponde un valor crítico: z α/2 = 1.96. Determinamos el intervalo de confianza para la media: (6-1,96 · 0,4 ; 6+1,96 · 0,4) = (5,22 ; 6,78) 3. Verificación. Valor obtenido de la media de la muestra: 5,6. 4. Decisión Aceptamos la hipótesis nula H 0, con un nivel de significación del 5%. Contraste unilateral Caso 1 La hipótesis nula es del tipo H 0: μ ≥ k (o bien H0: p ≥ k ). La hipótesis alternativa, por tanto, es del tipo H 1: μ < k (o bien H1: p < k). Valores críticos 1−α
α
zα
0.90
0.10
1.28
0.95
0.05
1.645
0.99
0.01
2.33
6
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
El nivel de significación α se concentra en una parte o cola. La región de aceptación en este caso será:
O bien:
Un sociólogo ha pronosticado, que en una determinada ciudad, el nivel de abstención en las próximas elecciones será del 40% como mínimo. Se elige al azar una muestra aleatoria de 200 individuos, con derecho a voto, 75 de los cuales estarían dispuestos a votar. Determinar con un nivel de significación del 1%, si se puede admitir el pronóstico. 1. Enunciamos las hipótesis nula y alternativa: H0 : μ ≥ 0.40 La abstención será como mínimo del 40%. H1 : μ < 0.40 La abstención será como máximo del 40%; 2. Zona de aceptación Para α = 0.01, le corresponde un valor crítico: z α = 2.33. Determinamos el intervalo de confianza para la media:
3. Verificación.
7
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
4. Decisión Aceptamos la hipótesis nula H0. Podemos afirmar, con un nivel de significación del 1%, que la abstención será como mínimo del 40%. Caso 2 La hipótesis nula es del tipo H 0: μ ≤ k (o bien H0: p ≤ k ). La hipótesis alternativa, por tanto, es del tipo H 1: μ > k (o bien H1: p > k).
El nivel de significación α se concentra en la otra parte o cola.
La región de aceptación en este caso será:
O bien:
Un informe indica que el precio medio del billete de avión entre Canarias y Madrid es, como máximo, de 120 € con una desviación típica de 40 €. Se toma una muestra de 100 viajeros y se obtiene que la media de los precios de sus billetes es de 128 €.
¿Se puede aceptar, con un nivel de significación igual a 0,1, la afirmación de partida?
8
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
1. Enunciamos las hipótesis nula y alternativa: H0 : μ ≤ 120 H1 : μ > 120 2. Zona de aceptación Para α = 0.1, le corresponde un valor crítico: z α = 1.28. Determinamos el intervalo de confianza:
3. Verificación. Valor obtenido de la media de la muestra: 128 €. 4. Decisión. No aceptamos la hipótesis nula H 0. Con un nivel de significación del 10%. Errores de tipo I y tipo II Error de tipo I. Se comete cuando la hipótesis nula es verdadera y, como consecuencia del contraste, se rechaza. Error de tipo II. Se comete cuando la hipótesis nula es falsa y, como consecuencia del contraste se acepta. La probabilidad de cometer Error de tipo I es el nivel de significación α. La probabilidad de cometer Error de tipo II depende del verdadero valor del parámetro. Se hace tanto menor cuanto mayor sea n.
ANÁLISIS DE LA VARIANZA (ANOVA)
1. Introducción El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar repetidamente el contraste basado en la t de Student. Por dos motivos: En Primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis, la probabilidad de encontrar alguno significativo por azar aumentaría. En cada contraste se rechaza la H0 si la t supera el nivel crítico, para lo que, en la hipótesis nula, hay una probabilidad . Si se realizan m contrastes independientes, la probabilidad de que, en la hipótesis nula, ningún estadístico supere el valor crítico es (1 - ) m, por lo tanto, la probabilidad de que alguno lo supere es 1 - (1 - ) m, que para valores de próximos a 0 es aproximadamente igual a m. Una primera solución, denominada método de Bonferroni, consiste en 9
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
bajar el valor de , usando en su lugar /m, aunque resulta un método muy conservador.
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que todas las muestras provienen de la m H0 Verdadera Falsa i s Decisón m correcta Decisión incorrecta: a Aceptar Probabilidad = ERROR DE TIPO II p 1−α o b l ERROR DE a TIPO I c Rechazar Decisión correcta i Probabilidad = ó α n y, sin embargo, para cada comparación, la estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de experimentos y, de alguna manera, es la base del análisis multivariante. 2. Bases del análisis de la varianza Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única población normal. A partir de ellas existen dos maneras independientes de estimar la varianza de la población 2: 1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula como la media de las k varianzas muestrales (cada varianza muestral es un estimador centrado de 2 y la media de k estimadores centrados es también un estimador centrado y más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de 10
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los términos independientes de la suma de cuadrados.
2) Otra llamada varianza entre grupos (sólo contribuye a ella la varianza entre las distintas muestras), o varianza de los tratamientos, o cuadrados medios de los tratamientos y representada por MSA o MSB (Mean Square Between). Se calcula a partir de la varianza de las medias muestrales y es también un cociente; al numerador se le llama suma de cuadrados de los tratamientos (se le representa por SSA) y al denominador (k-1) grados de libertad. MSA y MSE, estiman la varianza poblacional en la hipótesis de que las k muestras provengan de la misma población. La distribución muestral del cociente de dos estimaciones independientes de la varianza de una población normal es una F con los grados de libertad correspondientes al numerador y denominador respectivamente, por lo tanto se puede contrastar dicha hipótesis usando esa distribución. Si en base a este contraste se rechaza la hipótesis de que MSE y MSA estimen la misma varianza, se puede rechazar la hipótesis de que las k medias provengan de una misma población. Aceptando que las muestras provengan de poblaciones con la misma varianza, este rechazo implica que las medias poblacionales son distintas, de modo que con un único contraste se contrasta la igualdad de k medias. Existe una tercera manera de estimar la varianza de la población, aunque no es independiente de las anteriores. Si se consideran las kn observaciones como una única muestra, su varianza muestral también es un estimador centrado de s 2: Se suele representar por MST, se le denomina varianza total o cuadrados medios totales, es también un cociente y al numerador se le llama suma de cuadrados total y se representa por SST, y el denominador (kn -1) grados de libertad. Los resultados de un anova se suelen representar en una tabla como la siguiente: Fuente de variación G.L.
SS
MS
F
Entre grupos k-1 Tratamientos
SSA
SSA/(k-1)
MSA/MSE
Dentro Error
(n-1)k
SSE
SSE/k(n-1)
Total
kn-1
SST
Y el cociente F se usa para realizar el contraste de la hipótesis de medias iguales. La región crítica para dicho contraste es F > F (k-1,(n-1)k). 11
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Algunas propiedades Es fácil ver en la tabla anterior que GLerror + GLtrata = (n - 1) k + k - 1 = nk - k + k - 1 = nk - 1 = GL total No es tan inmediato, pero las sumas de cuadrados cumplen la misma propiedad, llamada identidad o propiedad aditiva de la suma de cuadrados: SST = SSA + SSE El análisis de la varianza se puede realizar con tamaños muestrales iguales o distintos, sin embargo es recomendable iguales tamaños por dos motivos: La F es insensible a pequeñas variaciones en la asunción de igual varianza, si el tamaño es igual. Igual tamaño minimiza la probabilidad de error tipo II. 3. Modelos de análisis de la varianza El anova permite distinguir dos modelos para la hipótesis alternativa: Modelo I o de efectos fijos en el que la H1 supone que las k muestras son muestras de k poblaciones distintas y fijas. Modelo II o de efectos aleatorios en el que se supone que las k muestras, se han seleccionado aleatoriamente de un conjunto de m>k poblaciones. Un ejemplo de modelo I de anova es que se asume que existen cinco poblaciones (sin tratamiento, con poca sal, sin sal, etc.) fijas, de las que se han extraído las muestras. Un ejemplo de modelo II sería: un investigador está interesado en determinar el contenido, y sus variaciones, de grasas en las células hepáticas de cobayas; toma del animalario 5 cobayas al azar y les realiza, a cada una, 3 biopsias hepáticas. La manera más sencilla de distinguir entre ambos modelos es pensar que, si se repitiera el estudio un tiempo después, en un modelo I las muestras serían iguales (no los individuos que las forman) es decir corresponderían a la misma situación, mientras que en un modelo II las muestras serían distintas. Aunque las asunciones iniciales y los propósitos de ambos modelos son diferentes, los cálculos y las pruebas de significación son los mismos y sólo difieren en la interpretación y en algunas pruebas de hipótesis suplementarias. Análisis de la varianza de dos factores. Es un diseño de anova que permite estudiar simultáneamente los efectos de dos fuentes de variación. En cualquier caso, el investigador puede estar interesado en estudiar si hay, o no, diferencia en la evolución según el sexo. En un anova de dos vías se clasifica a los 12
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
individuos de acuerdo a dos factores (o vías) para estudiar simultáneamente sus efectos. En este ejemplo se harían cinco grupos de tratamiento para los hombres y otros cinco para las mujeres, en total diez grupos; en general, si el primer factor tiene a niveles y el segundo tiene b, se tendrán ab muestras o unidades experimentales, cada una con n individuos o repeticiones. Una observación individual se representa como: El primer subíndice indica el nivel del primer factor, el segundo el nivel del segundo factor y el tercero la observación dentro de la muestra. Los factores pueden ser ambos de efectos fijos (se habla entonces de modelo I), de efectos aleatorios (modelo II) o uno de efectos fijos y el otro de efectos aleatorios (modelo mixto). El modelo matemático de este análisis es: Modelo I Modelo II Modelo mixto donde m es la media global, a i o Ai el efecto del nivel i del 11 factor, j o Bj el efecto del nivel j del 2º factor y ijk las desviaciones aleatorias alrededor de las medias, que también se asume que están normalmente distribuidas, son independientes y tienen media 0 y varianza s 2. A las condiciones de muestreo aleatorio, normalidad e independencia, este modelo añade la de aditividad de los efectos de los factores. A los términos (a b )ij, (AB)ij, (a B)ij, se les denomina interacción entre ambos factores y representan el hecho de que el efecto de un determinado nivel de un factor sea diferente para cada nivel del otro factor. Para entender mejor este concepto de interacción veamos un ejemplo sencillo sobre un anova de dos factores, cada uno con dos niveles: supóngase un estudio para analizar el efecto de un somnífero teniendo en cuenta el sexo de los sujetos. Se eligen al azar dos grupos de hombres y otros dos de mujeres. A un grupo de hombres y otro de mujeres se les suministra un placebo y a los otros grupos el somnífero. Se mide el efecto por el tiempo que los sujetos tardan en dormirse desde el suministro de la píldora. Se trata de un anova de dos factores (sexo y fármaco) fijos, cada uno con dos niveles (hombre y mujer para el sexo y somnífero y placebo para el fármaco). Los dos tipos de resultados posibles se esquematizan en la figura
13
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
A B En la figura A se observa que las mujeres tardan más en dormirse, tanto en el grupo tratado como en el grupo placebo (hay un efecto del sexo) y que los tratados con placebo tardan más en dormirse que los tratados con somnífero en ambos sexos (hay un efecto del tratamiento). Ambos efectos son fácilmente observables. Sin embargo en la figura B es difícil cuantificar el efecto del somnífero pues es distinto en ambos sexos y, simétricamente, es difícil cuantificar el efecto del sexo pues es distinto en ambos grupos de tratamiento. En este caso, se dice que existe interacción. Podría, incluso, darse el caso de que se invirtieran los efectos de un factor para los distintos niveles del otro, es decir, que las mujeres se durmieran antes con el somnífero y los hombres antes con el placebo. La interacción indica, por tanto, que los efectos de ambos factores no son aditivos: cuando se dan juntos, su efecto no es la suma de los efectos que tienen cuando están por separado, por lo que, si en un determinado estudio se encuentra interacción entre dos factores, no tiene sentido estimar los efectos de los factores por separado. A la interacción positiva, es decir, cuando el efecto de los factores actuando juntos es mayor que la suma de efectos actuando por separado, en Biología se le denomina sinergia o potenciación y a la interacción negativa inhibición. En el ejemplo de la figura B, se diría que el ser mujer inhibe el efecto del somnífero, o que el ser hombre lo potencia (según el sexo que se tome como referencia). 4. Contrates de hipótesis en un análisis de la varianza de dos factores Del mismo modo que se hizo en el anova de una vía, para plantear los contrastes de hipótesis habrá que calcular los valores esperados de los distintos cuadrados medios. Los resultados son: Modelo I MS
Valor esperado
MSA
14
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
MSB
MSAB MSE Por lo tanto, los estadísticos MSAB/MSE, MSA/MSE y MSB/MSE se distribuyen como una F con los grados de libertad correspondientes y permiten contrastar, respectivamente, las hipótesis: No existe interacción (MSAB/MSE) No existe efecto del primer factor, es decir, diferencias entre niveles del primer factor (MSA/MSE) No existe efecto del segundo factor (MSB/MSE) Si se rechaza la primera hipótesis de no interacción, no tiene sentido contrastar las siguientes. En este caso lo que está indicado es realizar un análisis de una vía entre las ab combinaciones de tratamientos para encontrar la mejor combinación de los mismos. IV.
ANÁLISIS DE DATOS.
Para el presente trabajo se tomaron dos ensayos de compresión simple con 500 probetas cada uno, de los cuales se van a hacer las estimación por intervalos y prueba de hipótesis. El primer ensayo de 500 probetas de concreto sometidos a compresión simple arrojan los siguientes resultados en kilogramos sobre centímetros cuadrado que servirán como base de datos para el análisis estadístico. Ensayo N°1 N° 1 2 3 4
Resistenci a (kg/cm2) 293 350 413 318
5 6 7 8 9
356 302 364 305 295
10 11 12 13 14 15
314 401 375 345 346
15 16 17 18 19
364 380 402 352 376
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59
317 328 368 305 341 267 381 304 298 340 387 367 344 277 360 260 388 265 341 368 341 335 327 312 322 302 416 340 312 279 311 336 322 363 412 356 408 366 419 411
60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99
262 350 274 371 393 344 310 362 410 352 359 327 399 300 262 322 280 268 267 343 352 260 296 333 362 337 382 366 363 408 289 310 282 360 363 342 273 327 262 329
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 16
340 317 405 368 402 299 381 345 377 261 298 262 302 339 303 338 319 316 367 302 410 395 390 266 277 336 343 363 373 386 336 398 353 295 293 289 352 262 292 295
140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
361 377 322 407 382 268 419 384 373 376 279 299 273 314 302 349 278 379 267 351 392 401 401 360 288 363 413 379 418 414 283 326 398 364 280 381 405 336 341 265
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219
286 265 387 278 350 347 310 337 320 329 342 292 413 265 298 296 285 327 292 301 341 263 320 327 383 262 383 362 304 302 361 397 317 371 267 410 396 416 274 282
220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253 254 255 256 257 258 259
270 399 362 376 304 366 339 348 420 332 342 334 283 354 399 279 347 322 310 391 376 378 380 380 381 372 305 292 343 337 362 320 356 290 261 403 385 272 393 396
260 261 262 263 264 265 266 267 268 269 270 271 272 273 274 275 276 277 278 279 280 281 282 283 284 285 286 287 288 289 290 291 292 293 294 295 296 297 298 299 17
365 303 390 420 386 374 413 301 417 391 368 315 328 269 279 260 277 306 286 385 411 398 344 320 408 269 310 262 345 382 372 410 413 341 390 328 301 342 396 373
300 301 302 303 304 305 306 307 308 309 310 311 312 313 314 315 316 317 318 319 320 321 322 323 324 325 326 327 328 329 330 331 332 333 334 335 336 337 338 339
301 276 419 393 265 334 383 359 347 268 311 389 390 274 314 309 310 404 260 335 346 383 280 361 407 386 361 420 339 361 353 283 375 378 315 303 285 348 322 419
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
340 341 342 343 344 345 346 347 348 349 350 351 352 353 354 355 356 357 358 359 360 361 362 363 364 365 366 367 368 369 370 371 372 373 374 375 376 377 378 379
369 341 274 405 393 261 351 345 347 398 349 376 419 277 292 307 355 379 303 397 414 411 291 347 327 404 263 413 357 396 359 377 310 417 417 330 358 358 262 268
380 381 382 383 384 385 386 387 388 389 390 391 392 393 394 395 396 397 398 399 400 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 417 418 419
372 294 290 316 304 404 354 294 412 397 395 367 368 351 262 290 386 337 393 385 293 408 275 344 399 399 334 414 356 303 332 365 282 269 269 373 399 314 404 265
420 421 422 423 424 425 426 427 428 429 430 431 432 433 434 435 436 437 438 439 440 441 442 443 444 445 446 447 448 449 450 451 452 453 454 455 456 457 458 459 18
385 269 318 268 288 294 375 277 418 311 356 286 411 261 355 260 293 414 412 321 346 340 277 300 261 314 380 332 335 385 347 397 344 380 282 387 314 317 285 286
460 461 462 463 464 465 466 467 468 469 470 471 472 473 474 475 476 477 478 479 480 481 482 483 484 485 486 487 488 489 490 491 492 493 494 495 496 497 498 499
267 287 316 408 397 311 305 338 310 382 319 404 279 417 398 388 275 321 312 339 347 317 319 415 323 330 357 360 326 369 359 407 341 296 343 354 383 265 356 408
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
500
343
De los cuales se calcularon todos sus parámetros haciendo uso del análisis de datos de la ficha análisis de Excel obteniendo los siguientes resultados. Resistencia (kg/cm2) Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
340.598 2.08795208 343 262 46.6880278 2179.77194 -1.14017176 -0.06587546 160 260 420 170299 500 4.10226081
1) Estimación por intervalos de la media muestral.
Queremos estimar la media de la resistencia a compresión de 47 valores elegidos aleatoriamente del ensayo 1 obteniendo los siguientes estimadores con un 95% de confianza. a) Primer caso:
Se conoce la varianza de la población La muestra es normal y presenta más de 30 datos Modelo probabilístico Z
̅ ̅ ̅ ̅ 19
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
muestra aleatoria 1er 388 ensayo 265 345 341 346 368 364 341 380 335 402 327 352 312 376 322 317 302 328 416 368 340 305 312 341 279 267 311 381 336 304 322 298 363 340 412 387 356 367 408 344 366 277 419 360 411 260 De los cuales se calcularon todos sus estimadores haciendo uso del análisis de datos de la ficha análisis de Excel obteniendo los siguientes resultados muestra aleatoria 1 del 1er ensayo
Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo 20
343.851064 6.03619814 341 341 41.3820896 1712.47734 -0.50257375 -0.09487379 159 260
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Máximo Suma Cuenta Nivel de confianza(95.0%)
419 16161 47 12.1502367
̅ ̅ ̅ ̅
Usaremos el modelo probabilístico distribución normal de Excel.
y la tabla de distribución normal o la función
El error estándar está dado por:
Para
̅ √ ̅ √ ̅
= 95 % entonces Z=1.96
Entonces
b) Segundo caso
Se desconoce la varianza de la población La muestra es normal y presenta menos de 30 datos Modelo probabilístico T
n-1 : Grados de libertad error estándar
nivel de confianza del 95 %
21
̅ √
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
̅ ̅ ̅ ̅
Para este caso elegimos una muestra 2 con menos de 30 datos del primer ensayo de compresión simple muestra aleatoria 1er 311 ensayo 336 368 322 341 363 335 412 327 356 312 408 322 366 302 419 416 411 340 262 312 350 279 274 De los cuales se calcularon todos sus estimadores haciendo uso del análisis de datos de la ficha análisis de Excel obteniendo los siguientes resultados muestra aleatoria 2 del 1er ensayo
Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
22
343.5 9.30462718 338 312 45.5831777 2077.82609 -0.6583078 0.20298114 157 262 419 8244 24 19.2480878
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
̅ ̅ ̅ ̅ ̅ √ ̅ √ ̅ ( ) ̅ ̅ ̅ ̅ () () ( ) ( )
Usaremos el modelo probabilístico correspondiente de Excel.
y la tabla de distribución T o la función
El error estándar está dado por:
Para
= 95 % entonces
Entonces
2) Estimación por intervalos de la varianza
: modelo probabilístico chi cuadrado, se obtiene por tabla o usando la función de Excel. Nivel de confianza de 95%
Para estimar a la varianza usaremos la muestra aleatoria 1 del 1er ensayo muestra aleatoria 1 del 1er ensayo
Media Error típico Mediana
343.851064 6.03619814 341 23
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
( ) ( ) ( ) ( ) Entonces
341 41.3820896 1712.47734 -0.50257375 -0.09487379 159 260 419 16161 47 12.1502367
() () ( ) ( )
() () ( ) ( )
3) Estimación por intervalos de razón de dos varianzas
: modelo probabilístico f de Fischer , se obtiene por tabla o usando la función de Excel. Nivel de confianza de 95%
24
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Para estimar a la varianza usaremos la muestra aleatoria 1 del 1er ensayo y la muestra aleatoria del 2do ensayo, del segundo ensayo elegimos una muestra aleatoria. muestra aleatoria 1 del 1er ensayo
Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
343.851064 6.03619814 341 341 41.3820896 1712.47734 -0.50257375 -0.09487379 159 260 419 16161 47 12.1502367
muestra eleatoria 2do ensayo
Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%) 25
326.386364 6.79783698 318.5 275 45.0917493 2033.26586 -0.66462695 0.3497703 158 251 409 14361 44 13.7091448
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Entonces
4) Estimación por intervalos para la diferencia de medias. Queremos estimar la diferencia de medias de la resistencia a compresión de las dos muestras aleatorias del ensayo 1 y 2 obteniendo los siguientes estimadores con un 95% de confianza.
muestra aleatoria 1 del 1er ensayo
Media Error típico Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría Rango
Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
343.851064 6.03619814 341 341 41.3820896 1712.47734 -0.50257375
260 419 16161 47 12.1502367
muestra eleatoria 2do ensayo
Media Error típico
-0.09487379 159 26
326.386364 6.79783698
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Mediana Moda Desviación estándar Varianza de la muestra Curtosis Coeficiente de asimetría
318.5 275 45.0917493 2033.26586 -0.66462695
Rango Mínimo Máximo Suma Cuenta Nivel de confianza(95.0%)
0.3497703
158 251 409 14361 44 13.7091448
Se conoce la varianza de las muestras La muestra es normal y presenta más de 30 datos Modelo probabilístico Z
[(̅ ̅) ̅ ̅ (̅ ̅) ̅ ̅] ̅ ̅ ̅ ̅ para 95% de confianza es 1.96
(̅ ̅) ̅ ̅ (̅ ̅) ̅ ̅ () () PRUEBAS DE HIPOTESIS
Con la media: o La constructora asegura que la resistencia media de las primeras 500 probetas de concreto no baja de para lo cual se hizo la siguiente prueba de hipótesis con un 5% de significancia.
Entonces:
̅ ̅ 27
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
Para
= 95 % entonces Z=1.96
Entonces
Como la estimación de media de la población está dentro de la región de aceptación aceptamos la hipótesis y decimos que la resistencia media de las 500 probetas de concreto no baja de Con la varianza. o La constructora asegura que la resistencia media de las primeras 500 probetas de concreto no presentan una varianza mayor a 2700 para lo cual se hizo la siguiente prueba de hipótesis con un 5% de significancia.
Entonces:
Para
() ( )
= 95 % entonces Z=1.96
Como la estimación de la varianza de la población no está dentro de la región de aceptación si no en la región crítica rechazamos la hipótesis y decimos que la resistencia media de las 500 probetas no presenta una dispersión menor a 2700 sino a 2701.427
28
UNIVERSIDAD NACIONAL DE CAJAMARCA FACULTAD DE INGENIERÍA ESCUELA ACADÉMICO PROFESIONAL DE INGENIERÍA CIVIL
V.
CONCLUSIONES.
29