Nombre: Alexis Alexis Acevedo Rubilar Profesor: Rodrigo Assar Fecha: 30/06/2007
PRUEBAS DE HIPÓTESIS DE LAS VARIANCIAS DE DOS POBLACIONES NORMALES Cuando se trata de comparar las variancias se utiliza la variable F=S12 / S22, que como se sabe está relacionada con la distribución F con (n 1-1, n2-1) grados de libertad. Se recomienda colocar siempre en el numerador la variancia muestral asociada a la variancia poblacional mayor estos es, 1. Si H1: σ12 > σ22 La estadística de prueba se toma como F=S 12 / S22 2. Si H1: σ22 >σ12 La estadística de prueba se toma como F= S 22 / S12 3. Si H1: σ12 ≠ σ22 La estadística de prueba se toma de tal manera que la mayor de las variancias muestrales aparezca en el numerador. Las tablas de la distribución F generalmente proporcionan los puntos de la cola superior
de la distribución F así que para encontrar
valor de la cola inferior, debe utilizarse
Ejemplo 1: Se comparó la eficacia de dos tipos de aceites para evitar el desgaste en ciertas piezas sometidas a intenso trabajo. En trece piezas se utilizó el aceite 1 y en otras trece el aceite 2. Las variancias muestrales fueron S 12 = 64, S22= 16. Se desea verificar la hipótesis nula según la cual las variancias de las dos poblaciones son iguales. ( α= 0,05) H0: σ12 = σ22 H1: σ12 ≠ σ22 n1 = n2 = 13, α= 0,05
Como el valor calculado de F =4 supera el valor tabulado de la cola superior de la distribución, no puede concluirse, al nivel del 5% que las variancias sean iguales. Sigu Siguie iend ndo o el crit criteri erio o de colo coloca carr en el nume numerad rador or siemp siempre re la varia varianc ncia ia mayo mayor, r, es suficiente considerar el valor tabulado de la zona derecha de la distribución F.
CONTRASTE DE HIPÓTESIS REFERENTE POBLACIONALES: MUESTRAS INDEPENDIENTES INDEPENDIENTES
A
DOS
MEDIAS
Los desvíos de las poblaciones son conocidos Los supuestos que se deben cumplir son que las medias poblacionales µ1 y µ2 son normales, los desvíos poblacionales σ12 y σ22 conocidos y las muestras, independientes, de tamaño n1 y n2 respectivamente, estableciendo las siguientes hipótesis: H0) µ1 - µ2 =0 ó µ1 = µ2 a ) H1) µ1 ≠ µ2 b) H1) µ1 > µ2 c) H1 ) µ1 < µ2
α= 0,05 En cualquiera de estos casos el test estadístico que se utiliza es: que se distribuye como una N ( 0,1).
Si σ12 y σ22 son iguales, lo que equivale a decir que hay una sola variancia, la fórmula anterior se puede reemplazar por la siguiente:
_ _ En el contraste a) valores grandes y pequeños de ( X 1 - X 2 ) y por por lo tanto pequeños pequeños de Z son suficientes suficientes para confirmar confirmar H1. Por lo tanto para un ensayo bilateral bilateral con nivel de significación α, la hipótesis H0 se rechaza si : Z< Zα/2 ó Z> Z1-α/2 En el contraste contraste b) sólo valores grandes de( X1 - X 2 ) y de Z confirman la hipótesis H1. En un ensayo unilateral, rechazamos H0 cuando: Z > Z 1-α En el contraste c) valores pequeños de la diferencias de medias muestrales y por lo tanto valores pequeños de de Z confirman H1 y rechazamos H0 cuando: Z < Zα
Ejemplo 2: El porcentaje de calcio de dos muestras de soja se determinó por dos métodos métodos de mineralizació mineralización: n: (A) cenizas secas y (B) mineralización mineralización húmeda. Los datos obtenidos fueron: (A): 0,32 3,32 0,36 0,29 0,27 0,29 0,28 (B): 0,35 0,35 0,34 0,36 0,31 0,28 0,28 Se sabe, por experiencias anteriores que σ1 = σ2 = 0,03. Se desea verificar si ambos métodos producen los mismos resultados. ( α = 0,05). H0 ) µ A = µ B ó µ A - µ B =0 H1 ) µ A ≠ µ B
Por ser un test bilateral, los valores críticos de la distribución normal, para a = 0,05 son –1,96 y 1,96. Como el valor de la estadística calculada ca lculada cae entre los valores críticos, no hay evidencias como para rechazar la hipótesis nula. Por lo tanto las media de los dos métodos de mineralización no difieren.
Los desvíos de las poblaciones son desconocidos: a) Se supo supone nen n igu igual ales es (
2 1
=
2 2
):
Los supuestos que se deben cumplir son: datos extraídos de dos muestras aleatorias independientes de tamaño n 1 y n2 respectivamente, cuyas poblaciones son normales con medias poblacionales µ1 y µ2 . Las variancias poblacionales σ12 , σ22 , no se conocen y se supone que son iguales. Primero se debería docimar la igualdad de dichas varianzas, en particular particular si los tamaños de las muestras son distintos, distintos, a través de la prueba prueba de F de Snedecor. Si son estadísticamente iguales, aplicamos el siguiente test estadístico:
Con
que se distribuye aproximadamente como una t de Student con n 1 + n2 -2 grados de libertad. (t n1 +n2 - 2)
Ejemplo 3: Dieciocho Dieciocho plantas de una misma variedad de naranjos naranjos fueron tratadas con fertilizantes. A nueve de ellas se les aplico una cierta dosis de nitrógeno (N) y al resto una de nitrógeno y fósforo (NP). Se midió el rendimiento en Kg. por planta; los resultados obtenidos fueron: N: X = 28 kg S² = 9 NP: X = 21 kg S² = 7 Interes Interesaa conoce conocerr si existen existen diferen diferencias cias signif significa icativa tivass entre entre los rendim rendimien ientos tos de las plantas tratadas con los dos tipos de fertilizante. ( α = 0,01).
H0 ) µ N = µ NP
ó µ N - µ NP =0
H1 ) µ N ≠ µ NP Suponiendo que las variancias poblacionales son iguales, de las cuales S N2 y S NP2 son estimaciones, se calcula la variancia amalgmada. Si el supuesto no fuera válido debería verificarse primeramente la homogeneidad de variancia a través del test F, en particular si las muestras de las poblaciones no son iguales.
El valor tabulado de t, para 16 grados de libertad y nivel de significación del 1% es igual a ± 2,921. 2,921. Como el valor de la estadística estadística calculada supera supera al valor tabulado, tabulado, se rechas H0 . Conclusión Conclusión existen diferencias estadísticamente estadísticamente significativ significativas as entre los tratamientos, siendo superior el promedio por planta de naranjo, de aquellas que reciben el tratamiento NP.
b) se supone suponen n dist distint intos os (
1
2
2 2
):
Los supuestos son los mismos, mismos, pero el test estadístico es:
estadística que se distribuye aproximadamente como una t de Student con δ grados de libertad que se obtienen mediante la fórmula de Satterwitte:
Gráficamente podemos representar la zona de aceptación y rechazo en la distribución t
si t < -tα Se rechaza H0
t > tα Se rechaza H0
si t < -tα ó t > tα Se rechaza H0
CONTRASTE DE HIPÓTESIS REFERENTE A DOS MEDIAS POBLACIONALES: MUESTRAS APAREADAS Esta estrategia de la investigación surge cuando cada observación para un tratamiento está apareada con otra observación para el otro tratamiento. Este par está compuesto por las mismas unidades experimentales observadas dos veces en distintos momentos de la investigación, o por unidades semejantes. El proc proced edim imie ient nto o cons consis iste te en busc buscar ar pare paress de unid unidad ades es expe experi rime ment ntal ales es con con características similares y asignar aleatoriamente cada unidad del par a cada uno de los dos tratamientos en estudio. Por ejemplo parejas de gemelos pueden ser asignadas al azar para que reciban dos tratamientos, de tal manera que los miembros de una sola pareja, reciban tratamientos distintos. Pueden así mismo ensayarse dos raciones distintas en dos lotes de terneros formando pares de raza de la misma edad, sexo, etc. y ocurrir que al cabo de un tiempo , exista diferencia significativa o no, entre los promedios de ganancia de peso de ambos lotes, (se elimina la influencia diferencia de calidad entre los lotes).
También puede ocurrir que al estudiar en dos lotes de plantas homogéneas de a pares, la aplicación aplicación de herbicidas herbicidas (uno en cada lote), para ciertas plagas (se obtenga obtenga diferencias de resistencia entre los lotes de plantas). La hipótesis planteada es: _ _ H0) D =0 ó H0) D ≤0 ó
_ H0) D≥0
_ _ H1) D ≠0 ó H1) D >0 ó
_ H1) D<0
α=0,05 Como se establece una hipótesis de un único parámetro poblacional (se podría pensar en una sola muestra) D=0, el número de grados de libertad es (n - 1) el test estadístico es:
luego se compara el tc con tn -1 . Las reglas de decisión son: No se rechaza H0 cuando -tα < t < tα
Ejemplo 4: La siguiente tabla muestra los niveles de colesterol en suero para 12 individuos , al principio del programa (ANTES) y al final del mismo (DESPUES). INDIVIDUO 1 2 3 4 5 6 7 8 9 10 11 12 TOTAL
ANTES XI 201 231 221 260 228 237 226 235 210 267 284 201
DESPUES Y I 200 236 216 233 224 216 296 195 207 247 210 209
di -1 +5 -5 -27 -4 -21 -30 -40 -33 -20 -74 +8
-242
di2 1 25 25 625 16 441 900 1600 1089 400 5176 64 10.766
La pregunta que se plantea es: ¿proporcionan los datos suficiente evidencia cómo para concluir que el programa es efectivo en la reducción de los niveles de colesterol en suero? Aplicar un test de hipótesis para llegar a una decisión al repecto, utilizando un α del 0,05.
Las hipótesis planteadas son: _ H0) D≥0 _ H1) D<0
α=0,05
t (11; 0,05) = - 1,7959 (valor de tabla) Se rechaza H0 ya que -3,02 es menor que -1,7959 Conclusión: Se rechaza la hipótesis nula, existen diferencias altamente significativas entre ANTES y DESPUES. El programa es efectivo.
PRUEBA DE HIPÓTESIS POBLACIONALES
REFERENTE
A
DOS
PROPORCIONES
Sean ρ^1 y ρ^2 las proporciones muestrales de dos grandes muestras de tamaños n1 y n2 extraídas de poblaciones que tienen tienen proporciones P1 y P2 respectivamente. Considérese la H0 de que no hay diferencias entre los parámetros poblacionales, es decir: H0 : P1 = P2, implica que (P1 – P2) = 0 H1: P1 ≠ P2 Una estimación de la proporción poblacional se puede obtener como:
La distr istrib ibu ución ción mues muestr tral al de la dife difere ren ncia cia de prop propor orci cion ones es aproximadamente normal con media y variancia dadas por:
se
distr istrib ibu uye
Por lo tanto la estadística de prueba esta dada por:
Z~N(0,1)
Ejemplo 5: Sobre parcelas sembradas con dos variedades distintas de maíz (A y B), se aplicó un herbicida que resultó ser nocivo en el sentido que destruyó gran parte de las plantas. De un total de 500 plantas de la primera variedad fueron destruidas 200 y de 570 plantas de la segunda variedad, murieron también 200. ¿Se puede considerar que el herbicida es igualmente nocivo para las dos variedades?. ( α = 0,05). H0) PA = PB, implica que (P A – PB) = 0 H1) PA ≠ PB
Por ser una prueba bilateral, los valores críticos de la distribución normal son –1,96 y
1,96 (α =0,05), como el valor de Z = 1,l8 cae entre estos valores, no se rechaza la hipótesis nula. Conclusión: Se puede considerar que el herbicida es igualmente nocivo para las dos variedades.
Bibliografía: 1.
http://www.fca.unl.edu.ar/Infer http://www.f ca.unl.edu.ar/InferEst/TestHipot2.htm Est/TestHipot2.htm
2. http://www.exopol.com/general/circulares/221.pdf
ANEXO Ejemplo con excel Para determinar si un nuevo suero presentaba algún efecto sobre una nueva enfermedad, se seleccionaron 9 ratones que presentaban esa enfermedad. Cinco ratones recibieron el tratamiento y cuatro no. El tiempo de supervivencia, en años, fue el siguiente : Con tratamiento Sin tratamiento
2 .1 1 .9
5 .3 0 .4
1 .4 2 .4
4 .6 3 .7
0 .7
¿Presenta algún efecto? Asumir que el nivel de significación es de 0.05, que las distribuciones son Normal. Solución. Definiremos X1 como los años de vida con el tratamiento y X2 como los años de vida sin tratamiento. Las hipótesis a plantear son las siguientes: ß Hipótesis nula ⇒ Ho : µ1 - µ2 = 0 ß Hipótesis alternativa ⇒ Ha : µ1 - µ2 ≠0 El estadístico que usaremos : Χ1- Χ2 ) – (µ1 - µ2 ) / [(S12 /n1) + (S22 /n2)]1/2 con distribución T-Student ß Estadístico ⇒ t = ( Χ con v grados de libertad
La resolución de este test la haremos mediante el programa EXCEL. Antes de nada, ordenaremos los datos de forma que en el rango de celdas de A2 a A6 se encuentren los cinco datos de los ratones con tratamiento, mientras que en el rango de celdas de B2 a B5 se encuentren los datos de los ratones con tratamiento. La resolución propiamente dicha la haremos mediante la aplicación Análisis de datos del menú herramientas. En dicha aplicación seleccionamos la opción Prueba t para dos muestras suponiendo varianzas desiguales, como se muestra en la figura 2.
Una vez hayamos selecciona la opción deseada, se desplegará otro cuadro como el que se muestra en la figura 3.
El Rango para la variable 1 corresponde a los datos para los ratones con tratamiento, mientras que el Rango para la variable 2 corresponde a los datos para los ratones sin tratamiento. Alfa sería el nivel de significación, que es de 0.05. Por último, se ha seleccionado el lugar donde aparecerán los resultados, concretamente en una hoja nueva. La figura 4 nos muestra los resultados de la prueba t.
Vayamos a los datos que nos interesan. En primer lugar nos da el resultado de la media y la varianza (que es la raíz cuadrada de la desviación típica) de las dos variables, y el número de observaciones (tamaño de la muestra). Los grados de libertad corresponden al valor v de la distribución T-Student del estadístico. A continuación calcula el valor del estadístico que es de 0.635. El Valor crítico de t (una cola) correspondería correspondería a un test unilateral donde plantearíamos la hipótesis que los ratones tratados con el nuevo suero viven más años que los ratones no tratados con el nuevo suero. Pero estas no son las hipótesis que nosotros planteamos. Por tanto, debemos fijarnos en el Valor crítico de t (dos colas). Este valor es de 2.364 y de –2.364 ya que así definimos al criterio de aceptación de la hipótesis nula. Debido a que el valor del estadístico se encuentra dentro de la región de aceptación de la hipótesis Ho, aceptamos que la administración del nuevo suero presenta algún efecto.