CLASE 09:INTERVALOS DE CONFIANZA – PRUEBA DE HIPOTESISIS PARA DOS POBLACIONES Mg. Germán Elías Pomachagua Pérez
[email protected]
Diferencia entre muestras independientes y dependientes
Dos
muestras son independientes o dependientes entre sí, en función de si las observaciones de las muestras muestras se han obtenido de los mismos individuos u objetos o no.
Si ambas muestra tras se obtienen de distintos individuos, máquinas, empresas, objetos, etc… etc…no hay nada en común en dichas muestras lo que hace que ambas sean “independientes independientes””.
Sin
embargo, si las observaciones o valores de ambas muestras se obtienen obtienen de los mismos individuos individuos,, empresas, empresas, agentes, agentes, etc., etc., diremos que hay algo en común en dichas muestras por lo que serán muestras “dependientes” dependientes” o o (relacionadas) (relacionadas)
Diferencia entre muestras independientes y dependientes
Dos
muestras son independientes o dependientes entre sí, en función de si las observaciones de las muestras muestras se han obtenido de los mismos individuos u objetos o no.
Si ambas muestra tras se obtienen de distintos individuos, máquinas, empresas, objetos, etc… etc…no hay nada en común en dichas muestras lo que hace que ambas sean “independientes independientes””.
Sin
embargo, si las observaciones o valores de ambas muestras se obtienen obtienen de los mismos individuos individuos,, empresas, empresas, agentes, agentes, etc., etc., diremos que hay algo en común en dichas muestras por lo que serán muestras “dependientes” dependientes” o o (relacionadas) (relacionadas)
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS µ 1 - µ2 a) Caso de varianzas σ12 y σ22 , conocidas (poco frecuente)
Distribución de la Diferencia de Medias
a) Caso de varianzas σ12 y σ22 , conocidas (poco frecuente)
y son las medias de las muestras aleatorias independientes de tamaño con varianzas conocidas , respectivamente entonces la distribución muestral de las diferencias de las medias está dado por el Si
estadístico de prueba Z ,distribuida en forma normal con media y varianzas dadas por
( ) = +
Luego el intervalo de confianza para
− = − = +
1 % para
-)±/ +
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS µ 1 - µ2 b) Desconociendo σ21 y σ22 pero asumiendo σ21 = σ22
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS µ 1 - µ2 c) Desconociendo σ21 y σ22 pero asumiendo σ21 ≠ σ22
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS µ 1 - µ2
Sin embargo en la práctica no tiene mucho sentido pensar que se conocen las varianzas. Primero para probar la igualdad de varianzas, realizamos la prueba de Levene (F) sobre la homogeneidad e igualdad de varianzas. Ho: σ21 = σ22 H1: σ21 ≠ σ22
Si p= Sig < α entonces rechazamos H0 Si p= Sig ≥ α, entonces, no rechazamos H0, luego podemos suponer que las varianzas son iguales
Ejemplo1:Para encontrar si un nuevo suero detiene la leucemia, se seleccionan nueve ratones, todos con una etapa avanzada de la enfermedad. Cinco ratones reciben el tratamiento y cuatro no. Los tiempos de sobrevivencia en años, a partir del momento en que comienza el experimento son los siguientes Con Tratamiento Sin Tratamiento
2.1 1.9
5.3 0.5
1.4 2.8
4.6 3.1
0.9
a) Hallar un intervalo de confianza del 95% para las diferencias de medias b) Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo Primero se probará el supuesto de varianzas iguales con un ensayo de hipótesis bilateral utilizando la distribución Fisher
Prueba de Hipótesis Ho: σ21 / σ22=1 H1: σ21/σ22 ≠1
Entonces los grados de libertad uno será el tamaño de la muestra de la población uno menos uno. v1=5-1=4, v2=4-1=3
Estadistic o de prueba 2
F
sc
s s2
1.97
2
1.167
2
2.85
F / 2 ( v1,v 2 )
1
F 1
Como 2,85 cae dentro del intervalo entonces no se rechaza Ho y se asume que tienen igual varianza
/ 2 ( v 2 ,v1)
=INV.F(0.025;4;3)
=INV.F(0.975;4;3)
Test para probar la normalidad Ho: La distribución de los datos es Normal H1: La distribución de los datos NO es Normal
≥ ) <
(
Reporte de Minitab Gráfica de probabilidad de años Normal - 95% de IC 99 trata con sin
95 90
M ed ia D esv .E st. N
80
e j a t n e c r o P
AD
P
2.86
1.971 5 0.354 0.294
2.075
1.167 4 0.271 0.448
70
Reporte de STATA
60 50 40 30 20 10 5
1
-5.0
-2.5
0.0
2.5
5.0
7.5
10.0
12.5
años
Como p<α entonces la distribución de los datos es NORMAL
Reporte de SPSS
a) Como contiene al cero no hay suficientes pruebas para concluir que existe diferencias entre las medias con tratamiento y sin ella
b)
Prueba de Hipótesis Ho: μc= μs H1: μc> μs
Si p/2 < α entonces rechazamos H0 Como 0.507/2=0.2535>0.05 Luego no rechazamos H 0
Reporte de Minitab
a) Hallar un intervalo de confianza del 95% para las diferencias de medias
a) Como contiene al cero no hay suficientes pruebas para concluir que existe diferencias entre las medias con tratamiento y sin ella
Reporte de Minitab b) Se puede decir en el nivel de significancia del 0.05 que el suero es efectivo
Prueba de Hipótesis Ho: μc= μs H1: μc> μs
Si p < α entonces rechazamos H0 Como p=0.254>0.05 Luego no rechazamos H0
Se concluye con un nivel de significancia del 0.05 que no existe suficiente evidencia para decir que el suero detiene la leucemia.
Reporte de STATA
Ejemplo2: En el campo de la informática, se hace un experimento en el que se miden las velocidades de los procesadores de Intel frente a los correspondientes AMD. Los resultados obtenidos son los tiempos en segundos en bajar de Internet un determinados programa
Intel
100 125
135
128
140
142
128
137
AMD
105 128
128
135
115
150
125
122
156
142
a) ¿Hallar el intervalo de confianza del 95% para la diferencia entre los tiempos medios de estos dos procesadores? b) Podría decirse que el procesador Intel es mas veloz que el AMD si alfa es 5% Ejemplo3: Queremos estudiar la influencia que puede tener el tabaco con el peso de los niños al nacer. Para ello se consideran dos grupos de mujeres embarazadas (unas que fuman un paquete al día y otras que no) y se obtienen los siguientes datos sobre el peso X , de sus hijos: Población Madres fumadoras
Madre no fumadoras
Muestra n1 =35 n2 =27
Medias = 3.6 = 3.2
DS S1= 0.5 kg S2= 0.8 kg
a) Calcular en cuanto influye el que la madre sea fumadora en el peso de su hijo, si alfa es 0.05Rpta: 0,068 Kg y los 0,731 Kg. b) ¿Podría decirse que los hijos de las madres fumadoras tienen menos pesos que las no fumadoras si el nivel de significación es de 10% ?
Ejemplo4: Una inspección de calidad efectuada sobre dos marcas de baterías para linterna, reveló que una muestra aleatoria de 61 unidades de la marca A generó un promedio de vida útil de 36,5 horas con una desviación estándar de 1,8 horas, mientras que otra muestra aleatoria de 31 unidades de la marca B generó un promedio de 36,8 horas con una desviación estándar de 1,5 horas. a) Con un nivel de significación del 5% se desea saber si hay diferencia significativa entre la vida útil de ambas marcas b) Podría decirse quela batería de la marca A dura mas que la marca B Ejemplo5 : El test de evaluación de CAPECO, informa los resultados de pruebas de laboratorios realizados para investigar la estabilidad y permeabilidad del concreto de asfalto. En el experimento se prepararon 4 mezclas de concreto con un contenido de 3% de asfalto del peso total de la mezcla y 4 mezclas con un 7% de asfalto respectivamente Las mediciones de permeabilidad registradas en pulgadas por hora fueron: CONTENIDO DE ASFALTO 3%
x
7%
x
1 2
Permeabilidad en pulgadas por hora 1189
840
1020
980
853
900
733
785
a) ¿Hallar el intervalo de confianza del 95% para la diferencia entre la permeabilidad media del concreto elaborado con un contenido de 3% y 7% de asfalto? b) Podría decirse que el 3% de asfalto es mas permeable que un 75 de asfalto?
Ejemplo 05: Un fabricante de monitores prueba dos diseños de microcircuitos para determinar si producen un flujo de corriente equivalente. El departamento de ingeniería ha obtenido los datos siguientes
= 0.05
Con , se desea determinar si existe alguna diferencia significativa en el flujo de corriente promedio entre los dos diseños, donde se supone que las dos poblaciones son normales, pero no es posible suponer que las varianzas desconocidas sean iguales.
INTERVALO DE CONFIANZA PARA OBSERVACIONES PAREADAS µ D=µ1 - µ2 Tenemos muestras pareadas o correlacionadas cuando sabemos de antemano que una observación está relacionada con la otra. Pueden ser observaciones tomadas al mismo tiempo, diseño pareado 1, o medidas tomadas en un mismo sujeto o unidad en dos oportunidades o tiempo distintos (diseño pareado 2).
Diseño pareado 1: Suponga que estamos
Diseño pareado 2: Las medidas en 20
estudiando los sueldos de hombres y mujeres y tomamos una muestra aleatoria de 4 matrimonios
individuos que fueron parte de un estudio médico para reducir la presión sanguínea
INTERVALO DE CONFIANZA PARA OBSERVACIONES PAREADAS µ D=µ1 - µ2 En este caso se trata de comparar dos métodos o tratamientos, pero se quiere que las unidades experimentales donde se aplican los tratamientos sean las mismas, ó los más parecidas posibles, Un intervalo de confianza del 100(1-a)% para la diferencia poblacional dada una muestra de tamaño n es de la forma d t / 2
S d n
S d
D d t / 2
Donde: Promedio de diferencias
Supuesto: XA: antes y XB: después siguen una distribución normal. - (µA-µB ,σ2d) . que no es relevante si el tamaño de la muestra n es grande.
n
= ∼
n
d
i
d
i 1
Prueba de Hipótesis
n
Sd = desviación estándar de las diferencias La prueba estadística t se distribuye con (n-1) gl
t
d
s D /
D
n
: = : ≠ : > : <
Ejemplo 1: Se hizo un estudio para definirse si los ejercicios aeróbicos reducen el ritmo cardiaco de una persona durante el descanso, y al examinar a diez voluntarios antes y después de seguir un programa de ese tipo durante seis meses, sus pulsaciones, en latidos por minuto, dieron los siguientes registros: Voluntario Antes Después
a) b)
1
2
3
4
5
6
7
8
9
10
73
77
68
62
72
80
76
64
70
72
68
72
64
60
71
77
74
60
64
68
¿Encuentre un intervalo de confianza del 95% para las diferencias de la reducción del ritmo cardiaco antes y después de los ejercicios? ¿Se puede decir en el nivel de significancia del 0.05 que los ejercicios son efectivos?
E jemplo2: Un médico desea investigar si una droga tiene el efecto de bajar la presión sanguínea en los usuarios. El médico eligió al azar 15 pacientes mujeres y les tomó la presión, luego les recetó la medicina por un periodo de 6 meses, y al final del mismo nuevamente les tomó la presión. Los resultados son como siguen:
a)
¿Encuentre un intervalo de confianza del 95% para las diferencias de la reducción de la presión sanguínea antes y después de usar la droga? b) ¿ Se puede decir que la antes de usar la droga la presión era mayor que después de usarla , si alfa es 0.05?
Ho: μD = 0 (La droga no tiene ningún efecto) H1: μD >0 (La droga tiene efecto, la presión antes de usar la droga
era mayor que después de usarla).
Ejemplo 4: Para verificar la influencia de un cartel publicitario en las ventas de una marca de cerveza se ha seleccionado al azar una muestra de 7 bodegas en las que se registró el número de botellas vendidas en la última semana antes de colocar el cartel y dos semanas después de colocar el cartel publico Los resultados se muestran a continuación:
a) Calcular un intervalo de confianza al 95% de confianza para la diferencia de las ventas promedio semanales antes y después de colocar el cartel publicitario.
b)
¿Se puede decir en el nivel de significancia del 0.05 que el cartel influye en las
ventas Ho: μsc - μcc =μD = 0 ( No tiene efecto el cartel) H1: μsc - μcc =μD < 0 (El cartel tienen efecto en las ventas de la cerveza).
Interpretación : El valor de P es 0,006, se rechaza la hipótesis nula y se acepta la alternativa la cual indica que el cartel tiene efecto sobre la venta de la cerveza.
Como el valor de H 0 no se encuentra en el intervalo de confianza de la diferencia de las dos medias, se rechaza Ho y se acepta H 1 indicando
ESTIMACIÓN DE LA DIFERENCIA DE DOS PROPORCIONES Muchas aplicaciones involucran poblaciones de datos cualitativos que deben compararse utilizando proporciones. Condiciones: n1
≥ 30 y n2 ≥30
La distribución muestral de p1 la estadística de prueba
p2
esta dada por
( p1 p2 ) ( p1 p2 ) p1q1 n1
Si la hipótesis nula Ho: p1 = p2 es cierta, entonces el estadístico mencionado anteriormente se convierte en: donde, p es estimado por
Z
p
x1
x2
n1
n2
Z
p2 q2 n2
( p1 p2 ) ( p1 p2 ) pq n1
pq n2
Ejemplo1: En dos muestras de 150 hombres y 130 mujeres, el 27% y 35% respectivamente afirmaron que utilizaban tarjetas de crédito para comprar regalos de navidad. a) Calcule e interprete el intervalo de confianza del 99% para la diferencia poblacional de hombres y mujeres que usaron tarjetas para comprar regalos de navidad. b) ¿Podemos decir que los hombres utilizan mas la tarjetas de crédito que las mujeres, con un nivel de significación del 10%? a) Solución :
b)
0.27 0.35 2.58
(0.27(0.73) 150
(0.35)(0.65 130
Ejemplo2: Un médico ha sugerido que un ataque cardíaco es menos probable que ocurra en hombres que practican alguna clase de deporte. Se elige una muestra al azar de 300 hombres, de los cuales 100 practican alguna clase de deporte y de ellos sólo 10 han sufrido un ataque cardíaco. De los 200 que no practican deportes, 25 han sufrido ataques cardíacos. Probar si los resultados de las muestras apoyan lo sugerido por el médico. Si alfa es 0,05 Ho: p1 = p2 (las probabilidades de sufrir ataque cardíaco son iguales para ambos grupos) Ha: p1 < p2 (la probabilidad de sufrir ataque cardíaco es menor en hombres deportistas).
1) Ho: p1 = p2 (las probabilidades de sufrir ataque cardíaco son iguales para ambos grupos) Ha: p1 < p2 (la probabilidad de sufrir ataque cardíaco es menor en hombres deportistas). 2) Establecer el nivel de significación 0,05 3) Elección de la prueba estadística Z
( p1
p2 ) ( p1 pq n1
Z
pq n2
p
(0.10 0.125) (0 0) (0.12)(0.88) 100
p
p2 )
(0.12)(0.88)
4) Calcular puntos críticos 5) Como -0,6281<-1,645 6) No rechazamos Ho
200
0.6281
X 1 X 2 n1 n2 10 25
100 200
0.12
Ejemplo3: Un profesor de Estadística desea comparar el porcentaje de aprobados de la sección “A” contra el porcentaje de aprobados de la sección “B”. En la sección “A” se tomó una muestra de 26 estudiantes, de los cuales 16 habían aprobado, de la sección “B” una muestra de 28 estudiantes reveló 25 aprobados. Utilice un 99% de confiabilidad para comprobar si el porcentaje de aprobados de la sección “B” es superior al de la sección “A”.
Ejemplo.4: Un artículo del New York Times en 1987 reportó que se puede reducir el riesgo de sufrir ataques al corazón ingiriendo aspirina. Para llegar a esta conclusión el cronista se basó en los resultados de un experimento diseñado, en donde participaron dos grupos de personas. A un grupo de 11,034 personas se le suministró una dosis diaria de una pastilla que no contenía ninguna droga (un placebo), y de estos 189 sufrieron posteriormente ataques corazón, mientras que al otro grupo de 11,037 se les suministró una aspirina, y sólo 104 lo sufrieron. Usando una prueba de hipótesis y un nivel de significancia del 1%, considera Usted que el cronista del New York Times estaba en lo correcto ?.
Intervalo de Confianza para el cociente de varianzas: Suponga que tenemos dos poblaciones independientes, la población 1 sigue una distribución y sobre la población 2 sigue una distribución . Se toma una m.a. de cada población de tamaños n1 y n 2 respectivamente. El objetivo es construir un intervalo de confianza, con nivel de confianza (1 − α) · 100 %, para el
,
cociente de varianzas
,
El estadístico pivote utilizado es
=
que sigue una distribución F de Fisher con n1 − 1 y n2 − 1 grados de libertad, el intervalo de confianza es:
< < −/ /
< < −/ /
50 < < 50 24(1,94) 24(0,530) 1,074 < < 3,932
MINITAB