UNIVERSIDAD MILITAR NUEVA GRANADA FACULTAD DE ESTUDIOS A DISTANCIA PROGRAMA PROGRAMA DE INGENERIA CIVIL
PROBABILIDAD Y ESTADÍSTICA ACTIVIDAD COMPLEMENTARIA No. 3
“DISTRIBUCIONES MUÉSTRALES Y ESTIMACIÓN POR INTERVALOS – PRUEBAS DE HIPOTESIS”
PRESENTADO POR:
SAÚL GUILLERMO LUNA CASTRO
CÓD: D7301874 V SEMESTRE
PRESENTADO A: TUTOR
ING. NÉSTOR HUMBERTO AGUDELO DÍAZ
BOGOTA, MARZO DE 2014
INTRODUCCIÓN
En este trabajo se quiere resaltar la importancia que nos ofrece la estadística y la probabilidad después de haber tratado el tema de los modelos de probabilidad para variables discretas y continuas ahora ampliaremos nuestro conceptos al tratar el tema de las distribuciones muéstrales, la estimación por intervalos y las pruebas de hipótesis y como son aplicadas estas en la Ingeniería y las herramientas que nos brinda.
A continuación se plantean y desarrollan una serie de ejercicios
que nos permitirá el
apropiarnos y conocer los conceptos que nos da la estimación por intervalos y las pruebas de hipótesis. Adquiriendo conocimiento y práctica en lo relacionado con el manejo de las distribuciones: normales y T Student así como su comportamiento.
OBJETIVO GENERAL
Adquirir conocimientos en lo concerniente a la estimación por intervalos y las pruebas de hipótesis, de modo que podamos apropiarnos de este conocimiento y relacionarlo con nuestra labor como Ingenieros Civiles.
OBJETIVO ESPECIFICO •
Adquirir habilidad practica a través de la resolución de problemas o ejercicios propuestos relacionados con la estimación por intervalos y las pruebas de hipótesis.
•
Desarrollar ejercicios donde se aplica o en su solución se hay que hacer uso de los valores de la tabla de Tstudent en las distribuciones normales.
•
Conocer y aprender el concepto de hipótesis alternativa e hipótesis nula.
DISTRIBUCIONES MUÉSTRALES Y ESTIMACIÓN POR INTERVALOS – PRUEBAS DE HIPOTESIS.
TALLER DE ESTADISTICA INFERENCIAL 1. Una muestra de 12 latas de sopa producida por cierta compañía produjo los siguientes pesos netos, medidos en onzas:
11.9
12.2
11.6
12.1
12.1
11.8
11.9
11.8
12.0
12.3
11.8
12.0
Si se supone normalidad en los pesos, construya un intervalo de confianza del 95% para el peso promedio de todas las latas de sopa producidas por la compañía. SOLUCIÓN: La media muestral y la desviación estándar para los datos dados son: n
∑ X i
X =
i =1
n
=
11.9 + 12.2 + 11.6 + ....... + 12 12
n
∑ ( x S =
i
− x
i =1
100(1 − α )%
n −1 =
)2 =
0.4291 12 − 1
=
= 11.96
0.198
95% ⇒ α = 0.05 ⇒ t α
= 2
2.201
En la tabla se encuentra que t 0.025=2.201 con 11 grados de libertad, de aquí, el intervalo de confianza de 95% para es: X − tα
11.96 − 2.201 ×
sp 2
n
<µ <
X + tα
sp 2
n
0.198
0.198 < µ < 11.96 + 2.201 × 12 12
11.8345
< µ < 12.0855
Con un nivel de confianza del 95% se sabe que el peso promedio del contenido de las latas está entre 11.8345 y 12.0855 onzas. 2. Los siguientes datos registrados en días, representan el tiempo de recuperación para pacientes que se tratan al azar con uno de los medicamentos para curar infecciones graves de la vejiga:
Medicamento 1
Medicamento 2
n1 = 14
n2 = 16
x1 = 17
x2 = 19
s1 = 1.5
s2 = 1.8
Encuentre un intervalo de confianza de 99% para la diferencia promedio en el tiempo de recuperación para los dos medicamentos, suponga poblaciones normales con varianzas iguales. ¿Qué Concluye? Solución: P1 : Pacientes que se tratan con el medicamento 1. X1 : Tiempo de recuperación en días para un paciente tratado con el medicamento 1. Tamaño de la primer muestra n1 = 14 días. Primer media muestral x 1 = 17 días.
Primer varianza muestral
2 s 1 = 1.5 días.
P2 : Pacientes que se tratan con el medicamento 2. X 2 : Tiempo de recuperación en días para un paciente tratado con el medicamento 2.
Tamaño de la segunda muestra Segunda media muestral
n 2 = 16 días. x 2 = 19 días.
Segunda varianza muestral
2 s 2 = 1.8 días.
Intervalo de confianza
IC = 99% para
100(1 − α )% = 99% ⇒ α = 0.01 ⇒ t α
=
µ 2 − µ1 .
2.763
2
En la tabla se encuentra que t 0.005=2.763 con (n 1 + n2 – 2) = 28 grados de libertad. De aquí, el intervalo de confianza de 99% para µ 2 − µ1 es:
µx
µx
2 − x1
= 19 − 17 =
2 − x1
2
2
=
σx
y
2
sp
sp
= µ 2 − µ 1 y
=
2
− x1
σx
(x 2 − x 1 ) − t s p α
n1
+
n2
2
+ 16 − 2
1 n2
2−
x1
1 n2
=
+
1 14
1 n1
+
1 16
=
0,1339
≅
0.3659
(n 1 − 1) * (s12 ) + (n 2 − 1) * (s 22 )
(14 − 1) * (1.5) + (16 − 1) * (1.8) 14
=
+
1 n1
< µ2
- µ1
−
2
= 1.6607 ⇒
<
sp
≅ 1.2886
(x 2 − x 1 ) + t s p α
2
1 n2
+
1 n1
2 – (2.763)*(1.2886)*(0.3659) < µ 2 - µ1 < 2 + (2.763)*(1.1886)*(0.3659) 2 – 1.30 < µ 2 - µ1 < 2 + 1.30 0.70 < µ 2 - µ1 < 3.30
Con el 99% de confianza se encuentra que la diferencia entre las medias ( ) poblacionales se encuentra entre 0.70 y 3.30.
µ 2 - µ1
3. Una máquina que produce bolas para cojinetes se le detiene periódicamente para verificar el diámetro. En este caso en particular no interesa el diámetro medio, sino la variabilidad de los diámetros. Supóngase que se toma una muestra de 31 bolas y se encuentra que la varianza de los diámetros es de 0.94 mm 2. Construya unos intervalos de confianza de 95% para la varianza, e interprete los resultados, suponiendo normalidad en la población. Solución: n
∑ ( x 2
S
=
i
− x
i =1
n −1
)2 =
0.94mm
2
n=31 bolas
(n - 1)s 2 x
2
2
< σ <
α / 2
(n - 1)s 2 x
2
1−(α / 2 )
100(1 − α )% = 95% ⇒ α = 0.05 ⇒ xα x1−α
=
46.979
2
= 16.791 2
En la tabla se encuentra que X 0.025=46.970 y X0.975=16.791, con 30 grados de libertad, el intervalo de confianza de 95% para la varianza es:
(n - 1)s 2 x
2
2
< σ <
α / 2
(30) × 0.94 46.979
2
< σ <
0.6 < σ 2
(n - 1)s 2 x
2
1−(α / 2 )
(30) × 0.94 16.791
< 1.68
Con un nivel de confianza del 95% se sabe que la varianza de la población de los diámetros está entre 0.6 y 1.68 mm 2.
4. Los siguientes datos representan los tiempos de duración de las películas que producen dos compañías cinematográficas.
Compañía
Tiempo (minutos)
I
103, 94, 110, 87, 98
II
97, 82, 123, 92, 175, 88, 118
a) Encuentre un intervalo de confianza del 90% para la diferencia entre los tiempos de duración promedio de las películas que ofrecen las compañías. Suponga que las diferencias de tiempo se distribuyen en forma aproximadamente de forma normal con varianzas diferentes. ¿Qué Concluye? Solución: Compañía 1
Compañía 2
n1 = 5
n2 = 7
x1 = 98.4
x2 = 110.7
s1 = 8.375
s2 = 32.185
Primero se procederá a calcular los grados de libertad: 2
v=
s 2 2 1 n 1
2 s12 s n + 2n 1 2 s 2 2 (n 1 − 1) + 2 n (n 2 − 1) 2
(8.735 5 32.185 7 ) 8.735 ) (4) (32.185 7 ) ( 5 2
v=
2
+
2
+
2
2
2
2
(6)
=
7
En la tabla se encuentra que t 0.05=1.895 con 7 grados de libertad, de aquí, el intervalo de confianza de 90% para es:
(x 2 − x 1 ) − t
(110.7 − 98.4) − 1.895
8.735 2 5
+
s2 α
2
n2
2
32.185 2 7
+
s1
2
n1
< µ2
- µ1
< µ2
- µ1
<
− 11.9 < µ 2
<
(x 2 − x 1 ) + t
s2 α
2
(110.7 − 98.4) + 1.895
- µ1
<
2
n2
+
s1
n1
8.735 2 5
2
+
32.1852 7
36.5
Se tiene una confianza del 90% de que el intervalo de -11.9 a 36.5 minutos contiene la diferencia entre los tiempos de duración promedio de las películas que ofrecen las compañías.
b) Construya un intervalo de confianza del 90% para la relación o cociente de varianzas. ¿Qué Concluye? En la tabla f α / 2 (v1 , v2 ) = f 0.05 (4,6) = 4.56 f α / 2 (v2 , v1 ) = f 0.05 (6,4) = 6.16
s1
2
2
1
2 s 2 f α / 2 (v1 , v2 )
8.375
2
1
32.1852 4.56
<
σ 1
2
<
σ 2
2
<
σ 1
2
<
σ 2
s1
2
s2
2
f α / 2 (v 2 , v1 )
8.375
2
32.185 2
6.16
2
0.1484 <
σ 1
2
<
0.417
σ 2
5. Cierto genetista se interesa en la proporción de hombres y mujeres en la población que tienen cierto trastorno sanguíneo menor. En una muestra aleatoria de 1000 hombres se encuentra que 250 lo padecen; mientras que 275 de 1000 mujeres examinadas también lo tienen. Calcule un intervalo de confianza del 95% para la diferencia entre la población de hombres y mujeres que padecen el trastorno sanguíneo. ¿Qué Concluye?
Solución: P1: hombres P2: mujeres p1: proporción de hombres que tienen cierto trastorno sanguíneo menor. p2: proporción de mujeres que tienen cierto trastorno sanguíneo menor. Tamaño de la primera muestra n1 = 1000 hombres. Tamaño de la segunda muestra n 2 = 1000 mujeres. Número de éxitos de la primer muestra x1 = 250. Número de éxitos de la segunda muestra x2 = 275. Proporción de éxitos de la primera muestra
pˆ1
=
x
250
=
n
Proporción de éxito de la segunda muestra
pˆ 2
Proporción de fracasos de la primera muestra
qˆ 1
Proporción de fracasos de la segunda muestra
qˆ 2
1000 x =
n
=1−
=
=
0.25 275
1000
pˆ 1
=1−
=1−
pˆ 2
Diferencia entre proporciones de éxitos
pˆ 1
Intervalo de confianza
IC = 95%
100γ = 100(1 - α) % = 95% => α =0.05 => z1 α 2 => z0.025 −
−
pˆ 2
=
= 0.275
0.25 = 0.75
=1−
0.275 = 0.725
0.25 − 0.275 = −0.025
≅ 1.96
Intervalo de confianza de 95% para la diferencia de las fracciones de población que favorece el convenio. pˆ1 * qˆ1 n1
+
pˆ 2 * qˆ 2 n2
(0.25) * (0.75) (0.275) * (0.725) +
1000
(pˆ 2 − pˆ1 ) − z * α
2
pˆ1 * qˆ1 n1
+
pˆ 2 * qˆ 2 n2
<
1000
≅
0.01967
p 2 − p1 < (pˆ 2 − pˆ1 ) + z α * 2
pˆ1 * qˆ1 n1
+
pˆ 2 * qˆ 2 n2
0.025 – (1.96)*(0.01967) < p 2 – p1 < 0.025 + (1.96)*(0.01967) 0.025 – 0.0385532 < p 2 – p1< 0.025 + 0.0385532 – 0.01355 < p2 – p1< 0.06355
Se afirma con 95% de confianza que la diferencia entre la proporción de hombres y mujeres que padecen el trastorno sanguíneo se encuentra entre – 0.01355 y 0.06355 6. Una compañía petrolera afirma que un quinto de las casas en cierta ciudad se calientan con petróleo. ¿Tenemos razón en dudar de esta afirmación si, en una muestra aleatoria de 1000 casas en esta ciudad, se encuentra que 136 se calientan con petróleo? Utilice un nivel de significancia de 0.01 . H o : p = 0.2 H 1 : p < 0.2 α = 0.01
Si –2.33
ZR 2.33 No se rechaza H o
Si ZR < -2.33 ó si Z R > 2.33 Se rechaza H o
Z R
=
p-P Pq n
Z R
=
p-P Pq n
Z R
=
0.136 - 0.2
(0.2)(0 - 8)
= −5.06
1000
Como ZR es menor que -2,33 se rechaza H 0 y por tanto se concluye que si hay razones para dudar la afirmación de la compañía petrolera. 7. Se sabe que la duración, en horas, de un foco de 75 watts tiene una distribución aproximadamente normal, con una desviación estándar de 25 horas. Se toma una muestra aleatoria de 20 focos, la cual resulta tener una duración promedio de 1014 horas.
a. ¿Existe evidencia que apoye la afirmación de que la duración promedio del foco es mayor que 1000 horas? Utilice un = 0.05.
H o : µ ≥ 1000 H 1 : µ < 1000 α = 0.05
Si –1.96
ZR 1.96 No se rechaza H o
Si ZR < -1.96 ó si Z R > 1.96 Se rechaza H o
Z R
=
X R - µ σ
n
Z R
=
1014 - 1000 25
=
2.50
20
Como ZR es mayor que 1.96 se rechaza H0 y por tanto se concluye que no hay evidencia para la afirmar que la duración promedio del foco es mayor de 1000 horas.
b. ¿Cuál es el valor P para la prueba? El valor de P es P = p(Z > 2.50) = 0.0062
8. En un invierno con epidemia de gripe, una compañía farmacéutica bien conocida estudió 2000 bebes para determinar si la nueva medicina de la compañía era efectiva después de dos días. Entre 120 bebes que tenían gripe y se les administró la medicina, 29 se curaron dentro de dos días. Entre 280 bebés que tenían gripe pero que no recibieron la medicina, 56 se curaron dentro de dos días. ¿Hay alguna indicación significativa que apoye la afirmación de la compañía de la efectividad de la medicina? Utilice un α= 0.05 y Calcule el valor P.
Solución: H o : p1
= p 2
H 1 : p1
> p 2
α = 0.05
En la tabla se encuentra que Z 0.025=1.96 P=
29 + 56 120 + 280
=
0.2125
q = 1 − p = 0.7875
29 56 − 120 280 Z R = = 0.93 1 1 (0.2125 )(0.7875 ) + 120 280 P = p (Z > 0.93) = 0.1762
Como ZR es mayor que 0.93 se rechaza H0 y por tanto se concluye que no hay evidencia para la afirmar que la nueva medicina es más efectiva.
9. Se cree que la portada y la naturaleza de la primera pregunta de encuestas por correo influyen en la tasa de respuesta. Un artículo probó esta teoría al experimentar con diferentes diseños de portadas. Una portada sencilla, y la otra utilizó la figura de un paracaidista. Los investigadores especularon que la tasa de devolución sería menor para la portada sencilla.
Portada
Número de envíos
Número de devoluciones
Sencilla
207
104
Paracaidista
213
109
¿Esta información apoya la hipótesis de los investigadores? Haga la prueba con un nivel de significancia de 0.10
Solución: Se trata de una distribución muestral de diferencia de proporciones. Datos: p1= 104/207= 0.5024 p2 = 109/213= 0.5117 n1=207 n2 = 213
Ho; P1-P2 = 0 H1; P1-P2
0
En la tabla se encuentra que Z 0.05=1.645
P
Z R
=
=
(x 1 + x 2 ) n1
+
n2
=
(104 + 109) 207 + 213
=
(0.5024 − 0.5117) − (0) 1 1 (0.5071)(0.4928) + 207 213
0.5071
=
0.19
No se rechaza Ho.
10. Pruebe la hipótesis de que el contenido promedio de los envases de un lubricante en particular es de 10 litros si los contenidos de una muestra aleatoria de 10 envases son: 10.2, 9.7, 10.1, 10.3, 10.1, 9.8, 9.9, 10.4, 10.3 y 9.8 litros. Utilice un nivel de significancia de 0.01 y suponga que la distribución del contenido es normal.
Solución: P: envases de un lubricante. X: contenido en litros de un envase de ese lubricante. Tamaño de la muestra n = 10 envases. n
∑X Media muestral
x=
i
i =1
10.2 + 9.7 + 10.1 + ......... + 9.8
=
n
10
= 10.06
litros.
Desviación estándar muestral n
∑ (X
− x
)2
i =1
S =
2
n −1
n
i
X)
i =1
s=
∑ ( x
i −
=
n −1
0.544 10 − 1
Nivel de significancia
α = 0.01
Hipótesis nula
H0: µ = 10 litros.
Hipótesis alternativa
H1: µ ≠ 10 litros.
t=
t
Si
−
tα
2
, n −1
<
=
0.0777
2
, n −1
0.2458
X −µ s n
10.06 − 10
t < tα
=
=
0.7722 .
, no se rechaza H 0.
− t 0.01 < ,9 2
t < t 0.01
− t 0.005, 9 <
t < t 0.005,9
2
,9
Aplicando Tabla - 3.250 < t < 3.250 No se rechaza la hipótesis nula ya que el valor de t hallado se encuentra dentro de la región de No Rechazo.
11. Una compañía armadora de automóviles grandes trata de decidir si compra llantas de la marca o de la B para sus modelos nuevos. Se lleva a cabo un experimento para ayudar a llegar a una decisión, en el que se usan 12 llantas de cada marca. Los resultados son:
Marca A: xA = 37,900 Kilómetros; SA = 5,100 Kilómetros. Marca B: xB = 39,800 Kilómetros; SB = 6,900 Kilómetros Pruebe la hipótesis de que no hay diferencia en las dos marcas de llantas con un nivel de significancia de 0.05. También calcule el valor de P, suponiendo normalidad y varianzas diferentes. Solución: Datos: Tamaño de la primer muestra Tamaño de la segunda muestra Desviación estándar de la primer muestra Desviación estándar de la segunda muestra Media de la primer muestra Media de la segunda muestra Hipótesis nula Hipótesis alternativa
n1 = 12 llantas. n 2 = 12 llantas. s1= 5100 Km. s2 = 6900 Km. x 1 = 37900 Km. x 2 = 39800 Km.
H0: µ1 = µ2. H1: µ1 ≠ µ2.
Nivel de significancia
α = 0.05
Rechazo o No Rechazo de la hipótesis nula.
2
v=
2 s12 s n + 2n 1 2 s 2 2 (n 1 − 1) + 2 n (n 2 − 1) 2
s 2 2 1 n 1
(5100 12 6900 12) (5100 ) (11) (6900 12) 12 2
v
=
2
+
2
+
2
2
2
2
(11)
=
20
En la tabla se encuentra que t 0.025= 2.086 con 20 grados de libertad, de aquí, el intervalo de confianza de 95% para es: t =
(X
1
−
X 2 ) − (µ 1 s
2
1
n1 t =
+
s
2
− µ2
2
n2
(37900 − 39800) − (0) 5100 2 12
+
)
6900 2
= −0.313
12
Como -0.313 está entre –2.2086 y 2.086, no se rechaza H o. P
= p
(Z > 2.086) = 0.0183
12. Dos secciones de un curso de estadística son sometidas a un mismo examen final. De las calificaciones obtenidas se extrae una muestra aleatoria de tamaño 9 en la gru po "A", y otra de tamaño 4 en el grupo "B".
Grupo "A":
65, 68, 72, 75, 82, 85, 87, 91, 95
Grupo "B":
50, 59, 71, 80
a. Con un nivel de significación de 0.05 ¿podría decirse que los dos grupos tienen las mismas calificaciones promedio? Suponga que provienen de poblaciones normales con varianzas iguales. Solución: Tamaño de la primer muestra Tamaño de la segunda muestra
n1 = 9 n 2 = 4
n
∑ X
i
X 1
=
i =1
=
n
65 + 68 + 72 + .......... + 95 9
=
n
∑ X
i
X 1
=
i =1
n
=
50 + 59 + 71 + 80 4
=
65
80
n
∑ ( x S 1
i
− x
i =1
=
= 10.50
n −1 n
∑ ( x S 2
)2
i
− x
)2
i =1
=
= 13.1909
n −1
Desviación estándar de la primer muestra Desviación estándar de la segunda muestra Media de la primer muestra Media de la segunda muestra Hipótesis nula Hipótesis alternativa
s1= 10.50. s2 = 13.1909. x 1 = 80. x 2 = 65.
H0: µ1 = µ2. H1: µ1 ≠ µ2.
Nivel de significancia
α = 0.05
s p
(s )* (n 2 1
=
1
)
−1 +
(s )* (n 2 2
2
n1 + n2 − 2
(10.50 )* (9 − 1) + (13.1909 )* (4 − 1) 2
s p
=
2
9+4−2
(10.50 )* (9 − 1) + (13.1909 )* (4 − 1) 2
s p
=
2
9+4−2 t =
11.2976
−
t α
2
1 n1
+
1 n2
(80 − 65) − (0)
t =
, n1 + n 2 − 2
<
t < t α
− t 0.05 − t 0.025 ,11 <
= 11.2976
(X1 − X2 ) − (µ1 − µ 2 ) s p
Si
)
−1
2
2
1 9
+
, n1 + n 2 − 2
,9 + 4 − 2
<
1
=
2.209
4
, no se rechaza H 0.
t < t 0.05
2
, 9+ 4 − 2
t < t 0.025 ,11 Aplicando Tabla t −
2.201 < t < 2.201
Si rechazamos la hipótesis nula ya que el valor de t hallado no se encuentra dentro de la región crítica. P
=
2 p(Z > 2.201) = 0.0445
BIBLIOGRAFIA •
Material de estudio Ingeniero Néstor Agudelo Díaz unidades 5 y 6.
•
http://wiki11estadistica.wikispaces.com/estadistica+inferencial
•
http://www.edukanda.es/mediatecaweb/data
•
http://colposfesz.galeon.com/est501/suma/sumahtml/conceptos/estadistica.h tm
•
http://www.ditutor.com/estadistica/inferencial