Estimación por Intervalo
1
La estimación puntual generalmente difiere del verdadero valor del parámetro. En muchos casos esto no es suficiente; se requiere de un rango de posibles valores donde se cree el parámetro de interés estará estará con una alta alta confianz confianza. a. Sea un θ pará parámet metro ro de inte interé rés s y un estimador puntual de θ. Una estimación de θ por intervalos intervalos es un intervalo real de la forma: form a:
donde l y u depe depende nden n de
y de la distr distribu ibució ción n de
los extremos son v.a. Se denomina también
l ( X 1 , X 2 ,..., X n )
u ( X 1 , X 2 ,..., X n )
INTERVAL INTERV ALO O ALE A LEAT ATORIO ORIO 2
Para una m.a. dada el intervalo ( l , u ) es llamado in inte terv rva alo de confianza al 100(1- α)% para θ. l y u son llamados limites de confianza (inferior y superior respectivamente) y 1 - α es llamado coef coefic icie ient nte e de conf confia ianz nza. a. Este ste inte interv rval alo o se cono conoce ce como como IC Bilateral, pero también es posible calcular IC unilaterales : a) Por su extremo o cota se clasifican en:
b) Por la región que estiman se clasifican en:
I.C hacia la derecha I.C hacia la izquierda En un IC bilateral la longitud u - l es una medida de la calidad de la información obtenida. El semiintervalo θ - l ó u se conoce como Precisión del Estimador . Lo ideal es tener IC angostos con una alta confianza.
3
Método gene general ral para obtener obtener int inte ervalos de confi co nfia anza Sea X1, X2,..., Xn una m.a. de una distribución que depende de un parámetro θ. Supongamos que existe una función (es decir, una función de la muestra y del parámetro denominado pivo pivote te)) cuy cuya dist distri ribu buci ción ón no depe depend nde e de θ ni ni de ning ingún otro parámetro desconocido. Entonces, existen dos valores a y b tales que: a partir de esta expresión, es posible obtener un intervalo de confianza para θ .
son los límites de confianza, y para una muestra muest ra en en particu parti cular lar se obtiene obt iene el el I. C. C.
4
Distribución muestral del pivote pivote
5
6
Representación de 100 intervalos de confianza para la media µ de una población N(µ, σ2), con muestras del mismo tamaño n y coeficiente de confianza del 0.95.
Si los intervalos de confianza mostrados son del 95% significa que si se construye un gran número de ellos, el 95% de ellos contendrá a la media
7
Estimación de Intervalos
En la práctica se obtiene solamente una muestra y se calcula con ella un intervalo de confianza dicho intervalo contiene o no contiene a µ, no es razonable asignar una probabilidad a este evento.
La proposición adecuada es que el intervalo contiene a µ “con una confianza” del 95%. La longitud del intervalo de confianza (u-l) es una medida de la calidad de la información obtenida en la muestra, al semi intervalo u- θ, o θ-l se le llama Precisión del estimador. ¿Qué significado tiene un intervalo grande? ¿És deseable que sea grande o que sea pequeño? ¿Qué relación tiene con el valor de 1- α?
usar
9
Ejemplo: Una muestra aleatoria de 36 cigarrillos de una marca determinada dio un contenido promedio de nicotina de 3 miligramos. Suponga que el contenido de nicotina de estos cigarrillos sigue una distribución normal con una desviación estándar de 1 miligramo. a) Obtenga e interprete un intervalo de confianza del 95% para el verdadero contenido promedio de nicotina en estos cigarrillos. b) El fabricante garantiza que el contenido promedio de nicotina es de 2,9 miligramos, ¿qué puede decirse de acuerdo con el intervalo hallado?
10
Solución a)
Interpretación: Tenemos una certeza del 95% de que el verdadero contenido promedio de nicotina se halla entre 2´67 y 3´33 miligramos
b) Como 2´9 se encuentra en el intervalo hallado no podemos descartarlo como valor posible del parámetro 11
Ejemplo:
Solución
12
Solución
13
usar
b)
14
Ejemplo:
15
Solución
El redondeo puede afectar la precisión de los resultados
16
17
vemos como, efectivamente, cuando aumenta el nivel de confianza aumenta la amplitud del intervalo. 18
Ejemplo: El tiempo (en minutos) que tardaron 15 operarios para familiarizarse con el manejo de una máquina moderna adquirida por la empresa fue: 3.4, 2.8, 4.4, 2.5, 3.3, 4, 4.8, 2.9, 5.6, 5.2, 3.7, 3, 3.6, 2.8, 4.8. Suponga que los tiempos se distribuyen normalmente. a) Determine e interprete un intervalo del 95% de confianza para el verdadero tiempo promedio. b) El instructor considera que el tiempo promedio requerido por la población de trabajadores que recibe instrucción sobre esta máquina es superior a 5 minutos, ¿qué se puede decir de acuerdo con el intervalo hallado?
19
Solución a)
Interpretación: Tenemos un 95% de certeza de que el verdadero tiempo promedio que requieren los operarios para familiarizarse con la máquina está entre 3´26 y 4´34 minutos. b) La apreciación del instructor no parece ser correcta ya que el promedio 5 minutos está fuera del intervalo hallado (aunque debería analizarse con un I.C. unilateral) 20
21
22
Ejemplo En un estudio sobre los préstamos realizados por dos entidades financieras a sus clientes, se toma una muestra aleatoria de 6 préstamos de la primera entidad observando que el importe medio es de 9972 nuevos soles y una desviación típica de 7470 nuevos soles. Una muestra aleatoria, independiente de la anterior, de tamaño 9, de préstamos de la segunda entidad muestra un importe medio de 2098 nuevos soles y una desviación típica de 10834 nuevos soles. Admitiendo que las dos distribuciones poblacionales de préstamos son normales con la misma varianza, obtener al nivel del 95 % un intervalo de confianza para la diferencia entre sus medias poblacionales.
23
Solución
24
Observemos que este intervalo incluye el cero, lo cual podemos interpretarlo como que no existe diferencia significativa entre los importes medios de los prestamos de ambas entidades financieras al 95 % de confianza.
25
26
Ejemplo Supongamos que una máquina automática de envasado de un producto químico está preparada para depositar 8 c.c. de producto en cada frasco de la cadena de envasado. Antes de proceder a una revisión y ajuste de la máquina se toma una muestra aleatoria de 4 frascos observando que la cantidad, medica en c.c. depositada de producto químico en cada frasco ha sido:
Después de revisada y ajustada la máquina se vuelve a tomar otra muestra aleatoria de 5 frascos, observando que las cantidades depositadas de producto químico han sido:
Suponemos que las distribuciones del contenido de producto químico en los frascos son normales y que la varianza poblacional varía cuando la máquina se revisa y se ajusta. Obtener un intervalo de confianza al nivel de confianza del 98 % para la diferencia de las medias poblacionales.
27
Solución
28
29
30
Ejemplo La tabla siguiente muestra el consumo de gasolina por 1000 km de una muestra aleatoria de 10 automóviles con dos carburantes X e Y. Si admitimos que los consumos de gasolina se distribuyen normalmente, obtener un intervalo de confianza al nivel del 99 % para la diferencia de las medias poblacionales.
31
Solución Con la información de la tabla podemos obtener las diferencias y luego la media y la varianza de las diferencias di en el consumo de gasolina.
32
33
34
35
Ejemplo: Un ingeniero de control de la calidad midió el espesor de la pared de 25 botellas de vidrio de 2 litros. La media muestral resultó 4.05 m.m. y la desviación típica 0.08 mm. Obtener un intervalo de confianza al 90% para la variabilidad del espesor de la pared de las botellas Solución
36
37
Ejemplo:
Una compañía fabrica piezas para turbinas. Tiene dos procesos distintos para hacer el esmerilado de las piezas y ambos procesos producen terminados con la misma rugosidad promedio. El ingeniero del proceso desea seleccionar el proceso con la menor variabilidad en la rugosidad de la superficie. Para ello toma una muestra de 12 piezas del primer proceso, obteniendo una desviación estándar muestral s1= 5.1 micropulgadas, luego toma una muestra de 15 piezas del segundo proceso, obteniendo s2= 4.7. ¿Puede elegir el primer proceso con una confianza del 90% de tener menor variabilidad en la rugosidad?
38
Solución:
Suponiendo que los dos procesos son Normales e independientes. Usando la tabla F, obtenemos f 0.95=2.7386 y f 0.05=0.3898, por lo tanto, 5.12 4.7 2
(0.3898) ≤
2
σ
1 2
σ
2
5.12 ≤ 4.7 2
(2.7386)
Haciendo operaciones: 0.46 ≤
σ
2
1
σ 2
2
≤
3.23
Como el intervalo incluye la unidad, no se puede concluir que los procesos tengan variabilidad variabilidad significativamente significativamente diferente con una confianza del 90%
39
Ejemplo: Se piens iensa a que que la con concen centra tració ción del ingred redien iente acti ctivo de un detergente líquido para ropa está afectado por el tipo de catalizador utilizado en el proceso de fabricación. Por experiencias anteriores se supone que la desviación estándar de la concentración activa es de 3 g/l, sin importar el tipo de catalizador utilizado. Se toman 10 observaciones con cada catalizador y se obtienen los siguientes datos:
Obt Obtén un interv terval alo o de con confian fianz za al 90% 90% para el coci cocie ente de varia rianza nzas?. ¿Pue ¿Pued de supon ponerse la mis misma variab riabiilid lidad en la concentración concentración con el empleo de ambos catalizadores?. catalizadores?.
40
Solución
41
reemplazando en el denomin ador del pivote p por su estimador. Observación Usar
42
Intervalos de confianza unilaterales
43
Ejemplo: En una elección los votantes deben elegir entre dos candidatos A y B. Un estudio reciente reveló que 1400 personas de un total de 2500 seleccionadas aleatoriamente, tienen preferencia por el candidato A. a) Obtener un intervalo de confianza al 99% para la verdadera proporción de votantes a favor del candidato A. Con base en este resultado, ¿podría usted afirmar que es probable que A gane la elección? ¿Por qué? b) Supóngase que se selecciona aleatoriamente una muestra de 225 personas con la misma proporción muestral a favor del candidato A. ¿Son los resultados diferentes a los del literal a)? c) En este caso, ¿son razonables las suposiciones para los intervalos de confianza aproximados del 99%?
44
Solución
La proporción muestral está dada por:
Y como el tamaño de la muestra es mayor a 30, entonces:
45
46
c) Es claro que la distribución de Xi no es en realidad Bernoulli lo cual se debe a que en la práctica la selección no se hace con reposición. Sin embargo, dado que el tamaño de la población se puede suponer grande en relación a la muestra, la probabilidad de que se encueste dos o más veces a una misma persona se puede suponer despreciable. En cuanto a la aproximación por medio de la normal, es razonable dado que cumple las condiciones de muestra grande.
47
Ejemplo En Lima se toma una muestra aleatoria de 100 votantes y se encuentra que 25 de ellos están a favor de un candidato al Congreso. En Arequipa se toma una muestra aleatoria de 100 votantes y se encuentra que 45 de ellos están a favor del candidato. Estimar con un intervalo de 95% de confianza la diferencia de proporciones.
48
Solución Por conveniencia especificamos:
49
Ejemplo Un ingeniero analiza la resistencia a la compresión del concreto con una desviación estándar de 31.62 psi. De una m.a. de 49 especimenes se obtuvo una resistencia promedio de 3250 psi Construya un I.C al 95% para la resistencia media a la compresión de este concreto. 50
Solución Suponga que X1,…,X49 es una m.a que representa las resist encias a la compresión de 49 especimenes de este concr eto y s uponga que E[Xi] = μ y V[Xi] = 2 , i =1,…,49. Un I. C. aproximado al 100(1- )% para μ es: Donde
51
Tenemos
52
APLICACIÓN DE LA DESIGUALDAD DE CHEBYCHEV PARA LA OBTENCIÓN DE INTERVALOS DE CONFIANZA
53
54
Ejemplo En una central telefónica se seleccionan 150 llamadas telefónicas, observándose que el tiempo medio que tardan en descolgar el teléfono los receptores de esas llamadas era de 2 segundos, con una desviación típica de 0,6 segundos. Se pide, para un nivel de confianza del 99 %: 1. Sin hacer ninguna hipótesis sobre la población de llamadas telefónicas, obtener un intervalo de confianza para el tiempo medio que tardan los usuarios en descolgar el teléfono, suponiendo que la desviación típica poblacional es 0,6. 2. Suponiendo que la población de llamadas telefónicas sigue una distribución normal con desviación típica 0,6, obtener un intervalo de confianza para el tiempo medio que tardan los usuarios en descolgar el teléfono. 3. Idem al caso anterior pero sin conocer la desviación típica de la población.
55
Solución
56
57
58
Determinación del tamaño de muestra n para estimar la media poblacional (N infinito) E = z1-
σ
/2
α
es la mitad del ancho del intervalo de confianza
n (producto del coeficiente y el error estándar) y se denomina error máximo de estimación E.
Dado un valor de error y un cierto nivel de confianza, podemos estimar cuál sería el tamaño de la muestra
Análogamente ocurre para el caso en que σ no es conocida, y tendríamos: 59
Ejemplo Se desea estudiar la variable altura de los individuos de una población, considerando que ésta es una variable que se distribuye de modo gaussiana. Para ello se tomó una muestra de 25 individuos (que podemos considerar piloto), que ofreció los siguientes resultados:
Calcular el tamaño que debería tener una muestra para que se obtuviese un intervalo de confianza para la media poblacional con un nivel de confianza al 99% y con una precisión de E=1 cm.
60
Solución En este caso se obtiene:
Por tanto, si queremos realizar un estudio con toda la precisión requerida en el enunciado se debería tomar una muestra de 694 individuos. Esto es una indicación de gran utilidad antes de comenzar el estudio. Una vez que el muestreo haya sido realizado, debemos confirmar que el error para el nivel de significación dado es inferior o igual a 1 cm, utilizando la muestra obtenida. 61
Ejemplo Una tienda de donas se interesa en estimar su volumen de ventas diarias. Supóngase que el valor de la desviación estándar es de $50. a) Si el volumen de ventas se encuentra aproximado por una distribución normal, ¿cuál debe ser el tamaño de la muestra para que con una probabilidad de 0.95 la media muestral se encuentre a no más de $20 del verdadero volumen de ventas promedio? b) Si no es posible suponer que la distribución es normal, obtener el tamaño necesario de la muestra para la pregunta anterior.
62
Solución
63
Determinación del tamaño de muestra n para estimar la media poblacional (N finito)
E= z1-
σ
/2
α
n
N − n N − 1
es la mitad del ancho del intervalo de
confianza (producto del coeficiente y el error estándar) por el factor de corrección para población finita y se denomina error máximo de estimación E. Dado un valor de error y un cierto nivel de confianza, podemos estimar cuál sería el tamaño de la muestra n
2 2 z1−α / 2σ N = 2 2 2 z1−α / 2σ + E N −
(
1) 64
Ejemplo Interés: Conocer el salario semanal promedio de trabajadores en una zona de cierto distrito de Lima (se asume que son 1800 trabajadores). El estudio queremos realizarlo mediante una muestra y necesitamos calcular el tamaño de muestra n, considerando un grado de confianza del 95%. Los resultados de un estudio preliminar proporciona un promedio de 210 nuevos soles y una desviación estándar de 30 nuevos soles semanal. Con un error relativo del 6%, obtener el tamaño de n.
65
Solución Definición de error relativo: Er = (E/media)*100 E = (Er*media)/100 Por consiguiente: E= (6*210)/100 = 12.6 Grado de confianza 95%, nos indica que Z=1.96. Reemplazando valores en la formula se tiene: n=[(1.96) 2(30)2(1800)]/[1.962(30)2+(12.6)2(1799)] =22 Por tanto, n=22 se requiere como mínimo 22 trabajadores.
66
Determinación del tamaño de muestra n para estimar la proporción poblacional (N infinito)
E=
z1- /2 ε
pˆ qˆ
n
es la mitad del ancho del intervalo de confianza
(producto del coeficiente y el error estándar) y se denomina error máximo de estimación E. Dado un valor de error y un cierto nivel de confianza, podemos estimar cuál sería el tamaño de la muestra 2
n=
z1−
α
ˆˆ
/ 2 pq 2
E
67
Observación: Si se desconoce el valor de p, se debe utilizar p = 0.5. Se utilizarán diferentes valores y se sustituirán en la formula para observar los diferentes tamaños de muestras. El nivel de confianza que se utilizará es del 95% con un error de estimación de 0.30.
68
Ejemplo Para poder controlar la fabricación de un producto se toman 85 muestras de un determinado componente y se concluye que 10 de ellos no cumplen las especificaciones. ¿Cuál debería ser el tamaño de la muestra si se quiere que el error cometido al estimar la proporción sea menor de 0.05 con una probabilidad 0.95?. Solución
69
70
Ejemplo
71
Solución
72
Determinación del tamaño de muestra n para estimar la proporción poblacional (N finito)
E = z1-
/2
α
pˆ qˆ N − n n N − 1
es la mitad del ancho del intervalo de
confianza (producto del coeficiente y el error estándar) y se denomina error máximo de estimación E. Dado un valor de error y un cierto nivel de confianza, podemos estimar cuál sería el tamaño de la muestra 2
n=
z1−
2
z1−
α
pq / 2 N 2
ˆˆ ˆ qˆ + E ( N − 1) / 2 p α
73
Ejemplo El Director de un Colegio Nacional desea calcular la proporción de los 1000 alumnos de último año que piensan seguir estudios en la universidad. ¿Qué tamaño debe tener la muestra que necesita tomar el director si su estimación debe estar a 0,04 del valor verdadero. con 99% de confianza? El año anterior, el 70% de los alumnos encuestados dijeron que tenían planeado seguir estudios en la universidad.
74
75
Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Medias Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado por:
En esta ecuación se nos pueden presentar dos casos: - Los tamaños de muestra son iguales. - Los tamaño de muestra son diferentes. Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja n ya que n 1 es igual a n 2.
76
Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.
77
Ejemplo Un director de personal quiere comparar la efectividad de dos métodos de entrenamiento para trabajadores industriales a fin de efectuar cierta operación de montaje. Se divide un número de operarios en dos grupos iguales: el primero recibe el método de entrenamiento 1, y el segundo, el método 2. Cada uno realizará la operación de montaje y se registrará el tiempo de trabajo. Se espera que las mediciones para ambos grupos tengan una desviación estándar aproximadamente de 2 minutos. Si se desea que la estimación de la diferencia en tiempo medio de montaje sea correcta hasta por un minuto, con una probabilidad igual a 0.95, ¿cuántos trabajadores se tienen que incluir en cada grupo de entrenamiento?
Solución Se tiene que: σ1 = σ2 = 2 y γ = 0.95 ⇒ Z0.975 = 1.96
Cada grupo debe contener aproximadamente 31 empleados. 78
Cálculo del Tamaño de la Muestra para Estimar la Diferencia de Proporciones Si se recuerda a la distribución muestral de diferencia de medias se tiene que error esta dado por:
En esta ecuación se nos pueden presentar dos casos: - Los tamaños de muestra son iguales. - Los tamaño de muestra son diferentes. Para el primer caso no se tiene ningún problema, se eleva al cuadrado la ecuación y se despeja n ya que n 1 es igual a n2.
79
Para el segundo caso se pondrá una n en función de la otra. Este caso se utiliza cuando las poblaciones son de diferente tamaño y se sabe que una es K veces mayor que la otra.
80
Ejemplo Una compañía de productos alimenticios contrató a una empresa de investigación de mercadotecnia, para muestrear dos mercados, I y II, a fin de comparar las proporciones de consumidores que prefieren la comida congelada de la compañía con los productos de sus competidores. No hay información previa acerca de la magnitud de las proporciones P1 y P2. Si la empresa de productos alimenticios quiere estimar la diferencia dentro de 0.04, con una probabilidad de 0.95, ¿cuántos consumidores habrá que muestrear en cada mercado?
Solución
Se tendrá que realizar encuestas a 1201 consumidores de cada mercado para tener una estimación con una confianza del 95% y un error máximo de 0.04. 81
Ejercicio Para calibrar un nuevo aparato de medida, un investigador realizó 15 mediciones, en las que obtuvo los siguientes errores: -0.10 -0.15 0.00 0.50 0.10 -0.20 -0.15 0.20 0.25 0.30 -0.45 -0.40 0.35 0.25 -0.50 Suponiendo que los errores se distribuyen según una ley normal, (a) calcula un intervalo de confianza del error medio de medida con coeficiente de confianza 0,99. (b) Sabiendo que la desviación típica del error es menor o igual a 0,4, ¿cuántas medidas serán necesarias para obtener con probabilidad 99% una estimación del error medio de medida con un error máximo menor o igual a 0,1? (c) Suponiendo que un aparato de medida se considera admisible si la desviación típica de los errores de medida que produce es menor o igual que 0,3, determina si dicho aparato puede ser admisible al nivel de confianza del 99%.
82
Intervalos de Tolerancia
Concepto En ocasiones no nos interesa estimar algún parámetro, sino establecer un rango en donde se puede esperar que caigan observaciones (datos) individuales en un proceso. La respuesta es muy sencilla si se conoce la distribución y los parámetros de la población, por ejemplo, si se obtuvo una muestra aleatoria de una población Normal con media µ y varianza σ2 conocidas, se esperará que el 95% de los datos caerán entre los límites µ ± 1.96σ A este intervalo se le llama intervalo de tolerancia y si µ y σ son conocidos la cobertura del 95% es exacta
Observaciones
Si µ y σ son desconocidos a veces se puede determinar una constante k tal que los límites constituyan un intervalo de tolerancia para una distribución normal. En este caso los límites del intervalo son variables aleatorias y la proporción de datos cubierta por el intervalo no es exacta. A medida que n tiende a infinito la longitud de un intervalo de confianza tiende a cero. A medida que n tiende a infinito la longitud de un intervalo de tolerancia tiende al “valor” que tendría si se conocieran todos los parámetros de la población.
Resumen de intervalos de confianza
85
Otros intervalos de Confianza
Resumen de intervalos de confianza Parámetros de interés La media µ
Suposiciones Dist. Muestral Normal (o n grande) σ2 conocida σ2 desconocida (Dist. Muestral t)
La varianza σ2
Dist. Normal (Dist. Muestral Chi 2 )
Proporción p
Dist. Muest. Normal (N grande, p alejado de 0 y de 1)
Cociente de varianzas Dos poblaciones Normales e independientes (Dist. Muestral tipo F) σ12/σ22 Diferencia de medias
σ12 y σ22 conocidas
µ1−µ2
Distribuciones σ12 = σ22 desconocidas (Dist muest t) normales, σ12 ≠ σ22 desconocidas (Dist muest t)
Diferencia entre dos proporciones p1-p2
Dist. Muestral Normal (n 1 y n2 grandes, p1 y p2 alejados de 0 y de 1) Otras... (Ver libros de estadística)
87