9. Estimaci´on on por intervalos de confianza Estad´ıstica Inge In geni nier´ er´ıa Infor nf orm´ m´atic at ica a
Curso 2009-2010
Contenidos
1
Estimaci´ on por intervalos de confianza on
2
Estimaci´ on por intervalos bajo normalidad on Estimaci´on on de la media poblacional µ. Varianza conocida Determinaci´ on on del tama˜ no muestral para controlar el error de estimaci´ no on on
Estimaci´on on de la media poblacional µ. Varianza desconocida Determinaci´ on on del tama˜ no muestral para controlar el error de estimaci´ no on on
Estimaci´on on de la diferencia de medias A. Varianzas conocidas B. Varianzas desconocidas e iguales
Estimaci´ on on de la varianza Estimaci´on on del cociente de varianzas 3
Estimaci´ on por intervalos en poblaciones no normales on Estimaci´on on de la media. Varianza conocida Estimaci´on on de la media en poblaciones no normales. Varianza desconocida Estimaci´ on on de la proporci´ on en distribuciones binomiales on
Contenidos
1
Estimaci´ on por intervalos de confianza on
2
Estimaci´ on por intervalos bajo normalidad on Estimaci´on on de la media poblacional µ. Varianza conocida Determinaci´ on on del tama˜ no muestral para controlar el error de estimaci´ no on on
Estimaci´on on de la media poblacional µ. Varianza desconocida Determinaci´ on on del tama˜ no muestral para controlar el error de estimaci´ no on on
Estimaci´on on de la diferencia de medias A. Varianzas conocidas B. Varianzas desconocidas e iguales
Estimaci´ on on de la varianza Estimaci´on on del cociente de varianzas 3
Estimaci´ on por intervalos en poblaciones no normales on Estimaci´on on de la media. Varianza conocida Estimaci´on on de la media en poblaciones no normales. Varianza desconocida Estimaci´ on on de la proporci´ on en distribuciones binomiales on
Estimaci´ on por intervalos de confianza on
Estimaci´on on por intervalos La estimaci´ on on por intervalos de un par´ ametro ametro desconocido θ proporciona informaci´ on on acerca de los valores de los par´ ametros ametros que estamos estimando una indicaci´ on del nivel de confianza que se le puede dar a los on posible po sibless valores de los par´ametros ametro s Un intervalo de confianza para θ es de la forma L θ U , donde los extremos inferior y superior L y U depe de penden nden del valor num´erico erico obtenido obteni do en una muestra para un cierto estad´ estad´ıstico T , escogido seg´ un un el par´ par´amet ametro ro θ que queremos estimar.
≤ ≤
L y U son variables son variables aleatorias (distintas aleatorias (distintas muestras producen distintos valores de L y U )
Estimaci´ on por intervalos de confianza
A partir de la distribuci´ on de T , y para un valor α, 0 < α < 1, determinamos los valores de L y U que hacen que P (L
≤ θ ≤ U ) = 1 − α
⇒ hay probabilidad 1 − α de que al seleccionar la muestra, ´esta produzca un intervalo que contenga el verdadero valor de θ
El intervalo resultante, IC 100(1−α) % , se denomina intervalo de confianza del 100(1 α) % para θ
−
Estimaci´ on por intervalos de confianza
Interpretaci´on del
IC 100(1 α) %
−
:
Si obtenemos un n´ umero elevado (infinito) de muestras aleatorias y calculamos para cada una de ellas el correspondiente IC 100(1−α) % para θ, entonces el 100(1 α) % de estos intervalos contendr´an el verdadero valor de θ.
−
En la pr´actica s´ olo se obtiene una muestra aleatoria, y calculamos un intervalo de confianza. Este intervalo contendr´a o no al verdadero valor del par´ametro θ no tiene sentido atribuir una probabilidad al hecho de que s´ı lo contenga se dice que el intervalo contiene a θ con una confianza de 100(1 α) % (y no con una probabilidad de 100(1 α) %)
⇒
⇒ −
−
Estimaci´ on por intervalos de confianza
Longitud y precisi´on
La longitud de un intervalo de confianza, U L, es una importante medida de la calidad de la informaci´ on obtenida de la muestra.
−
La mitad de esta longitud se conoce como precisi´ on. cuanto mayor sea la longitud de un intervalo, mayor confianza tendremos en que contenga al verdadero valor del par´ ametro cuanto mayor sea la longitud del intervalo, tendremos menos informaci´ on acerca del verdadero valor del par´ ametro
Estimaci´ on por intervalos de confianza
Intervalos bilaterales y unilaterales Este intervalo de confianza se denomina intervalo bilateral (proporciona los dos extremos del intervalo) Puede resultar conveniente el c´alculo de un intervalo unilateral para el extremo inferior L θ
≤
con L tal que P (L
≤ θ) = 1 − α,
o intervalo unilateral para el extremo superior θ con U tal que P (θ
≤ U ) = 1 − α
≤ U
Estimaci´ on por intervalos de confianza
Cantidades pivotales (I) Dada una m.a.s. (X 1 ,..., X n ) de una poblaci´ on X con distribuci´ on F θ , siendo θ = (θ1 ,...,θk ), se llama cantidad pivotal para θi a una funci´ on de la muestra (por tanto, es v.a.) y de θi , C (X 1 ,..., X n ; θi ), donde θi es la u ´nica cantidad desconocida y cuya distribuci´ on no depende de θi , ni de ning´ un otro par´ametro desconocido.
Ejemplo.
Sabemos que ¯ X
≡ N (
µ, σ ):
X
≡ N
√ µ,
σ
n
,
o tambi´en:
¯ X
−√ µ = √ n X ¯ − µ ≡ N (0, 1) σ
σ/ n
por tanto, si conocemos σ, ¯ − µ √ X C (X ,..., X ; µ) = n 1
es una cantidad pivotal para µ.
n
σ
Estimaci´ on por intervalos de confianza
Cantidades pivotales (II)
Elegida una cantidad pivotal C (X 1 , ..., X n ; θi ), podemos construir un intervalo de confianza para θi de la siguiente manera: Elegimos dos valores c 1 y c 2 tales que P (c 1
≤ C (X 1,..., X ; θ ) ≤ c 2) = 1 − α n
i
Despejamos θi en ambas desigualdades para obtener los extremos del intervalo L y U .
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Queremos estimar µ a partir de (X 1 , ..., X n ) mediante un IC del 100(1 α) % σ ¯ X tiene distribuci´ on N µ,
−
√ n
⇒ Z = σ/¯ −√ µ ≡ N (0, 1) X
n
(cantidad pivotal para µ)
α a
Area = – area = 2 2
−−z z /
/2
a 2 α
P ( z α/2
− ≤ Z ≤ z α/2) = P
−
z α/2
a α
Area =– area = 2
¯ X
0
2
z /2 a z /2 α
≤ σ/ −√ nµ ≤ z α/2
=1
−α
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Queremos estimar µ a partir de (X 1 , ..., X n ) mediante un IC del 100(1 α) % σ ¯ X tiene distribuci´ on N µ,
−
√ n
⇒ Z = σ/¯ −√ µ ≡ N (0, 1) X
n
α a
Area = – area = 2 2
(cantidad pivotal para µ)
−−z z /
0
/2
a 2 α
−
¯ P X
z α/2
σ
√ n ≤ µ ≤
a α
Area =– area = 2
z /2 a z /2 α
√
σ ¯ X + z α/2
n
=1
−α
2
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Queremos estimar µ a partir de (X 1 , ..., X n ) mediante un IC del 100(1 α) % σ ¯ X tiene distribuci´ on N µ,
−
√ n
⇒ Z = σ/¯ −√ µ ≡ N (0, 1) X
n
(cantidad pivotal para µ)
α a
Area = – area = 2 2
−−z z /
/2
a 2 α
σ √ − z α/2 n
¯ L = X
y
a α
Area =– area = 2
0
z /2 a z /2 α
σ ¯ U = X + z α/2
√ n
2
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Ejemplo: Cuando una se˜ nal que tiene valor µ es enviada desde un punto A a un punto B, el valor recibido tiene distribuci´ on normal de media µ y varianza 4 (es decir, al transmitir la se˜ nal, se a˜ nade un ruido aleatorio de distribuci´ on N (0, 2)). Para reducir el error, se env´ıa el mismo valor 9 veces, de manera que el valor medio recibido es x¯ = 9. Calculemos el intervalo de confianza del 95 % para µ. Se tiene: z α/2 = z 0,05/2 = z 0,025 = 1,96, σ = 2 y n = 9 el intervalo para µ es 2 2 9 1,96 , 9 + 1,96 = (7,69, 10,31) 3 3
⇒
−
×
×
Tenemos una confianza del 95 % de que el verdadero valor enviado est´e entre 7,69 y 10,31.
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Determinaci´on del tama˜no muestral para controlar el error de estimaci´on Longitud del IC 100(1−α) % para µ: σ √ L = 2 · z α/2 n cuanto mayor sea el nivel de confianza, para n y σ fijos, mayor ser´a L Error que cometemos al estimar un par´ ametro mediante su estimador:
| − X ¯ |
E = µ
si podemos controlar el tama˜ no muestral, podemos escoger n para tener una confianza del 100(1 α) % de que E sea menor que una cierta cota : σ 2 n = z α/2
−
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza conocida
≡ N (
µ, σ ), σ conocida
Se quiere medir la velocidad de un nuevo modelo de procesador, y para ello se va a ejecutar un programa de simulaci´ on en algunos ordenadores, con dicho modelo incorporado. Suponiendo que la variable aleatoria X , tiempo de ejecuci´ on, es normal, de varianza 9, obtener el tama˜ no muestral necesario para obtener un intervalo de longitud 2 y de nivel de confianza 95 % para el tiempo medio de ejecuci´ on del programa de simulaci´ on. Como la longitud del intervalo es 2z α/2
σ
3
√ n = 2 ⇒ 1,96 √ n = 1 ⇒ n = 1,962 ∗ 9 = 34,57
es decir, n ha de ser 35 para asegurarse una confianza de al menos el 95 %.
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza desconocida
≡ N (
µ, σ ), σ desconocida
Queremos estimar µ a partir de (X 1 , ..., X n ) mediante un IC 100(1−α) % ¯ µ X √ no es cantidad pivotal, pues es funci´on de dos par´ametros Z = − σ/ n
desconocidos. ¯ µ X t = tiene distribuci´ on t n−1 , ya que: s n−1 / n
−√
¯ X
−√ µ ≡ N (0, 1),
σ/ n
(n
s n2−1
2
− 1) σ2 ≡ χ −1 , n
t =
¯ X ¯ X
µ −√
s n−1 / n
=
−√ µ
σ/ n
− (n
s n2−1
1) σ2 n 1
−
t es una cantidad pivotal para µ
P ( t n−1;α/2
−
≤ t ≤ t ;α/2) = P n1
−
¯ X
µ ≤ s − 1−/√ ≤ t −1;α/2 n
t n−1;α/2
n
n
=1
−α
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
µ.
Varianza desconocida
≡ N (
µ, σ ), σ desconocida
Queremos estimar µ a partir de (X 1 , ..., X n ) mediante un IC 100(1−α) % ¯ µ X √ no es cantidad pivotal, pues es funci´on de dos par´ametros Z = − σ/ n
desconocidos. ¯ µ X t = tiene distribuci´ on t n−1 , ya que: s n−1 / n
−√
¯ X
−√ µ ≡ N (0, 1),
σ/ n
(n
s n2−1
2
− 1) σ2 ≡ χ −1 , n
t =
¯ X ¯ X
µ −√
s n−1 / n
=
−√ µ
σ/ n
− (n
t es una cantidad pivotal para µ
− t −1;α/2 s √ −n1
¯ L = X
n
n
y
s n−1 ¯ = + U X t n−1;α/2
√ n
s n2−1
1) σ2 n 1
−
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la media poblacional
Estimaci´ on de la media.
X
≡ N (
Longitud del IC 100(1−α) % para µ: s n−1 L = 2 t n−1;α/2 n
√
Error de estimaci´ on E menor que si tomamos: n=
t n−1;α/2
Varianza desconocida
µ, σ ), σ desconocida
Determinaci´on del tama˜no muestral
·
µ.
S
2
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la diferencia de medias
Estimaci´ on de la diferencia de medias. Poblaciones normales independientes. Varianzas conocidas (X 1 , ..., X nX ), (Y 1 ,..., Y nY ) m.a.s. de dos poblaciones normales independientes N (µX , σX ) y N (µY , σX ), respectivamente, con varianzas conocidas. Queremos construir un IC para la diferencia µX µY . ¯ Y ¯ (µX µY ) X Z = N (0, 1) es cantidad pivotal para la 2 2 σX σY +
− −
−
nx
ny
diferencia µX
−
≡
− µ
¯ L = X
− Y ¯ − z α/2
Y .
2 σX
nX
+
2 σY
nY
y
¯ U = X
− Y ¯ + z α/2
2 σX
nX
+
2 σY
nY
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la diferencia de medias
Estimaci´ on de la diferencia de medias. Poblaciones normales independientes. Varianzas desconocidas e iguales (X 1 ,..., X nX ) m.a.s. N (µX , σX ) (Y 1 ,..., Y nY ) m.a.s. N (µY , σX )
2 y σ 2 desconocidas e iguales. con σX Y
Queremos construir un IC para la diferencia µX µY . ¯ Y ¯ (µX µY ) X Cantidad pivotal: t = t nX +nY −2 1 1 S p +
− −
−
nX
¯ L = X
¯ Y
− − t
nX +nY −2;α/2 S p
1
nX
−
≡
nY
con S p 2 =
(nX −1)s n2−1;X +(nY −1)s n2−1;Y nX +nY −2
1
+
nY
¯ U = X
− Y ¯ + t
nX +nY −2;α/2 S p
1
nX
+
1 nY
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la diferencia de medias
Ejemplo: Se piensa que los estudiantes de licenciatura de periodismo pueden esperar un mayor salario promedio en su primer trabajo que el que esperan los estudiantes de administraci´ on, y para comprobarlo, se desea construir un intervalo de confianza del 90 % para la diferencia de medias, suponiendo que la varianza en ambos salarios es la misma. Se obtienen dos muestras aleatorias simples de ambos grupos, que proporcionan los siguientes datos: nP = 10, x¯P = 16250, s n2−1;P = 1187222,22, nA = 14, x ¯A = 15400, s n2−1;A = 1352307,69. Se obtiene que S p = 1133,48, y puesto que t nP +nA −2;0,05 = 1,717, se tiene que el intervalo de confianza para la diferencia entre los salarios es (44,135, 1655,865).
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la varianza
Estimaci´ on de la varianza.
X
≡ N (
µ, σ ), µ desconocida
Queremos estimar σ a partir de (X 1 ,..., X n ) de una poblaci´ on N (µ, σ), con µ y σ desconocidos, mediante un IC del 100(1 α) %
−
Cantidad pivotal para σ: (n
s n2−1
− 1) σ ≡ χ2−1
area =
2
α
area =
2
2
α
2
2 χn−1;α/2
χn−1;1−α/2
n
s 2
≤ (n − 1) σ−21 ≤ χ2−1;α/2
P χ2n−1;1−α/2
n
n
=1
−α
Estimaci´ on por intervalos bajo normalidad Estimaci´ on de la varianza
Estimaci´ on de la varianza.
X
≡ N (
µ, σ ), µ desconocida
Queremos estimar σ a partir de (X 1 ,..., X n ) de una poblaci´ on N (µ, σ), con µ y σ desconocidos, mediante un IC del 100(1 α) %
−
Cantidad pivotal para σ: (n
s n2−1
− 1) σ ≡ χ2−1
area =
2
α
2
2
L = (n
− 1) χ2
n−1;α/2
area =
α
2
2 χn−1;α/2
χn−1;1−α/2
s n2−1
n
y
U = (n
− 1) χ2
s n2−1
n−1;1−α/2
Estimaci´ on por intervalos bajo normalidad Estimaci´ on del cociente de varianzas
Estimaci´ on del cociente de varianzas. Poblaciones normales independientes (X 1 , ..., X nX ) y (Y 1 ,..., Y nY ) m.a.s. de dos poblaciones normales independientes N (µX , σX ) y N (µY , σX ), respectivamente. 2 /σ 2 . Queremos construir un IC para el cociente σY X
Cantidad pivotal para
s n2−1;Y
1
2 σY 2 : σX
L = 2 s n−1;X F nY −1,nX −1;α/2
2 s n2−1;X /σX
F = 2 2 s n−1;Y /σY
y
≡ F
nX −1;nY −1
s n2−1;Y
U = 2 F nX −1,nY −1;α/2 s n−1;X
Estimaci´ on por intervalos en poblaciones no normales Estimaci´ on de la media. Varianza conocida
Estimaci´ on de la media. Varianza conocida Poblaci´ on no normal con varianza conocida Queremos estimar la media mediante un IC del 100(1 Si tomamos una m.a. (X 1 , ..., X n ), con n Central del L´ımite: Z =
otico IC asint´
¯ X
− α) %
≥ 30, seg´un el Teorema
−√ µ −−−→ →∞ N (0, 1) n
σ/ n
(o aproximado) para µ:
¯ L = X
σ
− z α/2 √ n
y
σ ¯ U = X + z α/2
√ n
Para tama˜ nos muestrales peque˜ nos, el intervalo asint´ otico no es apropiado
.
Estimaci´ on por intervalos en poblaciones no normales desconocida
Estimaci´ on de la media. Varianza desconocida Poblaci´ on no normal con varianza desconocida Queremos estimar la media mediante un IC del 100(1
− α) %
No podemos utilizar directamente el TCL porque σ es desconocida, pero si tomamos una m.a.s. (X 1 ,..., X n ), con n 30, se cumple que:
≥
¯ X
− µ →∞ √ −−−→ t = 2 N (0, 1) s / n n
n−1
Intervalo asint´otico (o aproximado) para µ: ¯ L = X
−
s n−1 z α/2 n
√
y
s n−1 ¯ U = X + z α/2
√ n
Para tama˜ nos muestrales peque˜ nos, el intervalo asint´ otico no es apropiado
Estimaci´ on por intervalos en poblaciones no normales Estimaci´ on de la proporci´ on en distribuciones binomiales
Estimaci´ on de la proporci´ on. Poblaciones binomiales Poblaci´ on binomial con par´ametro p desconocido Queremos construir un IC para p X Para una muestra (X 1 , ..., X n ) el estad´ıstico pˆ = , con X n
≡ B (n, p )
verifica (teorema de DeMoivre-Laplace): ˆ p
− p −−−→ →∞ N (0, 1) p (1 − p ) n
P
−
n
p ˆ
− p ≤ z α/2 z α/2 ≤ p (1 − p )
n
≈
1
−α
Estimaci´ on por intervalos en poblaciones no normales Estimaci´ on de la proporci´ on en distribuciones binomiales
Estimaci´ on de la proporci´ on. Poblaciones binomiales Poblaci´ on binomial con par´ametro p desconocido Queremos construir un IC para p X Para una muestra (X 1 , ..., X n ) el estad´ıstico pˆ = , con X n
≡ B (n, p )
verifica (teorema de DeMoivre-Laplace): ˆ p
− p −−−→ →∞ N (0, 1) p (1 − p )
ˆ P p
− z α/2
p (1
n
n
− p ) ≤ p ≤ pˆ + z
n
α/2
p (1
− p ) ≈ 1 − α n
Estimaci´ on por intervalos en poblaciones no normales Estimaci´ on de la proporci´ on en distribuciones binomiales
Estimaci´ on de la proporci´ on. Poblaciones binomiales Poblaci´ on binomial con par´ametro p desconocido Queremos construir un IC para p X Para una muestra (X 1 , ..., X n ) el estad´ıstico pˆ = , con X n
≡ B (n, p )
verifica (teorema de DeMoivre-Laplace): ˆ p
− p −−−→ →∞ N (0, 1) p (1 − p )
ˆ P p
− z α/2
p (1
n
n
− p ) ≤ p ≤ pˆ + z
n
α/2
p (1
− p ) ≈ 1 − α n
los l´ımites del intervalo contienen el par´ametro desconocido p