Problemas de estimación de una y dos muestras Cristian Arévalo Universidad Nacional de Loja Loja, Ecuador
[email protected]
Resumen – La inferencia estadística consiste en métodos que se realizan para realizar generalizaciones acerca de una población, en el presente informe se tratará unas de sus áreas principales que es la estimación de los parámetros de la población, se lo desarrollara específicamente para problemas que tengas una y d os muestras. Palabras clave – Estimador, media, intervalo, intervalo, proporción, proporción, varianza.
I. I NTRODUCCIÓN En clases anteriores se han abordado las propiedades del muestreo de la media y la varianza, así como las representaciones de datos en varias formas, todo esto con el fin de permitir a los estadísticos extraer conclusiones acerca de los parámetros de la población a partir de los experimentos. En el presente tema hablaremos sobre la inferencia estadística, abordando una de sus dos áreas principales que es la estimación de los parámetros de la población para problemas que tengas una y dos muestras. muestras.
IV. U NA SOLA MUESTRA: ESTIMACIÓN DE LA MEDIA Si la muestra se selecciona a partir de una población normal o, a falta de ésta, si n es suficientemente grande, podemos establecer un intervalo de confianza para μ al considerar la distribución muestral de . De acuerdo con el teorema del límite central, podemos esperar que la distribución muestral de , esté distribuida de forma aproximadamente normal con media y desviación estándar . Al escribir para el valor z por arriba del cual encontramos un área de α/2, de la figura 2 podemos ver que
= /√ < < = 1 = / √ < / √ < = 1
II. I NFERENCIA ESTADÍSTICA La teoría de la inferencia estadística consiste en aquellos métodos por los que se realizan inferencias o generalizaciones acerca de una población. La inferencia estadística se puede dividir en dos áreas principales: estimación y prueba de hipótesis. hipótesis. III. ESTIMADOR Un estimador es un estadístico usado para estimar un parámetro desconocido de la población.
Fig. 2.
/ =
< < = 1
√ < < + √ = 1
Al multiplicar cada término en la desigualdad por y después restar de cada término y multiplicar por −1 (para invertir el sentido de las desigualdades), obtenemos
/√
A. Estimador insesgado insesgado
Θ (Θ) =
Se dice que un estadístico es un estimador insesgado Se selecciona una muestra aleatoria de tamaño n de una del parámetro θ si población cuya varianza se conoce y se calcula la media de la muestra para obtener un intervalo de confianza de Si consideramos todos los posibles estimadores (1 – α)100%. insesgados de algún parámetro θ , el de menor varianza se llama estimador más eficaz de θ. A. Intervalo de confianza confianza de μ de μ;; con σ conocida: En la figura 1 ilustramos las distribuciones muestrales de Si es es la media de una muestra aleatoria de tamaño n de 3 estimadores diferentes , , todos para θ . Resulta una población con varianza conocida, un intervalo de claro que sólo y son insesgados, pues sus distribuciones confianza de (1 − α)100% para μ está dado por están centradas en θ . El estimador tiene una varianza menor que y, por lo tanto, es más eficaz. Donde es el valor z que deja un área de α/2 a la derecha.
Θ Θ Θ Θ Θ Θ Θ
̅
/
̅ √ < < ̅ ++ √
Teorema 1: Si
̅
se utiliza como como una estimación de μ, podemos tener una confianza de (1 − α)100% de que el error no excederá
√
Fig. 1. Distribuciones Distribuciones muestrales de estimadores diferentes de θ .
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
̅
Para una distribución normal de mediciones con media se usa como estimación de μ, podemos Teorema 2: Si se tener (1 − α)100% de confianza de que el error no excederá desconocida μ y varianza conocida , un intervalo de una cantidad específica e cuando el tamaño de la muestra sea predicción de (1 − α)100% de una observación futura es donde
= ⁄ = ⁄ √
̅ ⁄ 1+1 1 +1⁄ < < ̅ ++ ⁄ 1+1 1 +1⁄ ⁄
donde derecha
es el valor z que deja un área de α/2 a la
B. Límites de confianza confianza unilaterales en en ; conocida
G. Intervalos de predicción para una observación Si es la media de una muestra aleatoria de tamaño n a G. Intervalos futura: σ desconocida desconocida partir de una población con varianza , los límites de Para una distribución normal de mediciones con media confianza unilaterales de (1 − α)100% para μ están dados por desconocida μ y varianza desconocida , un intervalo de límite unilateral superior predicción de (1 − α)100% de una observación futura es límite unilateral inferior
̅̅ ++ ⁄⁄√ √
C. El caso de desconocida
Con frecuencia intentamos estimar la media de una población cuando se desconoce la varianza, para ello si tenemos una muestra aleatoria a partir de una distribución normal, entonces la variable aleatoria
= / √
Aquí S es la desviación estándar de la muestra. En esta situación en que se desconoce σ se puede utilizar T para construir un intervalo de confianza de μ. El procedimiento es el mismo que cuando se conoce σ excepto en que σ se reemplaza con S y la distribución normal estándar se reemplaza con la distribución t. Con referencia a la figura 3.
√ < < + √ = 1
̅ ⁄ 1+1 1 +1⁄ < < ̅ ++ ⁄ 1+1 1 +1⁄ ⁄
donde es el valor t con v=n-1 grados de libertad, que deja un área de α/2 a la derecha H. Límites H. Límites de tolerancia tolerancia
Para una distribución normal de mediciones con media μ y desviación estándar σ , ambas desconocidas, los límites de tolerancia están dados por , donde k se determina de manera que se pueda asegurar con una confianza de (1 − γ)100% que los límites dados contienen al menos la proporción 1− α de las mediciones. La tabla A.7 da valores de k para 1 − α = 0.90, 0.95, 0.99; γ = 0.05, 0.01; y para valores seleccionados de n de 2 a 1000.
± ̅ ±
Ejemplo:
Se encuentra que la concentración promedio de zinc que se obtiene a partir de una muestra de mediciones de zinc en 36 sitios diferentes es 2.6 gramos por mililitro. Encuentre el intervalo de confianza de 95% para la concentración media de zinc en el río. Suponga que la desviación estándar de la población es 0.3.
̅ = 0.3 ̅ < < ̅ ++ √ √ 0. 3 0. 3 2. 6 1. 9 6 6 < < 2. 6 + 1. 1 . 9 6 √ .3636 < < . √ 3636 Solución:
= = 2.6.
Fig. 3.
< < = 1
̅
D. Intervalo D. Intervalo de confianza confianza de μ de μ;; con σ desconocida:
z 0.025 0.025 = 1.96
Si y s son la media y la desviación estándar de una muestra aleatoria de una población con varianza desconocida, un intervalo de confianza de (1 − α)100% para μ es
/
̅ √ < < ̅ + √
Donde es el valor t con con v=n-1 grados de libertad que deja un área de α/2 a la derecha.
̅ ±± = ̅ ± ..̅
E. Límites de confianza confianza de para σ desconocida desconocida
V. DOS MUESTRAS: ESTIMACIÓN DE LA DIFERENCIA ENTRE DOS MEDIAS Si tenemos dos poblaciones con medias μ1 y μ2 y varianzas y , respectivamente, un estimador puntual de la diferencia entre μ1 y μ2 está dado por el estadístico 1 − 2. Por lo tanto, para obtener una estimación puntual de
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
A. Intervalo de confianza para conocidas:
̅ ̅
y
; con
Si y son las medias de muestras aleatorias independientes de tamaño y de poblaciones con varianzas conocidas y , respectivamente, un intervalo de confianza de (1 − α)100% para está dado por
̅ ̅ + < < ̅ ̅ + + /
Donde derecha.
Estación 1 Estación 2
̅̅ == 3.1.844,9, = = 3.08007 == 1215 ⁄ + ⁄
= [⁄⁄ 1] + [⁄⁄ 1] 0151 7⁄15 ]+0.+ [0.[80.080⁄12⁄12 ⁄121 = [3.[3.07⁄15⁄3.151 121] = 16. 3 ≈ 16 ̅ ̅ = 3.844 1.4949 = 2.3535 = 0. 0 5 . = 2.120 = 16 =
es el valor z que deja un área de α/2 a la
B. Intervalo de confianza para pero desconocidas desconocidas:
̅ ̅
1 1
̅ ̅ + < < ̅ ̅ + 1 + 1 donde = 1 + + 2 1
/
y es la estimación de unión de la desviación estándar poblacional y es el valor t con con v= grados de libertad que deja un área de α/2 a la derecha.
+ 2
C. Intervalo de confianza para y desconocidas desconocidas:
̅ ̅
para
grados de libertad
Por lo tanto, el intervalo de confianza es
; con
Si y son las medias de muestras aleatorias independientes de tamaño y , respectivamente, de poblaciones aproximadamente normales con varianzas iguales pero desconocidas, un intervalo de confianza de (1 − α)100% para está dado por
≠ ; con
Si y y y son las medias y varianzas de muestras aleatorias independientes de tamaño y , respectivamente, de poblaciones aproximadamente normales con varianzas desconocidas y diferentes, un intervalo de confianza de (1 − α)100% para está dado por
̅ ̅ + < < ̅ ̅ + + donde / es el valor con = [[⁄⁄ ⁄1]++[[⁄⁄⁄ 1] t
grados de libertad, que deja un área de α/2 a la derecha.
Ejemplo
Solución
̅ ̅ + < < ̅ ̅ + + 2.352.120 3.3.1507 + 0.1280 < < 2.35+2. 5+ 2.120 3.3.1507 + 0.1280
. . < < .
VI.U VI. U NA SOLA MUESTRA: ESTIMACIÓN DE UNA PROPORCIÓN Un estimador puntual de la proporción p en un experimento binomial está dado por el estadístico , donde representa el número de éxitos en n pruebas. Por lo tanto, la proporción de la muestra se utilizará como el estimador puntual del parámetro p. Si no se espera que la proporción p desconocida esté demasiado cerca de cero o de 1, podemos establecer un intervalo de confianza para p al considerar la distribución muestral de . Si es es la proporci ón de éxitos en una muestra aleatoria de tamaño n, y = 1- , un intervalo de confianza aproximado de (1 − α)100% para el par ámetro binomial p esté dado por
̂ = ⁄
̂ ̂ ̂ ̂ < < ̂ ++ ̂ ⁄ ̂ ⁄ ̂⁄ ̂ ⁄ ̂ = ̂
donde derecha.
= ⁄
es el valor z que deja un área de α/2 a la
Si se se utiliza como una estimación de p, podemos tener una confianza de (1 − α)100% de que el error no excederá Teorema 3:
El Departamento de Zoología del Instituto Politécnico y Teorema 4: Si se se utiliza como una estimación de p, Universidad Estatal de Virginia llevó a cabo un estudio para podemos tener una confianza de (1 − α)100% de que el error estimar la diferencia en la cantidad de ortofósforo químico será menor que una cantidad específica e cuando el tamaño medido en dos estaciones diferentes del río James. El de la muestra sea aproximadamente ortofósforo se mide en miligramos por litro. Se reunieron 15 muestras de la estación 1 y 12 muestras de la estación 2. Las 15 muestras de la estación 1 tuvieron un contenido promedio de ortofósforo de 3.84 miligramos por litro y una desviación se utiliza como una estimación de p, Teorema 5: Si se estándar de 3.07 miligramos por litro; en tanto que las 12 podemos tener una confianza de al menos (1 − α)100% de muestras de la estación 2 tuvieron un contenido promedio de que el error no excederá una cantidad específica e cuando el 1.49 miligramos por litro y una desviación estándar de 0.80 tamaño de la muestra sea
Trusted by over 1 million members
Try Scribd FREE for 30 days to access over 125 million titles without ads or interruptions! Start Free Trial Cancel Anytime.
⁄ − ⁄
VII. DOS MUESTRAS: ESTIMACIÓN DE LA DIFERENCIA ENTRE DOS PROPORCIONES A.
Intervalo de confianza de grande
de una muestra
̂ ̂ ̂ = 1 ̂ = 1 , ̂ ̂ ̂ + ̂ < < ̂ ̂ + ̂ + ̂ ⁄
donde y son valores con v = n − 1 grados de libertad, que dejan áreas de α/2 y 1 − α/2, respectivamente, a la derecha.
IX. DOS MUESTRAS: ESTIMACIÓN DE LA R AZÓN AZÓN DE DOS Si y son las proporciones de éxitos en muestras V ARIANZAS aleatorias de tamaño y , respectivamente , confianza de para y , un intervalo de confianza aproximado de (1 A. Intervalo de confianza − α)100% para la diferencia de dos parámetros binomiales Si y son las varianzas de muestras independientes está está dado por de tama ño y , respectivamente, de poblaciones normales, entonces un intervalo de confianza de (1 − α)100% para es
donde derecha.
es el valor z que deja un área de α/2 a la
VIII. U NA SOLA MUESTRA: ESTIMACIÓN DE LA VARIANZA Si se extrae una muestra de tamaño n de una población normal con varianza y se calcula la varianza muestral , obtenemos un valor del estadístico . Esta varianza muestral calculada se usará como estimación puntual de . Por ello, el estadístico se llama estimador de . Se puede establecer una estimación por intervalos de utilizando el estadístico
1 1 =
El estadístico tiene una distribuci ón chi cuadrada con n − 1 grados de libertad, cuando las muestras se eligen de una población normal. En base a la figura 4, podemos escribir
(− ⁄ < < ⁄) = 1
Fig. 4.
( 12 ⁄2 < 2 < 2⁄2) = 1
donde son valores de la distribución chi cuadrada con 1 grados de libertad, que dejan áreas de 1 − α/2 y α/2, respectivamente, a la derecha. Al sustituir para X 2, escribimos
n−
1 1 −⁄ < < ⁄ = 1
Al dividir cada término de la desigualdad entre ( n − 1) y, después, invertir cada término (lo que cambia el sentido de las desigualdades), obtenemos
11⁄ < < 1− 1⁄ = 1
/
/21 1 21 2 ⁄, < < 2 ⁄,
2⁄, ⁄1, = 1
2 = 1 =
Donde es un valor f con y grados de libertad que deja un área de α/2 a la derecha, y es un valor f similar con y grados de libertad.
= 1
Ejemplo
En una muestra aleatoria de n = 500 familias que tienen televisores en la ciudad de Hamilton, Canadá, se encuentra que x = 340 están suscritas a HBO. Encuentre un intervalo de confianza de 95% para la proporción pr oporción real de familias en esta ciudad que están suscritas a HBO.
̂ = = 350040 = 0.68 ̂ ̂ ̂ < < ̂ ++ ̂ 3 2 0.681.96 0.6885000.0.322 < < 0.68+ 68 + 1.9696 0.0.680. 500 . . < < . Solución:
= 1- =0.32 =0.32 z 0.025 0.025 = 1.96 el intervalo de confianza de 95% para p es
X. EJERCICIO PROPUESTO Un antropólogo se interesa en la proporción de individuos de dos tribus indias con doble remolino de cabello en la zona occipital de la cabeza. Suponga que se toman muestras independientes de cada una de las dos tribus, y se encuentra que 24 de 100 individuos de la tribu A y 36 de 120 individuos de la tribu B poseen tal característica. característica. Construya un intervalo de confianza de 95% para la diferencia entre las proporciones de estas dos tribus con remolinos de cabello en la zona occipital de la cabeza.
XI.C XI. CONCLUSIONES La amplitud de un intervalo de confianza está determinada por el nivel de confianza establecido, la variabilidad de los datos y el tamaño de la muestra. Un intervalo de confianza aporta más información que un