Universidad de El Salvador Facultad de Ingeniería y Arquitectura Unidad de Ciencias Básicas Probabilidad y Estadística
Unidad V: Distribuciones de Muestreo. Por Oscar Díaz
L
os conceptos presentados en esta unidad nos proporcionan las bases para los procedimien-
Por la variación de muestreo sabemos que las medias de cada una de las muestras serán diferentes. Si esta-
tos que los investigadores utilizan para tomar
mos usando una muestra para hacer alguna inferencia
en cuenta la variación de muestreo en sus estudios, es
sobre la población, obviamente nuestra inferencia de-
decir los procedimientos de la estadística inferencial.
penderá de la muestra muestra seleccionada. Lo anterior plantea las siguientes preguntas:
Distribución de Muestreo de la media.
σ
μ
Considere una población con media y desviación estándar
•
. Suponga que tomamos infinitas muestras
aleatorias del mismo tamaño de esta población y calculamos la media para cada muestra seleccionada,
¿Qué tan grande es la diferencia entre la media de una muestra en particular y la media de la población en términos pro babilísticos?
•
¿Qué valores de la media muestral son más probables que ocurran?
como lo indica el siguiente esquema •
¿Qué valores en la media muestral son menos probables que ocurran?
Población
μ σ.
con media
Para responder a estas preguntas, necesitamos anali-
y desviación
zar la distribución de probabilidad de de la media muestral a la cual llamaremos distribución de muestreo de muestreo de
estándar
la media muestral.
etc. Muestra 1
Muestra 2
x
x
1
2
... ...
Muestra i
Definición: una distribución de Definición: una muestreo es la distribución de probabilidad de un estadístico.
x i
Según la definición anterior, la distribución de muestreo de la media es la distribución de frecuencias relativas de las medias obtenidas a partir de una serie infinita de experimentos de muestreo, consistiendo cada uno en seleccionar una muestra aleatoria de tamaño n de la población y calcular la media muestral. Como quizá intuya, es imposible construir una distribución de muestreo, debido a que se necesitaría un 1 a
Distribución de muestreo de x
n i g á P
= ⁄√
número infinito de experimentos de muestreo, es decir necesitaríamos tomar todas las muestras posibles
c)
La forma de la distribución de muestreo para la media es aproximadamente normal independientemente de la forma de la población.
de la población. Afortunadamente para nosotros, los matemáticos han logrado determinar sus principales características —media, desviación estándar y su forma— y, por tanto, podemos establecer qué pasaría si una serie infinita de experimentos de muestreo se
Distribución de
llevara a cabo. Y conociendo la distribución de mues-
muestreo basada en
treo, estaríamos en posición de contestar a la pregunta fundamental planteada al inicio: ¿Qué tipos de
n=9. Media
La distribución de muestreo de una media puede ser
y error
estándar =
resultados son factibles de obtener a partir de una muestra como resultado de la variación de muestreo?
μ σ/ඥ 9
Distribución de
.
muestreo basada en n=3. Media
Población con media
μ σ.
μσ/ඥ 3
y error
estándar =
y
desviación es-
.
tándar
caracterizada por su media, su varianza y su forma. El siguiente teorema nos ayudará a visualizar estas tres características Teorema del límite central: Si una muestra aleatoria de tamaño n es tomada de una población con
→ ∞
Debido al TLC, la distribución normal puede ser usada para aproximar la distribución de muestreo de una media en una gran variedad de situaciones
media μ y varianza σ 2 , entonces, la distribución de
σ⁄n
muestreo de tiene aproximadamente una distribución normal con media cuando como
μ
y varianza
. Esto se escribe matemáticamente
~ ,⁄
En la página siguiente se presenta la salida de una simulación que muestra al TLC en acción, y que nos ayuda a comprenderlo de manera visual. Asegúrese de comprender como funciona el teorema.
prácticas. Ejemplo: Una máquina que llena cajas de cartón con cereal tiene un peso de llenado cuya media e s de 12.02 onzas, con una desviación estándar de 0.03 onzas. Un lote consta de 40 cajas, tomadas aleatoriamente, que fueron llenadas por la máquina. a) Determine la media del peso de llenado promedio por caja de cereal en el lote.
más importantes para la inferencia estadística que po-
b) Determine la desviación estándar del peso de llenado promedio por caja de cereal en el lote.
demos dividir en tres partes: si tomáramos muestras
c)
El teorema nos proporciona unos de los resultados
repetidas de la misma población, entonces, a la larga: a) Simbolizada por
, la media de la distribución de
muestreo de las medias será la misma que la de la población
b) Simbolizada por
=
, la desviación estándar de las
medias en una distribución de muestreo, conocida como el error estándar de la media, y que refleja la cantidad de variabilidad entre las medias de las muestras está dada por
¿Cuál es la distribución de muestreo del peso promedio de llenado?
d) ¿Cuántas cajas se deben incluir en un lote para que el error estándar del peso promedio de la caja sea 0.005 onzas? e) ¿Cuál es la probabilidad aproximada de que el peso promedio por caja del cereal en el lote sea menor que 12 onzas? Respuestas:
~12.02,0.0047
a) 12.02 b) 0.0047 c) cajas e) 0
d) 36
2 a n i g á P
Teorema del Límite Central. 1
2
3
Explicación: en la parte superior tenemos tres poblaciones hipotéticas con medias diferentes y desconocidas (por tratarse de una simulación podemos fijar estas medias a cualquier valor, pero en la práctica, sus valores en realidad nos son desconocidos y son precisamente los que estamos t ratando de estimar). De la población 1 se extrajeron 1000 muestras de tamaño 5 , mil muestras de tamaño 15 y mil muestras de tamaño 60. Se ca lculó la media de c ada muestra, lo que generó 1000 medias para cada tamaño de muestra y se construyó su histograma, que muestra la distribución de probabilidad de estas mil medias, es decir la distribución de muestreo para la media muestral. De manera similar se construyeron las distribuciones de muestreo para las poblaciones 2 y 3. En resumen:
=
Cada histograma está centrado en el valor de la media de la población de donde procede. Esto se escribe matemáticamente como . La varianza de los histogramas disminuye a medida que aumentamos el tamaño de muestra. Matemáticamente, esto significa que la varianza de cada histograma está relacionada con la varianza de la población por la ecuación y que a medida que n aumenta nuestra estimación se hace más precisa. La forma de cada histograma se asemeja a la de una distribución normal. La aproximación mejora a medida que n se hace más grande. • 3 Estas tres características se resumen escribiendo que se lee « a • •
⁄
»
~,⁄
⁄√ tiene una distribución aproximadamente normal con media μ y varianza
n i g á P
Ejemplo: Una máquina dispensadora de café se diseña
Considere el siguiente ejemplo ilustrativo que nos ayu-
de manera que dispense un volumen de 7.00 onzas
dará a establecer las principales características de la
fluidas de café por taza, con una desviación estándar
distribución de muestreo de la proporción muestral.
de 0.25 onzas fluidas. La distribución de los contenidos de café en los vasos es aproximadamente normal. ¿Cuál es la probabilidad de que, cuando se toma una
Ejemplo: transmisión de hepatitis en las transfusiones de sangre.
muestra aleatoria de 12 tazas, su contenido promedio
El desarrollo de hepatitis viral después de una transfu-
sea de más de 7.15 onzas fluidas? Explique por qué po-
sión puede causar serias complicaciones en un pa-
demos usar la distribución normal en estos cálculos.
ciente. El artículo «Lack of Awareness Result in Poor Autologous Blood Transfusion » (Health Care Manage-
Solución: Como la distribución de contenidos de café
ment, May 15, 2003) reporta que la hepatitis se pre-
~7.00 ,0.25⁄12
es aproximadamente normal
senta en un 7% de pacientes que han recibido transfu-
0 0 > 7.15 = > 70..1257. 5/ 1 2 √ > 7.15 = > 2.08 = 1 2.08 > 7.15 = 10.9812 = 0.0188 Entonces
sión de sangre durante una cirugía de corazón. Podemos simular el muestreo repetido de esta población de pacientes que han recibido transfusión de sangre. Un paciente que contraiga la enfermedad será considerado un éxito. En la siguiente figura se muestran 4 histogramas para n = 10, 25,50 y 100 . Para cada tamaño muestral se tomaron 500 réplicas. Para los dos
En este caso, la distribución normal es adecuada a pe-
primeros histogramas, vemos que la distribución nor-
sar de tener un tamaño de muestra pequeño porque
mal no es un modelo adecuado.
la población es aproximadamente normal.
Distribución de Muestreo de una proporción. En algunas ocasiones deseamos aprender a cerca de la proporción de individuos u objetos que poseen una característica en particular. Por ejemplo, La proporción de personas que votarán por determinado partido político, la proporción de mujeres que optan a puestos en el gobierno, la proporción de personas que prefieren café descafeinado, etc. Un individuo u objeto que posea la característica se co-
noce como éxito. Si no la posee se conoce como fracaso. El valor de la proporción poblacional
general-
mente no se conoce. Cuando una muestra aleatoria de tamaño n es tomada al azar de la población, algunos
Sin embargo, para tamaños de muestra grandes, la dis-
̂
tribución binomial parece un modelo razonable para la distribución de muestreo de .
Propiedades generales de la distribución de 1.
de los individuos en la muestra son éxitos y otros fracasos. El estadístico que usaremos para obtener con-
2.
clusiones sobre la proporción poblacional es , la proporción de éxitos en la muestra.
3.
̂
= − =
̂
̂
Cuando n es grande y p no es cercana a 0 ó 1, la 4 a i distribución de muestreo de es aproximada- n mente normal.
g á P
̂
La primera propiedad establece que la distribución de
Ejemplo: USA Today (Octubre 14, 2002) reporta que el
muestreo de está siempre centrada en el valor de la proporción poblacional, es decir que los valores de
̂
36% de los conductores adultos admitieron usar regularmente el teléfono móvil mientras manejan. Este es-
calculados de muchas muestras diferentes tenderán a
timado se basó en una muestra representativa de
concentrarse alrededor del valor actual de la proporción poblacional.
1004 conductores adultos. Un margen de error del 3.1% también fue reportado en el artículo. ¿Es este
La segunda propiedad implica que, como el t amaño de muestra aparece en el denominador de la expresión,
̂
margen de error correcto? Respuesta: es incorrecto
disminuye
Distribución de una combinación lineal de variables independientes.
La tercera propiedad establece que, en algunos casos,
Suponga que tiene un conjunto de variables aleatorias independientes
la variabilidad de muestra en muestra de a medida que n se incrementa.
la distribución es aproximadamente normal. La simu-
̂
,,… , = ⋯
lación muestra que ambos valores, n y p, deben considerarse cuando se decide si la distribución de aproximadamente normal.
¿Cuándo es la distribución de muestreo de aproximadamente normal?
es
̂
Entonces, la distribución de muestreo de madamente normal.
̂
Donde W es la combinación lineal y las tes. Como las
Una regla conservativa es que si se cumple
≥ 10 1 ≥ 10
Una combinación lineal de estas variables la podemos representar algebraicamente como
son constan-
son variables aleatorias, tienen una
distribución de probabilidad. La combinación lineal W, por depender de ellas, también tendrá una distribu es aproxi-
Ejemplo: un fabricante de automóviles está interesado en averiguar acerca de la proporción de personas que compraron uno de sus modelos y que planean comprar el mismo modelo en el futuro. Una muestra aleatoria de 400 de estos compradores incluye 267
ción de probabilidad en la cual:
= ⋯ = ⋯ = ⋯ = ⋯
y
que dijeron estar dispuestos a comprar de nuevo el
Si además las variables aleatorias son aproximada-
mismo modelo. Para cada uno de los siguientes enunciados, indique si el enunciado es correcto o inco-
mente normales, entonces, W tendrá una distribución aproximadamente normal (propiedad reproductiva de
rrecto. Si es incorrecto, explique por qué.
la distribución normal).
Enunciado 1: El estimado puntual nunca diferirá del verdadero valor actual de la proporción po-
Ejemplo: Una grúa se diseña para levantar 50 toneladas. La grúa se usa para levantar paquetes de 1.2 to-
blacional por más de 0.0462.
neladas cada uno. Los pesos de estos paquetes están
̂ = 0.668
0.668 0.668
̂ = ̂ =
normalmente distribuidos con una desviación están-
Enunciado 2: Es improbable que el estimado difiera del valor actual de la proporción pobla-
dar de 0.2 toneladas. Si la grúa levanta 40 de estos paquetes a la vez, ¿cuál es la probabilidad de que se ex-
cional por más de 0.0235.
ceda el peso de diseño?
= 1,2,… ,40
Enunciado 3: Es improbable que el estimado difiera del valor actual de la proporción pobla-
el peso de cada 5 Solución: sea para a n uno de los paquetes. El peso total de los 40 paquetes i g
cional por más de 0.0462. Respuesta: enunciado 2
es:
á P
= ⋯ = ⋯ = ⏟1.2 ⋯1. 2 = 401. 2 = 48
el valor esperado es
tándar se ve reducida por un factor igual a la raíz cuadrada del tamaño de muestra. En otras palabras, el toneladas
Para encontrar la desviación estándar del peso total de los paquetes debemos calcular la varianza de la siguiente manera
= ⋯ = 0.⏟2 0.2 ⋯0.2 = 400.2 = 1.6 = 1.26 ~48,1.26 > 50 = 1 ≤ 5048 1.26 > 50 = 11.59 = 10.9441 = 0.0559 Entonces,
.
Como los pesos de los paquetes son aproximadamente normales
que cada medición individual, pero la desviación es-
y
Del resultado podemos concluir que la probabilidad de que se rebase el límite de peso soportado por la grúa es pequeña (a largo plazo, cerca del 6% de las veces que se use la grúa para levantar los 40 paquetes, se excederá el peso permitido)
Mediciones repetidas
promedio de muchas mediciones repetidas, tienen la misma exactitud, pero es más preciso que cualquier medición individual. Ejemplo: Se va a medir la longitud de una pieza usada para ensamblar una parte mecánica por medio de un proceso cuya incertidumbre es 0.05 cm. Si se hacen 25 de estas mediciones de manera independiente y su promedio se usará para estimar la longitud de la pieza ¿cuál será la incertidumbre? ¿cuánto más precisa es el promedio de las 25 mediciones que una sola medida? Solución: la incertidumbre del promedio de las 25 mediciones es
.√ = 0.01 .
La incertidumbre en una
sola medida es 0.05 cm. La incertidumbre de las 25 mediciones promediadas es menor que la de una sola medida por un factor de 5, que es la raíz cuadrada del número de medidas que se promedian. Así, el promedio de las 25 medidas independientes es cinco veces más precisa que una sola medición.
Distribución de muestreo para la diferencia de medias Caso de muestras grandes
Una de las aplicaciones de las combinaciones lineales en ingeniería es cuando se trabaja con mediciones que
Si estamos interesados en comparar dos medias po-
involucran alguna incertidumbre. Una de las maneras
blacionales, podemos hacerlo estimando la diferencia
de reducir la incertidumbre es tomar muchas medicio-
entre ellas.
nes de manera independiente y promediarlas. Las me-
Suponga que las poblaciones de interés tienen medias
diciones en este caso son una muestra aleatoria simple
y varianzas respectivamente. Estamos interesados en estimar la diferencia e intuiti-
de una población conceptual. Entonces Si
,,… , = +⋯+ = = √ son
mediciones independientes,
cada una con media e incertidumbre , entonces la media muestral una media
es una medición con
y una incertidumbre
Este resultado es muy importante para las aplicaciones
vamente escogemos para hacerlo. Suponga que ambas muestras, de tamaños respectivamente, se toman de manare independiente una de la otra. Para cada ítem seleccionado se mide la característica
de interés y se calculan las medias muestrales. La diferencia
es un estimador insesgado de
prácticas, ya que nos dice que, si realizamos muchas mediciones independientes de la misma cantidad, el
Entonces, la distribución de muestreo para la diferen-
promedio de estas mediciones tiene la misma media
ximadamente normal, con media
cia de medias
para muestras grandes, es apro y varianza
6 a n i g á P
. la aproximación mejora a medida que el ta-
maño de muestra se incrementa. Ejemplo: Cierto fabricante tiene dos máquinas que se usan para llenar botellas con un litro de leche. Por medio de mediciones hechas a lo largo de varios años se sabe que la varianza de la cantidad de leche deposi-
tada por botella es de 200
para ambas máquinas.
Suponga que 30 muestras de la cantidad de leche servida por cada una de las máquinas son tomadas alea-
Entonces, la distribución de
1 1 2
toriamente. Calcular la probabilidad de que la diferencia en las medias muestrales de ambas máquinas sea a lo sumo 10 ml. Solución: en este caso como ambas muestras son grandes, la diferencia de medias tiene una distribución aproximadamente norma con media
= 13.333 ~0,13.333
rianza
, es decir
= 0
y va-
Es una distribución
con
grados de
libertad. La varianza combinada de las muestras está dada por
= −++−−
.
Caso 2: varianzas diferentes
Como estamos interesados en que la diferencia no supere los 10ml, esta condición puede ser
Si no podemos asumir que las varianzas son igualges,
representada como
tal como lo muestra la siguiente figura
| | ≤ 10 | | ≤ 10 = 10 ≤ ≤ 10 − | | ≤ 10 = −− ≤ ≤ . . | | ≤ 10 = 2.74 ≤ ≤ 2.74 | | ≤ 10 = 2.74 2.74 | | ≤ 10 = 0.99690.0031 = 0.9938 . Entonces
Es muy probable que las medias tengan una diferencia de a lo sumo 10 ml
Caso de muestras pequeñas Caso 1: varianzas iguales.
varianzas
desconocidas
Entoces la distribución de muestreo de
= / / 1 1
Tiene aproximadamente una distribución t con
Si ambas poblaciones son aproximadamente normales con
pero las poblaciones son aproximadamente normales,
pero
que
pueden
asumirse iguales, como lo indica la siguiente figura
Grados de libertad (se recomienda redondear al siguiente entero).
7 a n i g á P
Ejemplo: los siguiente datos representan e l tiempo de secado, en días, para dos tipos de c emento
̅ == 1714 = 1.5
̅ == 1916 = 1.8
Cemento 1
Cemento 2
Suponga que las poblaciones son normales con varianzas iguales. a) ¿Cuál es la distribución de muestreo de
̅ ̅
?
Solución: como los tamaños de muestra son pequeños y las varianzas son conocidas
̅ ̅ ̅ ̅ = 1719 = 2 − ++−− = −. +−. = +− = 1.66 = 25 = 5 ̅ == 2580 = 3 ̅ = 75 ̅ ̅ tiene aproximadamente una distribución
con 28 grados de libertad.
b) Calcule un estimado puntual para
Solución: el estimado puntual está dado por
días. ¿cómo interpreta
el signo negativo? c)
Calcule el estimado de la varianza común
Solución: una estimación de la varianza común es la varianza combinada de las muestras
Ejemplo: Una muestra aleatoria de tamaño es tomada de una población normal con una media
tiene
. Una segunda muestra aleatoria
de tamaño es tomada de una segunda población normal con desviación estándar resultando
.
a) ¿Cuál es la distribución de muestreo de
?
Solución: como las varianzas son diferentes y las poblaciones normales, tiene aproximadamente una distribución con
= (/)++(/) = ⁄++⁄ = 39.29 ≈ 40 grados de libertad.
b) Calcule un estimado puntual para Solución: el estimado puntual está dado por
̅ ̅ = 8075 = 5
8 a n i g á P