CAPITULO IV La teoría de muestreo estudia la relación entre una población y las muestras extraídas de ella. Por ejemplo, para estimar magnitudes desconocidas de una población (parámetros) a partir del conocimiento de esas magnitudes en las muestras (estadísticos). También es útil la teoría de muestreo para determinar si las diferencias observadas entre dos muestras son debidas a variaciones fortuitas o si son realmente significativas. Por ejemplo, al probar dos procesos de producción se puede decidir si uno es mejor que el otro. En general, un estudio de las inferencias hechas sobre una población a partir de muestras suyas, indicando la precisión de tales inferencias; se llama inferencia estadística. Para que las conclusiones de la teoría de muestreo y de la inferencia estadística sean válidas, las muestras deben escogerse de forma tal que sean representativas de la población. El análisis de los métodos de muestreo y los problemas relacionados con cada uno de ellos, se llama diseño de experimento. Hay varios tipos de muestreo, entre ellos se tienen: aleatorio, estratificado, sistemático, por conglomerados. Además el muestreo puede ser: con reposición o sin reposición. Si se selecciona un objeto de un sitio, se puede volver a colocarlo o no en el sitio, antes de realizar una segunda extracción. En el primer caso ese objeto puede ser seleccionado más de una vez, por lo cual recibe el nombre de muestro con reposición. Mientras que en el segundo caso sólo puede ser seleccionado una vez. Por tanto se llama muestreo sin reposición. Las poblaciones son finitas e infinitas. Una población finita en la que se efectúe un muestreo con reposición puede considerarse infinita. Para efectos prácticos, una población muy grande se puede considerar como si fuese infinita. Distribuciones muestrales: Para hacer inferencias sobre una población, es necesario examinar un poco más los resultados muestrales. De una muestra se obtiene la media muestral
x .
¿Se puede
esperar que el valor de x sea exactamente igual al valor de la media poblacional? poblacional? La respuesta es no. Se espera que no sea así; pero serán satisfactorios los resultados muestrales si la media muestral está “próxima” al valor de la media poblacional. media poblacional. Si se toma una segunda muestra, ¿tendrá una media igual a la de la población? ¿Igual a la primera? Nuevamente debe responderse no. Sin embargo, se espera que los valores estén próximos. Este argumento debe cumplirse para cualquier otro estadístico y su correspondiente valor poblacional (parámetro). Las siguientes preguntas surgen en la mente: ¿qué se entiende por “próximo”? ¿Cómo ¿ Cómo se determina esa “proximidad”? ¿Cómo ¿Cómo es la distribución de un estadístico cuando se ha muestreado repetidamente? Para contestar estas preguntas, se hablará de las distribuciones de muestreo o distribuciones muestrales. Distribución de muestreo de un estadístico: Es la distribución de valores del estadístico obtenida a partir de todas las muestras posibles del mismo tamaño, de una población dada. Si por ejemplo, el estadístico utilizado es la media muestral entonces la distribución se llama distribución muestral de medias. De manera similar, se pueden tener distribuciones muestrales de: varianza, desviación estándar, proporciones, etc. Ejm 1: Considérese la media de cada muestra de tamaño dos que puede ser seleccionada con reposición del conjunto {0, 2, 4, 6,8}. Nº muestras posibles = 5.5 = 25
Hay 25 muestras posibles: (0, 0) (0, 2) (0, 4) (0, 6) (0, 8) (2, 0) (2, 2) (2, 4) (2, 6) (2, 8) (4, 0) (4, 2) (4, 4) (4, 6) (4, 8) (6, 0) (6, 2) (6, 4) (6, 6) (6, 8) (8, 0) (8, 2) (8, 4) (8, 6) (8, 8) Cada una de ellas tiene una media ( x ). Estas medias son: 0 1 2 3 4 1 2 3 4 5 2 3 4 5 6 3 8
4
5
6
7
4
5
6 7
Ahora se construirá la distribución muestral de medias
f
x
0 1 2 3 4 5 6 7 8
P( x ) 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
1 2 3 4 5 4 3 2 1
x P( x
0,00 0,08 0,24 0,48 0,80 0,80 0,72 0,56 0,32
25
=
x .
x
P ( x ) = 4
4,00 2
x
= 20 – 42 = 4
2
P( x ) 0,00 0,08 0.48 1,44 3,20 4,00 4,32 3,92 2,56
x
)
20,00
= 2 x
Se calcula la media y la varianza de {0, 2, 4, 6, 8}, obteniéndose
=
4y
2
= 8.
Comparando la media y la varianza de este conjunto con la media y la varianza de la 2
distribución muestral de medias, se encuentra que = y = 2/ n. x x
Teorema del Límite Central Si se seleccionan al azar todas las muestras posibles, cada una de tamaño n, de una población con media y desviación estándar , entonces la distribución muestral de
una desviación estándar = / n . Además será de tipo normal cuando la población de la que proceden las muestras, o distribución original sea de tipo normal, o bien será aproximadamente normal para muestras de tamaño 30 o más, cuando la distribución original no sea normal. La aproximación a la distribución normal mejora conforme aumenta el tamaño de la muestra. La esencia de este teorema recae en el hecho que para n grande (n≥30), la distribución medias tendrá una media = x
̅ tiene
y
x
forma aproximadamente normal con media cero y desviación estándar uno;
sin importar cual sea el modelo de probabilidad a partir del cual se obtuvo la muestra. Debe notarse que si el modelo de probabilidad de la población es semejante a una distribución normal, la aproximación normal será buena aún para muestras pequeñas. Por otro lado, si el modelo de la población tiene poco parecido a una distribución
normal (por ejemplo, existe una marcada asimetría), la aproximación normal sólo será adecuada para valores grandes de n. Distribución muestral de medias -Si de una población se toman todas las muestras posibles de tamaño n, con reposición. O si la población es infinita con media y desviación típica ; la distribución muestral de medias tendrá las siguientes propiedades:
a) La media de la distribución muestral de medias, denotada por , será igual a la x media de la población de la cual se extrajeron las muestras; es decir = x
.
b) La desviación estándar de la distribución muestral de medias o error estándar de la media, denotada por x , será igual a la desviación estándar de la población dividida por la raíz cuadrada del tamaño de la muestra, es decir = x
/
n
.
-Si se toman todas las posibles muestras de tamaño n, sin reposición, de una población finita de tamaño N con media y desviación típica , la distribución muestral de medias tendrá las siguientes propiedades: a) La media de la distribución muestral de medias, denotada por , será igual a la x media de la población de la cual se extrajeron las muestras; es decir = x
.
b) La desviación estándar de la distribución muestral de medias o error estándar de la media, denotada por , será igual a: x
= x
n
N n N 1
Puesto que la distribución muestral de medias está distribuida de forma aproximadamente normal, se pueden contestar preguntas sobre probabilidades utilizando la tabla de la distribución normal estandarizada. Es decir, si se conoce un valor de la media muestral Z=
x se
estandariza mediante la fórmula
̅
Ejm 2: Considere la población aproximadamente normal de las estaturas de los estudiantes varones de una universidad. Suponga que las alturas individuales tienen media y desviación estándar iguales a 1,65 m y 0.09 m, respectivamente. Se obtiene una muestra de 16 estaturas. a) Halle la media y el error estándar de la distribución muestral de medias. b) ¿Qué forma tiene esta distribución? c) ¿Cuál es la probabilidad de tener una estatura media mayor de 1,70 m? d) ¿Cuál es la probabilidad de tener una estatura media menor de 1,68 m? e) ¿Cuál es la probabilidad de tener una estatura entre 1,68 m y 1,73 m? Solución:
a)
x =
=
1,65 m
= x
n
=
0,09 16
= 0,0225
b) Tiene forma aproximadamente normal debido a que la población de donde se selecciona la muestra tiene esa forma
c)
Z =
1,70 1,65 0,0225
= 2, 22
P ( x > 1,70 m ) = P ( z > 2,22 ) = 0,5 – 0,4868 = 0,0132 d)
Z =
1,68 1,65 0,0225
= 1, 33
P ( x < 1,68 m) = P (z < 1,33) = 0,5 + 0,4082 = 0,9082 e)
Z =
1,73 1,65 0,0225
= 3,56
P (1,68 m < x < 1,73 m) = P (1,33 < z < 3,56) = 0, 4998 – 0,4082= 0,0916 Ejm 3: Si una población normal tiene desviación estándar igual a 25 unidades. ¿Cuál es el error estándar de la media si se utilizan muestras de tamaño 16, de tamaño 25, de tamaño 50 y de tamaño 100? ¿Qué concluye a medida que aumenta el tamaño de la muestra? Solución: Para n = 16, Para n = 50,
̅ = √ = 6,25. ̅ = √ = √ 3,54.
̅ = √ = 5. = 2,50. Para n = 100, ̅ = √
Para n = 25,
Se concluye que el error estándar disminuye a medida que aumenta el tamaño de la muestra. Ejercicio 1: Las masas de 1500 bolas de rodamientos están normalmente distribuidas, con media de 22,4 g y desviación estándar 0,048 g. Si se toman 300 muestras aleatorias de tamaño 36 de esa población, determine la media esperada y la desviación estándar esperada de la distribución muestral de medias, si el muestreo se hace: a) con reposición, b) sin reposición. Ejercicio 2: ¿Cuántas de las muestras del Ejercicio 1 tendrán sus medias: a) entre 22,39 g y 22,41 g? b) Mayor que 22,42 g? c) Menor que 22,37 g? d) Menor que 22,38 g o mayor que 22,41 g? Distribución muestral de diferencias de medias Dadas dos poblaciones, para cada muestra de tamaño de la primera población se determina su media; esto da una distribución muestral de medias cuya media y desviación estándar se denotará por y respectivamente. De manera similar, para cada muestra de tamaño de la segunda población se calcula su media, obteniendo así una distribución muestral de medias cuya media y desviación estándar se denotará por y .De todas las posibles combinaciones de estas muestras de las dos poblaciones se obtiene una distribución de diferencias - que se llama distribución muestral de diferencias de medias. La media y la desviación estándar de esta distribución de muestreo vienen dadas por
=
y
=
, suponiendo que las muestras seleccionadas
sean independientes. Utilizando el Teorema Central del Límite, se puede decir que la distribución muestral de diferencias de medias está distribuida de forma aproximadamente normal y por tanto se pueden encontrar probabilidades utilizando la tabla de la distribución normal estandarizada, mediante la siguiente transformación
()
Z =
Ejm 3: La puntuación media en una prueba de aptitud es de 72 con una desviación estándar de 8 puntos. ¿Cuál es la probabilidad de que dos grupos de 40 y 36 estudiantes respectivamente, difieran en su puntuación media: a) 3 o más puntos? b) 6 o más puntos? c) entre 2 y 5 puntos? Solución: Sean y las puntuaciones medias de ambos grupos. Entonces = = 72 – 72 = 0
= = = = = = 1,84 Por tanto,
() a) Una diferencia de 3 o más puntos puede suceder si - ≥3 Z = = 1,63 ; Z = = - 1,63 Z=
1
ó
- ≤ - 3, es decir
2
≤ - 3 ó - ≥ 3) = P(Z≤ -1,63 ó Z ≥ 1,63) = 2(0,5 – 0,4484) = 0,1013 b) Una diferencia de 6 o más puntos puede suceder si - ≥ 6 ó - ≤ - 6, es decir P( -
Z1=
= 3,26
; Z2 =
= - 3,26
≤ - 6 ó - ≥ 6) = P(Z≤ -3,26 ó Z ≥ 3,26) = 2(0,5 – 0,4994) = 0,0012 5 ó -5≤ - ≤ - 2, es decir c) Una diferencia entre 2 y 5 puntos, significa 2≤ - P( -
Z1=
= 1,09
; Z2 =
= 2,72
) = P(-2,72 ≤ Z ≤ -1,09 ó
P(-5 ≤ ≤ - 2 ó 2≤ = 2(0,4967 -0,3626) = 0,2682
1,09 ≤ Z ≤ 2,72) =
Estimación de Parámetros Uno de los objetivos de la estadística es hacer inferencias acerca de una población teniendo como base la información contenida en una muestra. Un problema importante de la estadística inferencial es la estimación de parámetros de la población ( tales como media, varianza o desviación estándar de la población) a partir de los correspondientes estadísticos muestrales( media, varianza o desviación estándar de la muestra). Los procedimientos de estimación pueden ser divididos en dos tipos: estimación puntual y estimación por intervalo. Estimación Puntual: Es aquella que utiliza un sólo valor de la muestra para estimar el parámetro de la población implicada. Por ejemplo, la media de la muestra es una 2 estimación puntual de la media μ de la población; la varianza s de la muestra es una estimación puntual de la varianza σ 2 de la población. Estimación Por Intervalo: Es una estimación de un parámetro de la población dado por dos números, entre los cuales se puede considerar encajado el parámetro. Las estimaciones por intervalo indican la precisión de una estimación y son por tanto preferibles a las estimaciones puntuales. La estimación se lleva a cabo mediante un estimador. Estimador: Es una regla que indica cómo calcular la estimación en base a la información contenida en la muestra. Generalmente se expresa mediante una fórmula.
̅
̅
∑ es un estimador de la media poblacional μ.
Por ejemplo, la media muestral =
Un buen estimador es aquél que es muy semejante al parámetro de la población. Características de un buen estimador: Un buen estimador debe ser: insesgado, consistente, eficiente y suficiente. Insesgado: Cuando el valor esperado de un estadístico tomado como estimador, es igual al parámetro poblacional que se quiere estimar. Consistente: Cuando el estimador se aproxima al parámetro poblacional al aumentar el tamaño de la muestra.