tema
58
MATEMÁTICAS Población y muestra. Condiciones de repr representatividad esentatividad de una muestra. Tipos de muestr muestreo. eo. Tamaño de una muestra.
3 1 0 5 8 3 1 4 2
tema 58
matemáticas
1.
POBLACIÓN Y MUESTRA. CONDICION ES DE REPRE SENTA SENTATIVIDAD TIVIDAD DE UNA MUESTRA
2.
CONDICIONES DE REPRESENTATIVIDAD DE UNA MUESTR A
3.
TIPOS DE MUESTRE O
3.1.
MUESTREO ALEATORIO SIMPL E
3.2.
MUESTREO ALEATORIO ESTRATIFICAD O
3.3.
MUESTREO AL EAT EATORIO ORIO SISTEMÁTICO
3.4.
MUESTREO POLIE TÁPICO TÁPICO,, POR ÁREAS O CONGLOMERADOS
3.5.
MUESTREO SECUENCIAL O MUESTREO SOBRE CALIDA D
3.6.
MÉTODOS INDIRECTOS DE MUESTRE O
4.
TAMAÑO DE UN A MUESTR A
3
tema 58
matemáticas
INTRODUCCIÓN
La Estadística tiene como objetivo recoger datos sobre la evolución de cualquier información contenida en una muestra. Todos conocemos y podemos encontrar día a día en los medios de comunicación algunos resultados referentes a estudios estadísticos que llevan a cabo los estados, las empresas, los comercios o los bancos por poner algunos ejemplos. Lo primero que se tiene que hacer es establecer el conjunto de elementos que nos interesa estudiar, es decir, la población. La población que le interesará a un estado para su estudio será todo el censo, en cambio una empresa privada, para llevar a cabo un estudio comercial se conformará con obtener información de una parte de dicha población, cogiendo una muestra. En el presente tema se van a estudiar estos conceptos, las condiciones de representatividad de una muestra, los tipos que existen y la forma de calcular el tamaño más adecuado para esta.
5
tema 58 matemáticas
1
POBLACIÓN Y MUESTRA. CONDICIONES DE REPRESENTATIVIDAD REPRESENTA TIVIDAD DE UNA MUESTRA MUESTR A Denición: Se llama Población a cualquier conjunto, o colección, de indiPoblación,, o bien universo, universo, a viduos o elementos que tienen una característica común. Observación: No necesariamente ha de referirse a un conjunto de de organismos vivientes. Son ejemplos de Población: 1. Los habitantes de un determinado país. 2. Los árboles de un bosque. 3. Los establecimientos comerciales de una ciudad.
Lo que nos interesa en la Población es medir o contar uno o varios caracteres cuantitativos. Por ello es necesario que la Población esté bien denida para que se sepa qué elementos la componen.
Cuando el Estadístico puede observar todos los elementos de la Población, diremos que está realizando un censo. En tal caso la tarea se reduce a describir las características y regularidades de la Población con los métodos de la Estadística Descriptiva y construir un modelo de Distribución de Probabilidad que pueda ser utilizado en posteriores investigaciones estadísticas.
Ahora bien, por diversos motivos no siempre es posible analizar cada elemento de la Población; por ejemplo:
6
Por ser inviable económicamente estudiar toda la Población.
Porque el estudio puede implicar la destrucción del elemento, como es el caso de ensayos destructivos: por ejemplo, estudiar la vida media de una partida de bombillas, o la tensión de rotura de cables.
Porque la población es muy difícil o imposible de controlar: por ejemplo, la totalidad de las personas que entran en unos grandes almacenes a lo largo de una semana.
Porque se desea conocer rápidamente ciertos datos de la Población, y se tardaría demasiado en controlar a todos: por ejemplo, para conocer la intención de voto de los habitantes de un país en unas elecciones.
tema 58
matemáticas
Entonces las características de la Población deben ser estudiadas a partir de un subconjunto de ésta. Denición: Una muestra de una Población es un subconjunto de elementos de dicha Poblamuestra de ción. El número de elementos que la componen se llama tamaño de la muestra y muestra y el proceso de escoger una muestra de una población se denomina muestreo. Si nuestra investigación se dirige a toda una población diremos que estamos haciendo un censo u observación exhaustiva. censo u exhaustiva. Si nos encontramos con la recogida de información de una muestra, diremos que estamos efectuando una encuesta encuesta.. Al efectuar una observación exhaustiva vemos el valor que toma una característica x en cada uno de los individuos de la población. De ahí que conozcamos la distribución de la variable y no sean necesarios métodos de la inferencia estadística. Si la característica x la observamos en una muestra de la población, para poder utilizar adecuadamente la inferencia estadística, hemos de prescindir de las muestras seleccionadas según un criterio u opinión personal. Surge de modo natural la necesidad de cuanticar los errores de muestreo y de conocer los aspectos fundamentales para una muestra sea representativa de la po blación ya que la información suministrada por una muestra representativa nos sirve para inducir o inferir, con mayor o menor exactitud, las características de la Población, mediante los métodos de la Estadística Inferencial.
7
tema 58 matemáticas
2
CONDICIONES DE REPRESENTA RE PRESENTATIVIDAD TIVIDAD DE UNA UN A MUESTRA Para poder obtener conclusiones razonables a partir de una muestra, ésta debe estar bien elegida, es decir, debe ser representativa de la Población Población.. Esto depende de dos aspectos fundamentales de la muestra: su tamaño y cómo se realiza la selección de los individuos que la componen.
es claro que si la muestra es demasiado pequeña no poRespecto al tamaño: tamaño: es demos obtener de ella ninguna conclusión que merezca la pena. S in embargo, a veces, con muestras relativamente pequeñas se obtienen resultados muy precisos sobre la Población. Por ejemplo: en poblaciones homogéneas, es decir, en poblaciones en las que cualquier subconjunto tiene características análogas al conjunto, las muestras pequeñas son muy representativas. Es lo que ocurre con los análisis de sangre y con los controles de calidad de una pieza de tela. Otras veces ocurre que un aumento del tamaño de la muestra no supone un aumento signicativo de la representatividad. En el último punto del tema veremos con más detalle este aspecto.
al sustituir Respecto a la forma de seleccionar los elementos de la muestra: muestra: al el estudio de la Población por el estudio de una muestra, se cometen errores. Si la muestra está seleccionada al azar, estos se pueden controlar. controlar. Sin embargo, si la muestra está mal elegida, no es representativa y se producen errores adicionales imprevistos e incontrolados.
Ejemplo: Un ejemplo típico es el de las elecciones americanas de 1936, en las que ganó Roosevelt. Una revista hizo una encuesta de intención de voto a más de cuatro millones de sus electores, y pronosticó el fracaso de Roosevelt. Otra encuesta realizada a 4.500 personas anunció el éxito de Roosevelt con mucha exactitud. La razón es que en el primer caso la muestra no era representativa de la sociedad americana, pues todos eran lectores de una determinada revista, mientras que en las 4.500 personas de la segunda estaban representados todos los estamentos de dicha sociedad. Este es uno de tantos ejemplos que pone de maniesto la necesidad de seleccionar adecuadamente los elementos que integran la muestra, eliminando criterio personales. Es decir, los integrantes de una muestra han de ser elegidos al azar. Si operamos así estamos ante un muestreo probabilístico al probabilístico al que podemos aplicar, como hemos indicado anteriormente, métodos de la inferencia estadística. Obtenemos así muestras representativas. Cuando la selección de los elementos de la muestra no se hace así estamos ante el muestreo opinático o no probabilístico probabilístico..
8
tema 58
matemáticas
Es decir:
- probabilístico → Muestra representativa ico o no probabilístico → Muestra no representativa - opinático
muestreo
Conviene distinguir entre dos tipos de errores en la selección de la muestra: 1. Errores muestrales: son aquellos que se encuentran latentes en toda muestra
representativa pues no proporcionan una medida exacta de las características de la población, aun siendo representativa. 2. Sesgos: debidos a la falta de representatividad de la muestra o a errores de ob-
servación originados por deniciones defectuosas, respuestas o medidas mal efectuadas… Es, por tanto, importante conocer los diferentes tipos de muestreo, así como la garantía de su representatividad. Antes de desarrollar este punto veamos algunos conceptos básicos en el muestreo. X
Distribución poblacional Supongamos que en una Población nos interesa estudiar la característica numérica x: tenemos x1, x2, ...., xn. Queremos saber su distribución, denida principalmente por los parámetros poblacionales: = tamaño de la Población N = N
∑ x
i
µ =
i =1
N
= media poblacional
N
N
∑ ( x − µ) ∑ x i
σ 2 = σ
=+
p A =
i =1
N 0
2
2 i
=
i =1
N
− µ2 = varianza poblacional
σ 2 = desviación típica poblacional
A proporción poblacional, con A = número de elementos de la = N
poblac pob lac ión con una car caract act erí sti ca A. X
Distribución de la muestra Medimos en la muestra la característica numérica x que nos interesa. x es una variable estadística, y estudiamos la dis tribución de sus frecuencias con los métodos de la Estadística Descriptiva. Sean x1, x2, ..., xn los valores obtenidos. Con ellos obtendremos los parámetros estadísticos o muestrales:
9
tema 58 matemáticas
n = tamaño de la muestra n
∑ x
i
x =
i =1
n
= media muestral
n
n
∑ ( x − x ) ∑ x 2
2 i
i
S 2 = S
i =1
n
=
i =1
n
2
− x = varianza muestral
= + S 2 = desviación típica muestral
p =
α = proporción muestral, con α = número de individuos de la muestra n
con una característica A. X
Distribución muestral Nuestro objetivo es obtener información sobre la l a ley de Probabilidad que rige la característica x de la Población a partir de las observaciones de la misma elegidas para formar la muestra. Es decir, queremos estimar los parámetros poblacionales a partir de los datos muestrales. Denición: Se llama estadístico estadístico a a cualquier función que depende sólo de los valores de la muestra: x1, x2, ..., xn. Un estimador estimador es es un estadístico que se utiliza para estimar el valor de un parámetro desconocido de la Población. Como para cada muestra considerada el estimador toma un valor, éste es una variable aleatoria, y por lo tanto, cada estimador tendrá una distribución, que llamaremos distribución muestral muestral del estimador considerado. Los estadísticos más utilizados son x , S 2, S , y un parámetro muestral que se llama denido de la siguiente forma: cuasivarianza muestral, muestral, denido n
∑ ( x − x ) i
SC 2
=
i =1
Es obvio que:
10
2
n−1
S 2 = n − 1 S 2 C n S 2 = n S 2 C n − 1
tema 58
matemáticas
3
TIPOS DE MUESTREO El muestreo probabilístico se caracteriza porque puede calcularse de antemano la probabilidad de obtener cada una de las posibles muestras, para lo cuál es necesario que la selección de la muestra pueda considerarse como un experimento aleatorio. Así, cada observación x i es una variable aleatoria que tiene la distribución de pro-
babilidad de la Población:
E [ x i ] =µ
V [ x i ] =2
∀i =1, =1, 2, ..., n
Este tipo de muestreo es el único que tiene rigor cientíco, y el único que puede darnos el error que cometemos en la inferencia. Dentro del muestreo aleatorio, hay varios tipos:
3.1.
MUESTREO ALEATORIO SIMPLE Si se seleccionan de forma sucesiva n elementos de la población, ui, y se halla el valor de la característica xi de modo que en cada extracción cada elemento tenga la misma probabilidad de ser elegido, habremos obtenido una muestra aleatoria de tamaño n, y diremos que el muestreo es aleatorio simple. La representatividad de una muestra obtenida por muestreo aleatorio simple viene garantizada por tener cada elemento la misma probabilidad de ser elegido. Así, si un 40% de la población tiene la característica xi, se obtendrá, por término medio, un 40% de elementos de la muestra con esa característica. Dependiendo que los elementos de la población se seleccionen con o sin reemplazamiento distinguimos dos casos en el muestreo aleatorio simple:
X
Caso 1: muestreo aleatorio simple sin reemplazamiento Cuando las sucesivas extracciones de elementos se realizan sin reemplazami reemplazamiento. ento. 1. Tenemos:
N n muestras posibles, posibles, y la probabilidad de seleccionar cada una de ellas es:
1 N n 2. Probabilidad de que la unidad ui pertenezca a la muestra:
P( ui pertenezca a una muestra determinada)
N − 1 (N − 1)! n − 1 (n − 1)!⋅ (N − n)! n = = = N ! N N n n!⋅ (N − n)
11
tema 58 matemáticas
3. Variables indicadoras:
Para k = = 1, .. .N , sea βk una variable aleatoria tal que
1 si uk está en la muestra β k = 0 si uk no está en la muestra
Entonces: a)
P ( β k = 1) =
b)
E [ β k ] = 1⋅
n por II. N
n n n = . 1 + 0⋅ − N N N
Denimos también la variable aleatoria:
β i ⋅ β k =
1 si ui y uk éstán en la muestra 0 en caso contrario
Entonces:
a)
b)
N − 2 (N − 2)! n − 2 (n − 2)!⋅ (N − n)! n ⋅ (n − 1) P ( β j ⋅ β k = 1) = = = N ! N ⋅ (N − 1) N n n!⋅ (N − n)! n ⋅ (n − 1) n ⋅ (n − 1) n ⋅ (n − 1) E [ β j ⋅ β k ] = 1⋅ + 0⋅ 1− = N ⋅ (N − 1) N ⋅ (N − 1) N ⋅ (N − 1) N
4. Distribución de la media muestra: a)
1 E [x] = E n
n
∑ i =1
1 x i = n
n
∑ E [x ] = 1n ⋅ n⋅ µ = µ, por la linealidad de la i
i =1
esperanza.
b) 2 x1 + .. µ + ⋅ ... . x n n − V [x] = E x − E [x ] = E (x − µ) = E = n n 2
E [ x ]= µ
2
2 1 n 1 n = 2 E (x i − µ)2 + = E 2 ( x i − µ) n i =1 n i =1
∑
= = = 12
1 n2
∑
n
n
∑
i
i =1
i ≠ j
n
+
1 n2
i
j
i i ≠ j
N
∑ E ( β ⋅ β ) ⋅ (x − µ) ⋅ ( x − µ) = i
j
i
j
i ≠ j
N
∑ E [ β ⋅ β ] ⋅ E (x − µ) ⋅ (x − µ) i
i ≠ j
j
i
j
( xx i − µ) ⋅ (x j − µ)
∑ E (x − µ) + ∑ E ( x − µ) ⋅ (x − µ) = 2
1 1 2 ⋅ ⋅ + σ n n2 n2 σ 2
1 n2
n
=
tema 58
matemáticas
dónde βi · β j y ( x xi – µ) · ( x x j – µ) son v.a. independientes
σ 2 1 = + 2 n n
N
∑ i ≠ j
n ⋅ (n − 1) E (xi N ⋅ (N − 1)
σ 2 1 n ⋅ (n − 1) E = + 2⋅ n n N ⋅ (N − 1)
− µ) ⋅ (x j − µ) =
N (xi − µ) ⋅ (x j − µ) = i ≠ j
∑
2 N N ( xi − µ) = 0 ⇒ (x i − µ) = 0 ⇒ i =1 i =1 N N 2 ⇒ ( xi − µ) + (xi − µ) ⋅ (x j − µ) = 0 ⇒ i =1 i ≠ j
∑
∑
∑
∑
σ 2 (n − 1) E = + n n ⋅ N ⋅ (N − 1)
∑
∑
N
∑
=
∑
N − (x i − µ)2 = i =1
σ 2 σ 2 (n − 1) 2 E x = + − µ ( ) i = n n n ⋅ N ⋅ (N − 1) i =1 (N − 1) σ 2 − (n − 1)σ 2 n ⋅ (N − 1)
N N ( xi − µ) ⋅ (x j − µ) = − (x i − µ)2 i ≠ j i =1
=
−
n−1 ⋅ N ⋅ σ 2 = n ⋅ N ⋅ (N − 1)
N − n σ 2 ⋅ N −1 n
N −n se llama factor de corrección para poblaciones nitas. N − 1 5. Distribución de la varianza muestral S 2:
1 E [S ] = E n
1 n x − x = E [ xi 2] − E [x 2] i =1 n i =1 N − n σ 2 2 2 2 2 V [x] = E [x ] − µ ⇒ E [x ] = V [x ] + µ = ⋅ + µ2 N −1 n V [x] = σ 2 = E [x 2] − µ 2 ⇒ E [x 2] = σ 2 + µ 2 2
1. 2.
1 ( xi − x) = E n i =1 n
∑
2
N
∑
2 i
2
∑
Luego:
E [S ] = 2
N − n σ 2 2 1 2 2 ⋅ n ⋅ ( σ + µ ) − ⋅ + µ = N − 1 n n
= σ − 2
2 N − n σ 2 N ⋅ (n − 1) 2 n ⋅ N − n − N + n σ ⋅ = σ ⋅ = ⋅ N −1 n n ⋅ (N − 1) n N − 1
13
tema 58 matemáticas
X
Caso 2: muestreo aleatorio simple con reemplazamient reemplazamiento o Cuando las sucesivas extracciones de elementos se realizan con reemplazamiento: entonces tenemos un n-upla x1, x2, ..., xn. de variables aleatorias independientes e idénticamente distribuidas según la distribución de la Población (variables aleatorias e independientes e idénticamente distribuidas ). 1. Tenemos N n muestras posibles, y la probabilidad de seleccionar una de ellas es,
por tanto
1 . N n
2. Distribución de la media muestral x : a)
E [x ] = µ (visto antes)
1 b) V [x] = V n
n
∑ i =1
v.a.i. 1 x i = 2 n
n
1 n2
n
∑ V [x ] = ∑ σ = i
i =1
2
i =1
σ 2 1 2 ⋅ n ⋅ σ = n2 n
3. Distribución de la varianza muestral S 2:
1 E [S ] = E n 2
n
n
∑
(xi − x )2
i =1
n
∑ ( x − x) = ∑ (x − µ + µ − x ) 2
2
i
i
i =1
=
i =1 n
=
n
n
∑ ( x − µ) + ∑ (µ − x) + 2∑ (x − µ) ⋅ (µ − x ) = 2
i
i
i =1
i =1
i =1
n
=
n
∑ ( x − µ) + n ⋅ (µ − x) + 2(µ − x)∑ (x − µ) = 2
2
i
i
i =1
i =1
n
=
∑ ( x − µ) + n ⋅ ( µ − x) + 2(µ − x) ⋅ (n⋅ x − n⋅ µ) = 2
i
2
i =1 n
=
n
∑ ( x − µ) + n ⋅ (µ − x ) + 2n ⋅ ( µ − x) = ∑ (x − µ) − n ⋅ (µ − x) 2
i
2
2
i
i =1
Luego
2
i =1
n
2
n
∑ ( x − µ) = ∑ (x − x) + n ⋅ (µ − x ) 2
2
i
i =1
2
i
i =1
Este resultado tiene una importante interpretación: descompone la variabilidad de los datos respecto a la media poblacional (la verdadera media) como suma de la variabilidad respecto de la media muestral y la variabilidad entre la media muestral y la verdadera.
14
tema 58
matemáticas
Tomando esperanzas queda:
n E (xi − µ)2 = E i =1
∑
n σ 2 2 2 2 2 (xi − x) + n ⋅ E [(x − µ) ] ⇒ n ⋅ σ = E [n ⋅ S ] + n ⋅ ⇒ n i =1 n−1 2 n · E [S 2] = n · σ 2 – σ 2 = (n – 1) · σ 2.Luego E [S 2] = σ
∑
n
En consecuencia, el valor medio de S 2 es menor que σ 2, aunque la diferencia tiende a 0 al aumentar el tamaño de la muestra. Es por esto que se dene la cuasivarianza muestral S c2, que verica:
n ⋅ S 2 = n ⋅ E [S 2] = n ⋅ n − 1⋅ σ 2 = σ 2 n−1 n n − 1 n − 1
E [Sc 2] = E Y si n es grande S 2 ≈ S 2 Observación:
En el caso de ser la población innita o el tamaño N muy grande, entonces es prácticamente igual hacer el muestreo con o sin reemplazamiento, ya que: Caso 1
V [x ] = E [S 2] =
Caso 2
N − n σ 2 ⋅ N −1 n
N ⋅ (n − 1) σ 2 ⋅ N −1 n
n→∞
→ V [x ] = n→∞ → E [S 2] =
σ 2 n
n−1 2 ⋅ σ n
Como regla práctica se suele adoptar que si la fracción de muestreo n / es menor N es que 5/100, entonces se hace el muestreo aleatorio simple con reemplazamiento, 5/100, entonces que es el que se utiliza con mayor frecuencia, y al ser variables aleatorias e inde pendientes e idénticamente distribuidas el estudio de las distribuciones de x y y S 2 queda mucho más sencillo como acabamos de ver. Ejemplo: Una variable aleatoria X tiene tiene por distribución de probabilidad: x
1
4
pi
1 3
1 2
a) Hallar µ y σ 2
1 2 µ = 1⋅ + 4 ⋅ = 3 3 3 σ 2
1 3
2 3
= 12 ⋅ + 42 ⋅ − 32 = 11− 9 = 2
15
tema 58 matemáticas
b) Formar todas las muestras aleatorias simples con remplazamiento remplazamiento de tamaño 2 y obtener las distribuciones de x y y S 2 Muestras
Pi
x
S 2
(1, 1)
1 9
1
0
(1, 4)
2 9
2,5
2,25
(4, 1)
2 9
2,5
2,25
(4, 4)
4 9
4
0
12 + 12 2 S (1,1) = − 1 = 0 = S 2(4, 4) 2 2
S 2(1, 4) =
12 + 42 − 2, 52 = 2, 25 = S 2(4, 1) 2
Distribución de x :
x
Pi
1
1 9
2,5
4 9
4
4 9
S 2
Pi
0
5 9
2,25
4 9
Distribución de S 2:
16
tema 58
matemáticas
n−1 2 σ 2 c) Comprobar que E [x] = µ, V [x] = ⋅ σ y E [S 2] = n n 1 4 4 E [x ] = 1⋅ + 2, 5⋅ + 4⋅ = 3 = µ 9 9 9 V [x ] = 12 ⋅ V [x ] =
1 4 4 + 2, 52 ⋅ + 42 ⋅ − 32 9 9 9
σ 2 n
E [S 2] = 0⋅ E [S 2] =
= 10 − 9 = 1
2 2
= =1 5 4 25⋅ = 1 + 2, 25 9 9
n−1 2 1 ⋅ σ = ⋅ 2 = 1 n 2
4. Distribución de la proporción muestral:
Denimos en la Población la variable aleatoria Y de de Bernouilli: Y ≡ B(1, p A). Sabemos que E [Y ] = p A, V [Y ] = p A · q A donde q A = 1 – p A.
Tomamos una muestra aleatoria simple de tamaño n Y 1, Y 2, ..., Y n. n
∑ Y
i
La proporción muestral de A es: p =
a)
b)
X
i =1
n
.
n Y i n 1 1 i =1 E [ p] = E E [Y i ] = ⋅ n ⋅ pA = pA = n n i =1 n n Y i v.a.i. n 1 1 p A ⋅ qA i =1 = = ⋅ ⋅ ⋅ V [ p] = V V [ Y ] n p q = i A A n n2 i =1 n2 n
∑ ∑
∑
∑
Distribuciones de probabilidad en el muestreo Conocer las distribuciones de probabilidad en el muestreo de los estadísticos estudiados es clave en la inferencia Estadís tica. Con los resultados obtenidos, suponiendo una muestra aleatoria simple con reemplazamiento, tenemos que: a) Caso de Poblaciones normales: X ≡ N ( µ, σ ) 1.
Si σ 0 conocida: x
σ ≡ N µ, 0 n
17
tema 58 matemáticas
2.
Si σ desconocida: desconocida:
n⋅ S 2 3. σ 2
≡ℵ ⇔ 2 n−1
x − µ Sc n
≡ t n−1
(n − 1) ⋅ Sc 2 σ 2
Y,, además, es independiente de x . ≡ ℵ2n−1. Y
b) Caso de Poblaciones no normales: 1. Cuando no sabemos la distribución de la Población, y n ≥ 30, podemos apli-
car el Teorema Central del Límite y tenemos que:
x → N µ,
σ , si σ conocida n
Sc 2 x → N µ, , si σ desconocida n 2. Si Y ≡ B(1, p), y n ≥ 30, entonces por el Teorema Central del Límite:
p A ⋅ qA n
p ≡ N P A ,
Si tenemos alguna información sobre la Población, debe utilizarse, y da lugar a otros tipos de muestreos probabilísticos:
3.2.
MUESTREO ALEA A LEATORIO TORIO ESTRATIFICADO En el muestreo aleatorio estraticado, la población se divide en grupos homogé neos que se denominan estratos, y posteriormente se extrae una muestra aleatoria simple de cada estrato. Así por ejemplo, si tenemos una población en la que el 60% son mujeres y el 40% hombres, para escoger una muestra de 2000 personas dividimos la población en dos estratos: hombres y mujeres, y se escoge al azar una muestra proporcional de cada estrato: 1200 mujeres y 800 hombres. Si N es el tamaño de la población y denominamos por N 1, … Nk el tamaño de cada estrato, tendremos que N= N 1+ … +Nk . El número de elementos de cada estrato que debemos seleccionar n j, debe ser proporcional al número de elementos de cada estrato, es decir:
n j
=n
N j N
donde n es el número de elementos que queremos que tenga la muestra. La representatividad de una muestra obtenida por muestreo aleatorio estraticado viene garantizada por el hecho de que:
18
El número de elementos que se tomen de cada estrato es proporcional al tamaño del estrato.
tema 58
matemáticas
El número de elementos seleccionados de cada estrato es proporcional a la variabilidad de cada estrato
Una vez determinado el número de individuos que deben pertenecer a cada estrato, se procede a la selección de individuos de cada estrato por muestreo aleatorio simple. Ejemplo práctico: En un instituto de enseñanza secundaria en se ofertan los siguientes tipos de enseñanza:
Ciclos de grado superior: 110 alumnos.
Bachillerato: 162 alumnos.
Ciclos de grado medio: 210 alumnos.
2.º ciclo de enseñanza secundaria obligatoria: 338 alumnos.
Se pretende valorar las faltas de ortografía que cometen los alumnos del centro mediante una prueba-dictado de un texto de 20 líneas; la prueba se pasará a una muestra de 50 alumnos, para minimizar el costo en tiempo y medios. En esta situación parece conveniente utilizar para la extracción de la muestra el muestreo aleatorio estraticado con ajación proporcional. Dividimos la población en cuatro estratos: ciclos de grado superior, ciclos de grado medio, bachillerato y 2.º ciclo de Enseñanza Secundaria Obligatoria. Como el número total de alumnos son 820 y la muestra debe estar formada por 50 alumnos. El cálculo del número que se han de tomar de cada estrato es: Ciclos de grado superior: 820 —— 110 50 ——
x
50 × 110 x = 820 ≈ 7
Bachillerato: 820 —— 162 50 ——
x
50 × 162 x = 820 ≈ 10
Ciclos de grado medio: 820 —— 210 50 ——
x
50 × 210 x = 820 ≈ 13
2.º ciclo de Enseñanza Secundaria Obligatoria:
820 —— 338 50 ——
x
50 × 338 x = 820 ≈ 20
19
tema 58 matemáticas
3.3.
MUESTREO ALEAT ALEATORIO ORIO SISTEMÁTICO Se utiliza cuando los elementos de la Población están ordenados en listas. Sea k el el entero más próximo a N /n La muestra sistemática se toma eligiendo al azar un elemento entre los k primeros. primeros. Sea n1 el orden del elegido. Tomamos a continuación los elementos n1 + k , n1 + 2k , ..., a intervalos jos de k hasta hasta completar la muestra. Si el orden de los elementos de la lista es al azar, este procedimiento es equivalente al muestreo aleatorio simple, aunque resulta más fácil llevarlo a cabo sin errores. Así pues, la representatividad de una muestra aleatoria sistemática es la misma que la de una muestra aleatoria simple. S i el orden es tal que los individuos próximos tienden a ser s er más semejantes que los alejados, el muestreo sistemático sist emático tiende a ser más preciso que el muestreo aleatorio simple, al cubrir más homogéneamente toda la Población. El muestreo sistemático puede utilizarse conjuntamente con el estraticado, para seleccionar la muestra dentro de cada estrato.
3.4.
MUESTREO POLIET POLIE TÁPICO, POR ÁREAS O CONGLOMERADOS Si la Población es muy homogénea se utiliza este tipo de muestreo. Para P ara realizarlo, se divide la población en diferentes secciones o conglomerados y se elige al azar unas cuantas secciones para formar la muestra. La representatividad de una muestra por áreas viene garantizada por el hecho de haber elegido los conglomerados por un método aleatorio. Ejemplo: Para seleccionar una muestra de personas que viven en Madrid, elegimos por muestreo aleatorio simple un barrio, y se investiga la característica buscada en todas las personas que viven en esa zona: estamos realizando un muestreo por conglomerados en una sola etapa. Si dentro del barrio elegimos al azar una calle, y tomamos entre sus vecinos la muestra, estamos realizando un muestreo por conglomerados en dos etapas o etapas o bietápico. Si, además, seleccionamos al azar unos números de las viviendas de esa calle, y tomamos aquí la muestra, estaremos realizando un muestreo por conglomerados en tres etapas o trietápico, y así podríamos seguir eligiendo pisos, letras, etc. En este caso la representatividad viene garantizada por el hecho de haber elegido los conglomerados por un método aleatorio.
20
tema 58
matemáticas
3.5.
MUESTREO SECUENCIAL O MUESTREO SOBRE CALIDAD Este tipo de muestreo se utiliza sobre todo para realizar controles de calidad en los que se debe estudiar una característica de una población cuyo estudio implica la destrucción del elemento que se seleccione. En un muestreo secuencial las unidades de muestreo son examinadas progresivamente hasta llegar al punto en que se tiene suciente información como para dar el resultado con las probabilidades de error previamente establecidas. Por tanto, primeramente se establecen unas pro piedades que debe de cumplir el elemento que se seleccione y se toma la decisión de rechazarlo o aceptarlo y de continuar o no la inspección. Con este tipo de muestreo se requiere una muestra de menor tamaño que en los muestreos estudiados anteriormente aunque puede haber una ligera pérdida de representatividad respecto a estos.
3.6.
MÉTODOS INDIRECTOS DE MUESTREO Si podemos estimar una recta de regresión entre dos variables de una población, con una muestra de una variable (variable independiente que obtendremos por métodos directos como muestreo aleatorio simple, muestreo por conglomerados…) podemos estimar los valores de la otra variable (variable dependiente). La representatividad de esta muestra dependerá del coeciente de correlación entre las dos variables que se estudien y de la representatividad de la muestra de la variable independiente. Así, por ejemplo, conocida la relación existente entre el peso del cerebro y el peso corporal de ciertas especies de mamíferos, podemos estimar el peso del cerebro y ahorrarnos muchas mediciones obteniendo únicamente estimaciones del peso corporal.
21
tema 58 matemáticas
4
TAMAÑO DE UNA MUESTRA En el apartado anterior se ha respondido una de las dos cuestiones formuladas al principio del tema, ¿cómo se debe seleccionar una muestra para que sea representativa? En este apartado abordaremos la otra cuestión planteada: ¿qué tamaño debe tener la muestra? Antes de realizar el muestreo hemos de jar el tamaño de la muestra con el n de que los gastos económicos para su realización estén dentro de nuestro presupuesto, que el tiempo que necesitemos para realizar el muestreo sea corto y que los resultados sean ables. En primer lugar, se establece el tamaño de la muestra de pendiendo del grado de precisión que queremos alcanzar. En función del tamaño de la muestra se obtienen los gastos que requiere y el tiempo necesario. Los gastos y el tiempo hace que muchos estudios no se realicen con la precisión determinada inicialmente. Veamos en distintos ejemplos como, determinado un error y un nivel de conanza 1- α podemos calcular el tamaño de una muestra. Ejemplo 1: El intervalo de conanza para la media poblacional desconocida µ de una Población normal con σ 0 conocida es:
I C 1− α ( µ) = x ± zα ⋅ El error es: E
= z α ⋅ 2
σ 0
n
2
σ 0
n
(1)
Fijado 1 – α, el mínimo tamaño que ha de tener la muestra para conseguir esas condiciones se obtiene despejando n en la expresión (1): 2
z α ⋅ σ 2 E 2 = z ⋅ ⇒ n = 2 E n 2 2 σ 0 α 2
Observemos que el tamaño de la muestra:
, es decir, mayor 1 – α.
Será mayor cuanto mayor sea
Será mayor cuanto menor sea E : el intervalo es más preciso para la estimación.
α 2
Ejemplo 2: Si tenemos una población binomial p ≡ N za de nivel 1 – α para p es:
p ⋅ q conan , y el intervalo de conan p, n
I C 1− α ( p) = p ± x α ⋅
22
2
p⋅ q n
tema 58
matemáticas
El error es E
= z α ⋅ 2
p⋅ q . Como no tenemos n, no podemos saber p ni q, pero n
si sabemos que p ⋅ q <
1 . Así E 4
≤ E ′ = z α ⋅ 2
1 4 , y jado 1 – α y E’, podemos n
obtener el tamaño muestral mínimo para este caso: 2
1 1 1 z α2 ⋅ ⋅ ⇒ n = ⋅ zα ⋅ (E ′)−1 4 n 2 2 2
E ′2 =
Si no tenemos información sobre la población, utilizamos la desigualdad de Markov:
P ( g ( ξ) > λ) ≤ tomando g ( x) = ( x − µ) λ = ε2 >0, entonces:
P ((x − µ)
2
2
E [ g (ξ)] λ
> 0 ⇒ E [g (x)] = E ( x − µ) = V [x ] = 2
> ε ) ≤ 2
σ 2 n ⋅ ε2
⇔ P ( x − µ > ε) ≤
σ 2 n
y
σ 2 , n ⋅ ε2
lo que nos permite determinar el tamaño de la muestra necesario para asegurar con determinada probabilidad que la media muestral no se alejará más de una determinada cantidad de la media poblacional. Ejemplo 3: En el proceso de selección de una muestra aleatoria simple de una población con una varianza conocida σ 2 = 10, y media desconocida µ, vamos a calcular el tamaño de la muestra necesario para que la media muestral esté a menos de 2 unidades de la muestra poblacional con una probabilidad de al menos 0,9:
0, 9 ≤ P ( x − µ P ( x − µ
≥ 2) ≤
< 2) = 1− P ( x − µ ≥ 2) ⇒ σ 2 10 5 = = = 0,1⇒ n = 25 22 ⋅ n 4n 2n
23
tema 58 matemáticas
BIBLIOGRAFÍA
ARNÁIZ VELLANDO, G.: Introducción a la Estadística Teórica. Ed. Lex Nova, 1986. AZORÍN POCH, F.: Curso de muestreo muestreo y y aplicaciones. aplicaciones. Ed. Aguilar, 1969. GARCÍA BARBANCHO, A.: Estadística elemental elemental moderna. moderna. Ariel Economía, 1992. RUEDA GARCÍA, M.M.: Técnicas de muestreo en en páginas páginas web. Plácido Cuadros, 2003. SÁNCHEZ-CRESPO RODRÍGUEZ, J.: Curso intensivo de muestreo en poblaciones finitas. I.N.E., 1984. VARIOS: Introducción a la estadística. UNED, 1998.
24
tema 58
matemáticas
RESUMEN
Población y muestra. Condiciones de representatividad de una muestra. Tipos de muestr muestreo. eo. Tamaño de una muestra.
1. 1
POBLACIÓN Y MUESTRA Se denomina población a todo conjunto de elementos que tienen unas características comunes. Debido al hecho de que no siempre es posible analizar todos los elementos de una población, se selecciona s elecciona un subconjunto de ésta que se denomina muestra. La operación de seleccionar una muestra se llama muestreo.
2. 2
CONDICIONES DE REPRESENTATIVIDAD DE UNA MUESTRA Para poder obtener conclusiones razonables a partir de una muestra debemos prescindir de las muestras seleccionadas según opiniones o criterios personales y cuanticar los errores de muestreo. Es decir, una muestra debe ser representativa de la población. Esto depende de dos aspectos fundamentales: de su tamaño y de cómo se realiza el muestreo.
3. 3
3.1.
TIPOS DE MUESTREO
MUESTREO ALEATORIO SIMPLE Selección de n elementos de la población de modo que en cada extracción cada elemento tenga la misma probabilidad de ser elegido.
3.2.
MUESTREO ALEAT ALEATORIO ORIO ESTRATIFICADO La población se divide en grupos homogéneos que se denominan estratos y posteriormente se extrae una muestra aleatoria simple en cada estrato.
3.3.
MUESTREO ALEAT ALEATORIO ORIO SISTEMÁTIC SIS TEMÁTICO O La muestra sistemática se realiza cuando los elementos están ordenados en listas y se toma eligiendo al azar un elemento entre los k primeros primeros (siendo k el el entero más próximo al cociente entre el tamaño de la población y el tamaño de la muestra) . Sea i el orden del elegido. Tomamos Tomamos a continuación los elementos i + k , i + 2k , ..., a intervalos jos de k hasta hasta completar la muestra.
3.4.
MUESTREO POLIE TÁPICO, POR ÁREAS O CONGLOMERADOS Se divide la población en diferentes secciones o conglomerados y se elige al azar unas cuantas secciones para formar la muestra.
25
tema 58 matemáticas
3.5.
MUESTREO SECUENCIAL O MUESTREO SOBRE CALIDAD En un muestreo secuencial las unidades de muestreo son examinadas progresivamente hasta llegar al punto en que s e tiene suciente información como para dar el resultado con las probabilidades de error previamente establecidas.
3.6.
MÉTODOS INDIRECTOS DE MUESTREO Si podemos estimar una recta de regresión entre dos variables de una población, con una muestra de una variable podemos estimar los valores de la otra variable.
4. 4
TAMAÑO DE UNA MUESTRA Antes de realizar el muestreo hemos de jar el tamaño de la muestra con el n de que los gastos económicos para su realización estén dentro de nuestro presupuesto, que el tiem po que necesitemos para realizar el muestreo sea corto y que los resultados sean ables. Determinado un error y un nivel de conanza 1muestra.. muestra
26
podemos calcular el tamaño de una
α