Muestreo Aleatorio Aleatorio Simple (M.A.S.) Guillermo Jopen Sánchez
Ismael Muñoz Gonzales
[email protected]
[email protected]
Dirección de Investigación y Documentación Do cumentación Educativa Programa de Fortalecimiento de Competencias Investigativas (FCI)
Diciembre 2013
Contenido •
Muestreo estadístico estadístico Población y muestra • Muestreo Aleatorio Simple • Error Muestral, Intervalo de Confianza y Prevalencia •
•
Análisis práctico Efecto Efecto del tamaño de la población • Efecto del tamaño de la muestra • Efecto de la prevalencia •
Análisis de Casos 04
Muestreo Aleatorio Aleatorio Simple (MAS)
MUESTREO ESTADÍSTICO
Población y Muestra •
Observación –
–
•
Una observación es la unidad de análisis más básica Algunos ejemplos de unidades de análisis utilizadas en investigación educativa son: •
Locales educativos
•
Instituciones Educativas (IIEE)
•
Estudiantes
Población –
Es el conjunto de observaciones disponibles
–
Requiere de determinada determinada dimensión o dimensiones de análisis: •
•
Temporal: “en el año 2012”, “a enero de 2013”, “en el mes anterior”, “en los últimos 3 años”, etc. Transversal: “de gestión pública”, “de primaria”, “de 4° grado de primaria”, “de 5to año de secundaria”. “mujeres”, “hombres de 3° grado de secundaria con 15 años”, etc.
Población y Muestra Análisis Poblacional
VENTAJAS: •
Permite realizar un análisis detallado “observación por observación”, revelando las características características del conjunto
DESVENTAJAS: •
•
Resulta muy costoso en términos de: • Dedicación de tiempo • Recursos financieros Peor aún si es que el conjunto es muy amplio o grande (p. e. todos los estudiantes del Perú)
Población y Muestra •
Muestra –
–
–
Es un subconjunto de observaciones tomadas a partir de la población de interés Comúnmente se busca que esta muestra sea representativa de la población, es decir, que comparta las mismas características y composición Permite: Reducir costos de tiempo y recursos financieros (No requiere análisis “observación x observación.”) Validez interna: Realizar análisis representativos para el conjunto muestral Validez externa: Si es una muestra representativa de la población, será posible realizar análisis representativos del conjunto poblacional también •
•
•
¿Cómo conseguir una muestra representativa?
Muestreo aleatorio simple •
•
•
La forma más sencilla es realizar realizar un Muestreo Aleatorio Simple (MAS) Pronto discutiremos técnicas más complejas (muestreo estratificado, muestreo muestreo por etapas, etc.), pero todas serán técnicas aleatorias. El MAS es un sorteo sencillo entre las observaciones de la población a analizar (elección como en una lotería)
Población
Muestra
Observación
Muestreo aleatorio simple •
•
•
•
El resultado del sorteo es la muestra La muestra está compuesta por observaciones posibilidades de de ser elegidas; es decir es aleatoria
con
iguales
Este sorteo asegura que las observaciones que pasen a la muestra cumplan con las mismas características características de la población Además, las muestras muestras aleatorias permiten calcular márgenes de error e intervalos de confianza. Otras formas de muestreo no aleatorias (por cuotas, por conveniencia, etc.) no lo permiten
Error muestral •
•
•
•
Diferencia entre el valor poblacional y el obtenido mediante una muestra Describe el nivel de precisión de una medida (media, proporción, etc.) debido a la incertidumbre presente en los datos al ser tomados de una muestra Esta dificultad de acertar en el valor puntual, conlleva a una estimación por intervalos, donde es el error muestral el que se emplea para ubicar entre qué valores se encuentra el verdadero (o poblacional)
¿Cómo calcular el error muestral asociado a un intervalo de confianza? ¿de qué factores depende?
Estimación del error estándar •
En primer lugar, es necesario conocer el error estándar de una determinada estimación, el cual dependerá de:
Tamaño de la muestra
Error estándar
e=
1−
n
P (1 − P )
N
n
Tamaño de la población
Prevalencia
Tamaño de la muestra
Análisis de Casos 04
Muestreo Aleatorio Aleatorio Simple (MAS)
EJEMPLO: CONSUMO DE TABACO EN LIMA METROPOLITANA
Ejemplo: Consumo de Tabaco en Lima Metropolitana •
•
•
•
Queremos evaluar el impacto de una campaña para reducir el consumo de tabaco entre adolescentes entre 12 y 16 años de edad en Lima Metropolitana. Metropolitana. Para tener datos de línea de base, se eligió una muestra aleatoria simple de 900 de los 17125 adolescentes adolescentes de la provincia provincia de Lima registrados registrados en el último Censo Nacional de Población y Vivienda. 279 de los adolescentes de la muestra declararon haber fumado en el último mes. ¿Qué podemos decir sobre la prevalencia prevalencia actual del consumo de tabaco entre los adolescentes entre 12 y 16 años de edad en Lima Metropolitana?
Ejemplo: Consumo de Tabaco en Lima Metropolitana Podemos calcular fácilmente la prevalencia del consumo de tabaco:
•
P=
•
279 900
=
0,31
(31 por ciento)
También podemos estimar el error estándar como:
1−
e=
e=
1−
n
P (1 − P )
N
n
900
0,31(1 − 0,31)
17125
900
e=
0,015
(1,5 por ciento)
Error Muestral e Intervalo de Confianza •
Con base en el error estándar podemos calcular el error muestral y los intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)
27
28
29
30
31
32
33
34
Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05) Fórmula del error muestral:
E = e × t α 2
35
Error Muestral e Intervalo de Confianza •
Con base en el error estándar podemos calcular el error muestral y los intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)
27
28
29
30
31
32
33
34
Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05)
Nota: El 95% de confianza es un consenso estadístico
Fórmula del error muestral:
E = e × t α 2
35
Error Muestral e Intervalo de Confianza •
Obtenemos Obtenemos los valores críticos de la distribución normal
0,95 0,025
0,025
-t
/2
α
0
t
/2
α
Error Muestral e Intervalo de Confianza •
Obtenemos Obtenemos los valores críticos de la distribución normal
Nota: Esta es una gráfica de distribución de datos del tipo “Normal”. Es considerado un estándar estadístico 0,95 0,025
0,025
-t
/2
α
0
t
/2
α
Error Muestral e Intervalo de Confianza •
Valores críticos en la tabla de distribución Probabilidad de ocurrencia
El valor crítico asociado a un 95% de confianza es 1,96
Error Muestral e Intervalo de Confianza •
Valores críticos en la tabla de distribución Probabilidad de ocurrencia
Considérese que el valor crítico es un valor estadístico a partir del cuál
la probabilidad de ocurrencia de valores extremos es muy menor o insignificante
El valor crítico asociado a un 95% de confianza es 1,96
Error Muestral e Intervalo de Confianza •
Obtenemos Obtenemos los valores críticos de la distribución normal
0,95 0,025
-1,96 = -t
0,025
/2
α
0
t
/2
α
= 1,96
Error Muestral e Intervalo de Confianza •
Con base en el error estándar podemos calcular el error muestral y los intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)
27
28
29
30
31
32
33
34
Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05) Fórmula del error muestral (E):
E = e × t α 2
E = 1,5 × 1,96
=
2,94
35
Intervalo de Confianza •
Con base en el error estándar podemos calcular intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)
27
28
29
30
31
32
33
Intervalo del 95 % de confianza ( α=0,05)
31 ± (1,5 ×1,96)
=
31 ± 2,94
Intervalo del 99 % de confianza ( α=0,01)
31 ± (1,5 × 2,58)
=
31 ± 3,87
34
35
Efecto del tamaño de la población
e=
1−
n
P (1 − P )
N
n
Corrección de población finita
En la práctica, casi siempre es tan cercana a 1 que podemos ignorarla
Efecto del tamaño de la población Tamaño de la muestra necesaria para obtener una precisión determinada
En la práctica, el tamaño de la población incide muy poco sobre el tamaño de la muestra
Tamaño de la población
Efecto del tamaño de la muestra Error estándar
Para Para reducir el error a la mitad… …hay que cuadruplicar cuadrup licar la muestra Pero en la práctica podría ser muy costoso
Tamaño de la muestra
Despejando para calcular el tamaño de muestra óptimo e= E = e × t α
1−
n
P (1 − P )
N
n
2
E t α
n=
=
1−
2
t α
2 2
n
P (1 − P )
N
n
P (1 − P ) N 2
2
E ( N − 1) + t α
2
P (1 − P )
Esta sería la fórmula de cálculo del tamaño de la muestra
Cálculo del error estándar •
•
•
Recordemos el ejemplo sobre el consumo de tabaco entre adolescentes entre 12 y 16 años de edad en Lima Metropolitana Tengamos en cuenta los siguientes datos: –
Tamaño de la población: 17125 adolescentes a dolescentes (N = 17125)
–
Tamaño de la muestra: 900 adolescentes (n = 900)
–
Prevalencia Prevalencia del consumo de tabaco: 31% (P = 0,31)
Pregunta: ¿Cuál es el error estándar o error muestral?
Cálculo del error estándar Tamaño de la población
Tamaño de la muestra
Prevalencia
Error estándar
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
Efecto del tamaño de la población •
Recordemos los datos originales: –
•
e = 1.50 %
Y si el tamaño de la población aumentara a 30000 adolescentes, pero nuestro presupuesto presupuesto no permite aumentar la muestra: –
•
N = 17125, n = 900, P = 0,31 =>
N = 30000, n = 900, P = 0,31
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto del tamaño de la población Tamaño de
Tamaño de
la población
la muestra
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
Prevalencia
Error estándar
Efecto del tamaño de la población •
Y si el tamaño de la población aumentara aún más a 50000 observaciones –
•
N = 50000, n = 900, P = 0,31
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto del tamaño de la población Tamaño de la población
Tamaño de la muestra
(N)
(n)
(P)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
Prevalencia estánda (e)
Efecto del tamaño de la población •
Y si ahora el tamaño de la población disminuyera a 1000 a observaciones –
•
N = 1000, n = 900, P = 0,31
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto del tamaño de la población Tamaño de la población
Tamaño de la muestra
Prevalencia
Error estándar
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
Efecto del tamaño de la población •
Conclusión: –
–
El tamaño de la población influye muy poco sobre la precisión de una muestra de un tamaño dado. Excepto en los casos de poblaciones muy pequeñas
Efecto del tamaño de la muestra •
Recordemos los datos originales: –
•
e = 1.50 %
Ahora supongamos que podemos duplicar el tamaño de la muestra, es decir ahora contamos con 1800 observaciones: –
•
N = 17125, n = 900, P = 0,31 =>
N = 17125, n = 1800, P = 0,31
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto del tamaño de la muestra Tamaño de la población
Tamaño de la muestra
Prevalencia
Error estándar
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
17125
1800
0.31
1.03 %
Efecto del tamaño de la muestra •
Ahora supongamos que tenemos que reducir el tamaño de la muestra a la mitad, es decir a solo 450 observaciones: –
•
N = 17125, n = 450, P = 0,31
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto del tamaño de la muestra Tamaño de
Tamaño de
la población
la muestra
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
17125
1800
0.31
1.03 %
17125
450
0.31
2.15 %
Prevalencia
Error estándar
Efecto del tamaño de la muestra •
Conclusión: –
El error se reduce al aumentar el tamaño de la muestra,
–
Este cambio es significativo significativo
Efecto de la prevalencia •
Recordemos los datos originales: –
•
•
N = 17125, n = 900, P = 0,31 =>
e = 1.50 %
Ahora supongamos que las prevalencias pueden variar de la siguiente manera: –
N = 17125, n = 900, P = 0,25
–
N = 17125, n = 900, P = 0,75
–
N = 17125, n = 900, P = 0,90
–
N = 17125, n = 900, P = 0,10
Pregunta: ¿Cuáles serían los nuevos errores estándar?
Efecto de la prevalencia Tamaño de la población
Tamaño de la muestra
Prevalencia
Error estándar
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
17125
1800
0.31
1.03 %
17125
450
0.31
2.15 %
17125
900
0.25
1.40 %
17125
900
0.75
1.40 %
17125
900
0.90
0.97 %
17125
900
0.10
0.97 %
Efecto de la prevalencia •
Finalmente supongamos que la prevalencia toma el valor medio, es decir 0,50: –
•
N = 17125, n = 2000, P = 0,50
Pregunta: ¿Cuál sería el nuevo error er ror estándar?
Efecto de la prevalencia Tamaño de
Tamaño de
la población
la muestra
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
17125
1800
0.31
1.03 %
17125
450
0.31
2.15 %
17125
900
0.25
1.40 %
17125
900
0.75
1.40 %
17125
900
0.90
0.97 %
17125
900
0.10
0.97 %
17125
900
0.50
1.62 %
Prevalencia
Error estándar
En P = 0,50 el Error es máximo
Efecto de la prevalencia El error es máximo cuando P = 0,5 El máximo es plano: El error no varía mucho entre P = 0,2 y P = 0,8
Cuando P disminuye, el error absoluto también disminuye
Efecto de la prevalencia •
Conclusión: –
–
–
El error es máximo cuando la prevalencia es 50 %. Este valor puede ser tomado como “el peor de los escenarios”; y por ende será útil para un cálculo muestral conservador. El máximo es plano: Si la prevalencia no es muy pequeña ni muy grande, el error es muy parecido al máximo Si la prevalencia es muy pequeña, el error estándar disminuye
Resumen y conclusiones Tamaño de
Tamaño de
la población
la muestra
(N)
(n)
(P)
(e)
17125
900
0.31
1.50 %
30000
900
0.31
1.52 %
50000
900
0.31
1.53 %
1000
900
0.31
0.49 %
17125
1800
0.31
1.03 %
17125
450
0.31
2.15 %
17125
900
0.25
1.40 %
17125
900
0.75
1.40 %
17125
900
0.90
0.97 %
17125
900
0.10
0.97 %
17125
900
0.50
1.62 %
Prevalencia
Error estándar
El tamaño de la población importa poco El tamaño de la muestra importa, pero puede salir caro La prevalencia sólo importa cuando es muy baja o muy alta El error es máximo para P = 50%
Análisis de Casos 04
Muestreo Aleatorio Aleatorio Simple (MAS)
CASO PRÁCTICO
Caso Práctico 1. Abrir Abrir la base base de de dato datoss corre correspo spondi ndien ente te a tu tu propi propia a regió región n (generada en la sesión anterior) 2. Generar Generar una variable variable aleatori aleatoria a “x” “x” (función (función “ALEA ALEATORIO” TORIO”)) 3. Pega Pegarr como como valor valores es los dato datoss gene genera rados dos para para “x” “x” 4. Orden Ordenar ar de meno menorr a mayor mayor los los valor valores es de de la vari variabl able e alea aleato toria ria “x” “x” 5. Iden Identif tific icar ar el tamañ tamaño o de la la muestr muestra a según según la fórm fórmula ula revi revisad sada a 6. Se Selec leccio cionar nar las las IIE IIEE E desde desde la prim primer era a hasta hasta la n-és n-ésima ima,… ,… … esas serán las consideradas para la Muestra Aleatoria Simple.
Caso Práctico 1. Abrir Abrir la base base de de dato datoss corre correspo spondi ndien ente te a tu tu propi propia a regió región n (generada en la sesión anterior) 2. Generar Generar una variable variable aleatori aleatoria a “x” “x” (función (función “ALEA ALEATORIO” TORIO”)) 3. Pega Pegarr como como valor valores es los dato datoss gene genera rados dos para para “x” “x” 4. Orden Ordenar ar de meno menorr a mayor mayor los los valor valores es de de la vari variabl able e alea aleato toria ria “x” “x” 5. Iden Identif tific icar ar el tamañ tamaño o de la la muestr muestra a según según la fórm fórmula ula revi revisad sada a 6. Selec Seleccio cionar nar las las IIE IIEE E desde desde la prim primer era a hasta hasta la n-és n-ésima ima,… ,… … esas serán las consideradas para la Muestra Aleatoria Simple.