Aleatorio Simple (1)

Muestreo Aleatorio Aleatorio Simple (M.A.S.) Guillermo Jopen Sánchez

Ismael Muñoz Gonzales

[email protected]

[email protected]

Dirección de Investigación y Documentación Do cumentación Educativa Programa de Fortalecimiento de Competencias Investigativas (FCI)

Diciembre 2013

Contenido •

Muestreo estadístico estadístico Población y muestra • Muestreo Aleatorio Simple • Error Muestral, Intervalo de Confianza y Prevalencia •

•

Análisis práctico Efecto Efecto del tamaño de la población • Efecto del tamaño de la muestra • Efecto de la prevalencia •

Análisis de Casos 04

Muestreo Aleatorio Aleatorio Simple (MAS)

MUESTREO ESTADÍSTICO

Población y Muestra •

Observación –

–

•

Una observación es la unidad de análisis más básica Algunos ejemplos de unidades de análisis utilizadas en investigación educativa son: •

Locales educativos

•

Instituciones Educativas (IIEE)

•

Estudiantes

Población –

Es el conjunto de observaciones disponibles

–

Requiere de determinada determinada dimensión o dimensiones de análisis: •

•

Temporal: “en el año 2012”, “a enero de 2013”, “en el mes anterior”, “en los últimos 3 años”, etc. Transversal: “de gestión pública”, “de primaria”, “de 4° grado de primaria”, “de 5to año de secundaria”. “mujeres”, “hombres de 3° grado de secundaria con 15 años”, etc.

Población y Muestra Análisis Poblacional

VENTAJAS: •

Permite realizar un análisis detallado “observación por observación”, revelando las características características del conjunto

DESVENTAJAS: •

•

Resulta muy costoso en términos de: • Dedicación de tiempo • Recursos financieros Peor aún si es que el conjunto es muy amplio o grande (p. e. todos los estudiantes del Perú)

Población y Muestra •

Muestra –

–

–

Es un subconjunto de observaciones tomadas a partir de la población de interés Comúnmente se busca que esta muestra sea representativa de la población, es decir, que comparta las mismas características y composición Permite: Reducir costos de tiempo y recursos financieros (No requiere análisis “observación x observación.”) Validez interna: Realizar análisis representativos para el conjunto muestral Validez externa: Si es una muestra representativa de la población, será posible realizar análisis representativos del conjunto poblacional también •

•

•

¿Cómo conseguir una muestra representativa?

Muestreo aleatorio simple •

•

•

La forma más sencilla es realizar realizar un Muestreo Aleatorio Simple (MAS) Pronto discutiremos técnicas más complejas (muestreo estratificado, muestreo muestreo por etapas, etc.), pero todas serán técnicas aleatorias. El MAS es un sorteo sencillo entre las observaciones de la población a analizar (elección como en una lotería)

Población

Muestra

Observación

Muestreo aleatorio simple •

•

•

•

El resultado del sorteo es la muestra La muestra está compuesta por observaciones posibilidades de de ser elegidas; es decir es aleatoria

con

iguales

Este sorteo asegura que las observaciones que pasen a la muestra cumplan con las mismas características características de la población Además, las muestras muestras aleatorias permiten calcular márgenes de error e intervalos de confianza. Otras formas de muestreo no aleatorias (por cuotas, por conveniencia, etc.) no lo permiten

Error muestral •

•

•

•

Diferencia entre el valor poblacional y el obtenido mediante una muestra Describe el nivel de precisión de una medida (media, proporción, etc.) debido a la incertidumbre presente en los datos al ser tomados de una muestra Esta dificultad de acertar en el valor puntual, conlleva a una estimación por intervalos, donde es el error muestral el que se emplea para ubicar entre qué valores se encuentra el verdadero (o poblacional)

¿Cómo calcular el error muestral asociado a un intervalo de confianza? ¿de qué factores depende?

Estimación del error estándar •

En primer lugar, es necesario conocer el error estándar de una determinada estimación, el cual dependerá de:

Tamaño de la muestra

Error estándar

e=

1−

n

P (1 − P )

N

n

Tamaño de la población

Prevalencia




EJEMPLO: CONSUMO DE TABACO EN LIMA METROPOLITANA

Ejemplo: Consumo de Tabaco en Lima Metropolitana •

•

•

•

Queremos evaluar el impacto de una campaña para reducir el consumo de tabaco entre adolescentes entre 12 y 16 años de edad en Lima Metropolitana. Metropolitana. Para tener datos de línea de base, se eligió una muestra aleatoria simple de 900 de los 17125 adolescentes adolescentes de la provincia provincia de Lima registrados registrados en el último Censo Nacional de Población y Vivienda. 279 de los adolescentes de la muestra declararon haber fumado en el último mes. ¿Qué podemos decir sobre la prevalencia prevalencia actual del consumo de tabaco entre los adolescentes entre 12 y 16 años de edad en Lima Metropolitana?

Ejemplo: Consumo de Tabaco en Lima Metropolitana Podemos calcular fácilmente la prevalencia del consumo de tabaco:

•

P=

•

279 900

=

0,31

(31 por ciento)

También podemos estimar el error estándar como:

1−

e=

e=

1−

n

P (1 − P )

N

n

900

0,31(1 − 0,31)

17125

900

e=

0,015

(1,5 por ciento)

Error Muestral e Intervalo de Confianza •

Con base en el error estándar podemos calcular el error muestral y los intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)

27

28

29

30

31

32

33

34

Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05) Fórmula del error muestral:

E = e × t α 2

35



27

28

29

30

31

32

33

34

Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05)

Nota: El 95% de confianza es un consenso estadístico

Fórmula del error muestral:

E = e × t α 2

35


Obtenemos Obtenemos los valores críticos de la distribución normal

0,95 0,025

0,025

-t

/2

α

0

t

/2

α



Nota: Esta es una gráfica de distribución de datos del tipo “Normal”. Es considerado un estándar estadístico 0,95 0,025

0,025

-t

/2

α

0

t

/2

α


Valores críticos en la tabla de distribución Probabilidad de ocurrencia

El valor crítico asociado a un 95% de confianza es 1,96


Valores críticos en la tabla de distribución Probabilidad de ocurrencia

Considérese que el valor crítico es un valor estadístico a partir del cuál

la probabilidad de ocurrencia de valores extremos es muy menor o insignificante

El valor crítico asociado a un 95% de confianza es 1,96



0,95 0,025

-1,96 = -t

0,025

/2

α

0

t

/2

α

= 1,96



27

28

29

30

31

32

33

34

Ahora queremos calcular el error muestral asociado, por ejemplo, a un 95 % de confianza ( α=0,05) Fórmula del error muestral (E):

E = e × t α 2

E = 1,5 × 1,96

=

2,94

35

Intervalo de Confianza •

Con base en el error estándar podemos calcular intervalos de confianza La prevalencia estimada es 31 por ciento con un error estándar de 1,5 por ciento Error estándar Error estándar (e) (e)

27

28

29

30

31

32

33

Intervalo del 95 % de confianza ( α=0,05)

31 ± (1,5 ×1,96)

=

31 ± 2,94

Intervalo del 99 % de confianza ( α=0,01)

31 ± (1,5 × 2,58)

=

31 ± 3,87

34

35

Efecto del tamaño de la población

e=

1−

n

P (1 − P )

N

n

Corrección de población finita

En la práctica, casi siempre es tan cercana a 1 que podemos ignorarla

Efecto del tamaño de la población Tamaño de la muestra necesaria para obtener una precisión determinada

En la práctica, el tamaño de la población incide muy poco sobre el tamaño de la muestra

Tamaño de la población

Efecto del tamaño de la muestra Error estándar

Para Para reducir el error a la mitad… …hay que cuadruplicar cuadrup licar la muestra Pero en la práctica podría ser muy costoso


Despejando para calcular el tamaño de muestra óptimo e= E = e × t α

1−

n

P (1 − P )

N

n

2

E t α

n=

=

1−

2

t α

2 2

n

P (1 − P )

N

n

P (1 − P ) N 2

2

E ( N − 1) + t α

2

P (1 − P )

Esta sería la fórmula de cálculo del tamaño de la muestra

Cálculo del error estándar •

•

•

Recordemos el ejemplo sobre el consumo de tabaco entre adolescentes entre 12 y 16 años de edad en Lima Metropolitana Tengamos en cuenta los siguientes datos: –

Tamaño de la población: 17125 adolescentes a dolescentes (N = 17125)

–

Tamaño de la muestra: 900 adolescentes (n = 900)

–

Prevalencia Prevalencia del consumo de tabaco: 31% (P = 0,31)

Pregunta: ¿Cuál es el error estándar o error muestral?

Cálculo del error estándar Tamaño de la población


Prevalencia

Error estándar

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

Efecto del tamaño de la población •

Recordemos los datos originales: –

•

e = 1.50 %

Y si el tamaño de la población aumentara a 30000 adolescentes, pero nuestro presupuesto presupuesto no permite aumentar la muestra: –

•

N = 17125, n = 900, P = 0,31 =>

N = 30000, n = 900, P = 0,31

Pregunta: ¿Cuál sería el nuevo error er ror estándar?

Efecto del tamaño de la población Tamaño de

Tamaño de

la población

la muestra

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

Prevalencia

Error estándar


Y si el tamaño de la población aumentara aún más a 50000 observaciones –

•

N = 50000, n = 900, P = 0,31


Efecto del tamaño de la población Tamaño de la población


(N)

(n)

(P)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

Prevalencia estánda (e)


Y si ahora el tamaño de la población disminuyera a 1000 a observaciones –

•

N = 1000, n = 900, P = 0,31


Efecto del tamaño de la población Tamaño de la población


Prevalencia

Error estándar

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %


Conclusión: –

–

El tamaño de la población influye muy poco sobre la precisión de una muestra de un tamaño dado. Excepto en los casos de poblaciones muy pequeñas

Efecto del tamaño de la muestra •


•

e = 1.50 %

Ahora supongamos que podemos duplicar el tamaño de la muestra, es decir ahora contamos con 1800 observaciones: –

•

N = 17125, n = 900, P = 0,31 =>

N = 17125, n = 1800, P = 0,31


Efecto del tamaño de la muestra Tamaño de la población


Prevalencia

Error estándar

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %

17125

1800

0.31

1.03 %


Ahora supongamos que tenemos que reducir el tamaño de la muestra a la mitad, es decir a solo 450 observaciones: –

•

N = 17125, n = 450, P = 0,31


Efecto del tamaño de la muestra Tamaño de

Tamaño de

la población

la muestra

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %

17125

1800

0.31

1.03 %

17125

450

0.31

2.15 %

Prevalencia

Error estándar


Conclusión: –

El error se reduce al aumentar el tamaño de la muestra,

–

Este cambio es significativo significativo

Efecto de la prevalencia •


•

•

N = 17125, n = 900, P = 0,31 =>

e = 1.50 %

Ahora supongamos que las prevalencias pueden variar de la siguiente manera: –

N = 17125, n = 900, P = 0,25

–

N = 17125, n = 900, P = 0,75

–

N = 17125, n = 900, P = 0,90

–

N = 17125, n = 900, P = 0,10

Pregunta: ¿Cuáles serían los nuevos errores estándar?

Efecto de la prevalencia Tamaño de la población


Prevalencia

Error estándar

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %

17125

1800

0.31

1.03 %

17125

450

0.31

2.15 %

17125

900

0.25

1.40 %

17125

900

0.75

1.40 %

17125

900

0.90

0.97 %

17125

900

0.10

0.97 %


Finalmente supongamos que la prevalencia toma el valor medio, es decir 0,50: –

•

N = 17125, n = 2000, P = 0,50


Efecto de la prevalencia Tamaño de

Tamaño de

la población

la muestra

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %

17125

1800

0.31

1.03 %

17125

450

0.31

2.15 %

17125

900

0.25

1.40 %

17125

900

0.75

1.40 %

17125

900

0.90

0.97 %

17125

900

0.10

0.97 %

17125

900

0.50

1.62 %

Prevalencia

Error estándar

En P = 0,50 el Error es máximo

Efecto de la prevalencia El error es máximo cuando P = 0,5 El máximo es plano: El error no varía mucho entre P = 0,2 y P = 0,8

Cuando P disminuye, el error absoluto también disminuye


Conclusión: –

–

–

El error es máximo cuando la prevalencia es 50 %. Este valor puede ser tomado como “el peor de los escenarios”; y por ende será útil para un cálculo muestral conservador. El máximo es plano: Si la prevalencia no es muy pequeña ni muy grande, el error es muy parecido al máximo Si la prevalencia es muy pequeña, el error estándar disminuye

Resumen y conclusiones Tamaño de

Tamaño de

la población

la muestra

(N)

(n)

(P)

(e)

17125

900

0.31

1.50 %

30000

900

0.31

1.52 %

50000

900

0.31

1.53 %

1000

900

0.31

0.49 %

17125

1800

0.31

1.03 %

17125

450

0.31

2.15 %

17125

900

0.25

1.40 %

17125

900

0.75

1.40 %

17125

900

0.90

0.97 %

17125

900

0.10

0.97 %

17125

900

0.50

1.62 %

Prevalencia

Error estándar

El tamaño de la población importa poco El tamaño de la muestra importa, pero puede salir caro La prevalencia sólo importa cuando es muy baja o muy alta El error es máximo para P = 50%



CASO PRÁCTICO

Caso Práctico 1. Abrir Abrir la base base de de dato datoss corre correspo spondi ndien ente te a tu tu propi propia a regió región n (generada en la sesión anterior) 2. Generar Generar una variable variable aleatori aleatoria a “x” “x” (función (función “ALEA ALEATORIO” TORIO”)) 3. Pega Pegarr como como valor valores es los dato datoss gene genera rados dos para para “x” “x” 4. Orden Ordenar ar de meno menorr a mayor mayor los los valor valores es de de la vari variabl able e alea aleato toria ria “x” “x” 5. Iden Identif tific icar ar el tamañ tamaño o de la la muestr muestra a según según la fórm fórmula ula revi revisad sada a 6. Se Selec leccio cionar nar las las IIE IIEE E desde desde la prim primer era a hasta hasta la n-és n-ésima ima,… ,… … esas serán las consideradas para la Muestra Aleatoria Simple.

Caso Práctico 1. Abrir Abrir la base base de de dato datoss corre correspo spondi ndien ente te a tu tu propi propia a regió región n (generada en la sesión anterior) 2. Generar Generar una variable variable aleatori aleatoria a “x” “x” (función (función “ALEA ALEATORIO” TORIO”)) 3. Pega Pegarr como como valor valores es los dato datoss gene genera rados dos para para “x” “x” 4. Orden Ordenar ar de meno menorr a mayor mayor los los valor valores es de de la vari variabl able e alea aleato toria ria “x” “x” 5. Iden Identif tific icar ar el tamañ tamaño o de la la muestr muestra a según según la fórm fórmula ula revi revisad sada a 6. Selec Seleccio cionar nar las las IIE IIEE E desde desde la prim primer era a hasta hasta la n-és n-ésima ima,… ,… … esas serán las consideradas para la Muestra Aleatoria Simple.

Aleatorio Simple (1)

Recommend Documents