CONCEPTOS BÁSICOS DE MUESTREO
Monogr af ías CONCEPTOS BÁSICOS DE MUESTREO IGNACIO MÉNDEZ RAMÍREZ GUILLERMINA ESLAVA GÓMEZ PATRICIA ROMERO MARES
INSTITUTO DE INVESTIGACIONES EN MATEMÁTICAS APLICADAS Y EN SISTEMAS UNIVERSIDAD NACIONAL AUTÓNOMA DE MÉXICO
1
CONCEPTOS BÁSICOS DE MUESTREO
2
CONCEPTOS BÁSICOS DE MUESTREO
2
CONCEPTOS BÁSICOS DE MUESTREO
RESUMEN La idea de este escrito es presentar de manera intuitiva, sin demostraciones, los aspectos que se deben tomar en cuenta al realizar encuestas (con base en cuestionarios) o muestreos (efectuando mediciones directas). Se hace poco énfasis en las consideraciones técnicas que llevan a las expresiones para varianzas de estimadores o pruebas de insesgamiento. Se citarán las expresiones para varianzas sin demostración, esas y otras demostraciones se pueden encontrar en los textos como el de Raj (1968); Sukhatme et. al. (1984); Kish (1965) y Cochran (1977). Se discute con más detalle las expresiones ligadas a la determinación del tamaño de muestra. En la primera parte se da una visión general de lo que es un marco de muestreo, y los diferentes tipos de diseños de muestra, así como del concepto de muestra representativa.
3
CONCEPTOS BÁSICOS DE MUESTREO
1
Introducción
Las técnicas del muestreo se utilizan, frecuentemente, cuando se quiere conocer cuáles son las características generales de una población. El muestreo se utiliza por ejemplo para conocer la prevalencia de la drogadicción en una ciudad o país, para conocer cuáles son los ingresos medios de las personas que trabajan, los niveles de escolaridad en los habitantes de una ciudad o país, y algunos otros aspectos demográficos y sociales. En las ciencias biológicas es frecuente que se requiera conocer la cantidad de ejemplares de alguna especie que se encuentra en una asociación vegetal; el contenido de una sustancia en las hojas de un árbol; la proporción de semillas enfermas en un lote de semilla; la cantidad de impurezas presentes en un furgón de ferrocarril cargado de trigo. En la industria es muy usado el control de calidad, el cual se basa en el muestreo de los lotes de producción para determinar si se cumple con las especificaciones requeridas en el proceso.
2
Panorama del muestreo
Las encuestas por muestreo son un tipo de investigaciones que tienen como propósito conocer algo respecto a una determinada población humana, y estudian sólo una parte de ésta. También denominada Demoscopía, es decir, la disciplina o grupo de ellas que pretende conocer algún aspecto de una población o conjunto de seres humanos. Para esto se requiere un trabajo interdisciplinario entre: Demógrafos, Economistas, Sociólogos, Administradores, Psicólogos, Estadísticos, etcétera. Las formas de obtener información en la Demoscopía son a través de censos, registros administrativos y encuestas por muestreo. En toda actividad humana, y sobre todo en los estudios que usan muestras, se requiere el enfoque científico, este consiste básicamente en usar los conocimientos previos que se tienen sobre el problema y diseñar una metodología de investigación que minimice la ocurrencia y magnitud de los errores. Se puede hacer una analogía entre ciencia y calidad total (el movimiento mundial de mejorar la calidad de productos y servicios).
ANALOGÍA DE CIENCIA CON CALIDAD TOTAL
• • • •
CIENCIA. Esfuerzo, comprometido, decidido y detallado, para evitar errores. CALIDAD TOTAL. Esfuerzo, comprometido, decidido y detallado, para evitar que el producto esté fuera de norma. PRODUCTO DE LA CIENCIA. Conocimiento del mundo. PRODUCTO DE LA CALIDAD TOTAL. El bien o servicio tiene calidad.
En una encuesta por muestreo se debe hacer un trabajo conceptual que determine entre otras cosas ¿qué se quiere conocer?, por ejemplo, niveles de desempleo, estado de salud de la población, calidad y demanda de servicios de educación. La opinión sobre aspectos o programas políticos. La capacidad de compra de un sector de la población, etcétera.
4
CONCEPTOS BÁSICOS DE MUESTREO
¿Cuál es la población? Eso que se quiere conocer se refiere a una población o conjunto de seres humanos con cierta ubicación en tiempo y espacio. Por ejemplo, habitantes del Distrito Federal, empresas de la construcción, escuelas públicas, etcétera. La población se define al especificar qué elementos son y qué características deben tener éstos. Por ejemplo, personas mayores de 18 años que residen (por más de 6 meses) en el Distrito Federal; escuelas primarias que dependen del sector público y ubicadas en el estado de Sonora; empresas de la industria alimenticia registradas ante la Secretaría de Comercio, que están al corriente en el pago de impuestos y se ubican en el estado de México. Los elementos pueden ser entidades como: familias, personas, fábricas, comercios, escuelas, etcétera. Para su estudio se consideran varios aspectos: tiempo de residencia, edad, actividad, tamaño de empresas, etcétera. Para el estudio se debe determinar, primero, el proceso de captación de información, esto es la forma de aplicación y el tipo de instrumentos de medición a utilizar. Entre los instrumentos se encuentran: la observación directa, los cuestionarios, las entrevistas directas o telefónicas, entre otros. Conocer y aplicar correctamente los instrumentos instrumentos de investigación permitirá permitirá evitar errores en el proceso de captación de información.
2.1 Marco de muestreo La población debe contar con un medio físico que identifique directa o indirectamente a todos los elementos de la población. Ese medio físico físico se llama marco de muestreo. Puede ser un directorio, un archivo, un mapa, etcétera. Es el medio físico que identifica a todos los elementos de la población, se pueden tener varias situaciones según el tipo de marco y población. Estas se especifican en las figuras siguientes.
oblación
marco Figura 1. Marco y población coinciden.
5
CONCEPTOS BÁSICOS DE MUESTREO
marco
población Figura 2. El marco incluye otros elementos adicionales.
población
marco
Figura 3. El marco no cubre a todos los elementos.
6
CONCEPTOS BÁSICOS DE MUESTREO
población
marcos Figura 4. Marcos complementarios.
población
marcos Figura 5. Marcos “Traslapados”.
7
CONCEPTOS BÁSICOS DE MUESTREO
2.2 Formas de tomar muestras Las formas de tomar muestras de una población son: 1. A juicio, cuando se usa la experiencia subjetiva del muestrista. 2. Por Cuotas, cuando se pide que la muestra cumpla con las proporciones conocidas de ciertas variables en la población. Lo común es sexo y edad. 3. Probabilístico, se toman los elementos con probabilidades conocidas y mayores de cero para todos y cada uno de los elementos de la población. Si son probabilidades de selección iguales se llama muestra autoponderada y si es de tamaño “grande”, la muestra resultará con elevada probabilidad representativa. Si no se toma con probabilidades iguales, se hacen ajustes en la forma de estimar promedios o proporciones para recobrar la representatividad. 4. Combinación de probabilístico con cuotas. 5. Probabilístico con ajustes, que podríamos llamar “cuotas a posteriori ”, un caso elemental es el de estimadores de Razón. Un ejemplo sencillo de esos ajustes es el de considerar una población constituida por tres subconjuntos (estratos). Con N 1 = 10, N 2 = 50 y N 3 = 100 elementos cada uno. Si se seleccionan muestras de tamaño 10 de cada subconjunto, se registra el 100% de los del primero, 20% del segundo y 10% del tercero.
Población
Promedio
N 10 N 1 = 1 = 10
N 2
Y 1
= 50
N 3 = 100
Y 2 Y 3
N = N 1 + N 2 + N 3 Muestra Se toman
n1 = 10
n2 = 10
n3 = 10
n = n1 + n2 + n3 es la muestra total. El promedio poblacional de una medición es:
8
CONCEPTOS BÁSICOS DE MUESTREO N 1 + N 2 + N 3
∑Y ∑ Y + ∑ Y + ∑ Y i
i
Y =
N 1 + N 2
N 1
160
i
160
=
i =1
i
i
i = N 1 +1
i = N 2 +1
160
=
N 1Y 1 + N 2Y 2 + N 3Y 3 N
Y es un promedio ponderado de los promedios de los tres estratos, que son Y 1 , Y 2 , Y 3 .
Con la muestra se estiman los promedios de cada estrato y se ponderan de igual modo que para el promedio de la población. n1
∑ Y ˆ= Y
+ N 3Y ˆ3
N
=
=
i
i =1
N 1
N 2
n1
+
N
10 10 ∑Y i 10 160
+
∑Y i
160
+
i
i =1
n2 N
50 10 10
∑ Y
∑ Y
i
ˆ + N Y ˆ N 1Y 1 2 2
n3
n2
N 3
+
100 10 ∑Y i 10 160
i =1
n3 N
n
∑W Y i
=
i
i =1
N
Para estimar el total, cada elemento de la muestra se multiplica por los factores de expansión, w i, los elementos del primer estrato se multiplican 1, los del segundo 5, los del tercero 10. Si se quiere el promedio, además se divide entre N=160. Un teorema fundamental en estadística es el Teorema Central del Límite. De manera laxa, dice que los promedios de muchas muestras probabilísticas de una población tienden, al aumentar el tamaño de muestra n, a tener distribución normal, a pesar de que la variable que se mide no tenga distribución normal en la población.
9
CONCEPTOS BÁSICOS DE MUESTREO
Muchas muestras aleatorias de tamaño n
n
y
n Población
Distribución de los muchos valores de los promedios muestrales
y
n y
Muchos valores de y diferentes
error estandar σ
y
n y y
Para que se alcance una distribución parecida a la normal en el conjunto de posibles promedios muestrales se requiere que n sea grande. Sin embargo, la rapidez de acercamiento a la normal (velocidad de convergencia) también depende de la forma de la distribución de la variable en la población. En la siguiente gráfica se consignan tamaños mínimos de muestra para una “buena” cercanía a la normal, según la forma de la distribución poblacional. Esto se ha establecido empíricamente en estudios de simulación.
10
CONCEPTOS BÁSICOS DE MUESTREO
Tamaño de n aproximado para la normalidad según la distribución parental (poblacional)
uniforme
normal asimétrica fuerte
n ≥1
yi
yi
n ≥ 20
yi
asimétrica moderada
p n≥5
yi
n ≥ 30
caso dicotómico
np > 5
1-p
n(1− p) > 5
0 1
yi
En general, en el trabajo de muestreo, en la población se tendrán parámetros θ , que al tomar muchas posibles muestras con un diseño de muestra específico y una forma de estimador dada, produce muchos valores de θ ˆ . El teorema central del límite opera con muestras grandes, y se tiene:
11
CONCEPTOS BÁSICOS DE MUESTREO
∧ =
EE θ
∧
V θ
1α
α
2
2
∧
θ
Donde E θ ˆ
≅ θ
es la media aritmética de todos los posibles valores de θ ˆ y
( ) = E [θ ˆ − θ ]
V θ ˆ
2
es la varianza de todos los posibles valores de θ ˆ .
De aquí:
P θ − δ ≤ θ ˆ ≤ θ + δ
= 1 − α
(2.1)
Lo que equivale a:
P θ ˆ − δ ≤ θ ≤ θ ˆ + δ
= 1 − α
(2.2)
Intervalo de confianza Las expresiones anteriores se pueden representar sucintamente como:
P θ ˆ − θ
< δ = 1 − α
(2.3)
En palabras, la probabilidad de una discrepancia de cuando más δ entre θ y θ ˆ es 1-α . A δ se le conoce como “precisión” del muestreo o error de estimación; y a 1-α como “confianza”. Si α es 0.05 se puede demostrar que δ
= 1.96 V (θ ˆ )
En esta expresión, V (θ ˆ) es función del tamaño de muestra n, y otros parámetros. De la expresión se despeja el tamaño de muestra que produce una precisión de δ con una confianza de 95%. Se habla de las propiedades distribucionales de θ ˆ. Es decir, al realizar el muestreo y obtenerθ ˆ , (este valor es uno de los muchos que podrían haber ocurrido) 12
CONCEPTOS BÁSICOS DE MUESTREO se considera la realización de una variable aleatoria que queda determinada por el diseño de la muestra y la forma de construir el estimador. El diseño de la muestra es la forma en que se toman los elementos de esta y su tamaño; y la forma de construir el estimador es la función de los datos de la muestra que lo determinan. A ambos, diseño y forma de estimador, le podemos llamar “estrategia de muestreo”.
Diseño de la muestra
Población Y 1 Y 2 ... Y
N
y1 y2 . . yn
∧
V θ
Estimador como función de los datos
∧
θ
∧
θ (y 1 , y 2 ,..., y n )
Para cada estrategia de muestreo, que comprende el diseño y el estimador, se determinan las propiedades de la distribución de las θ ˆ posibles. Usualmente lim ˆ θ = θ . importa que sea insesgado E θ ˆ = θ , o bien sesgado pero consistente n→∞
Esto se da en todas las estrategias que se usan en la práctica. Además, se tiene el teorema central del límite, de modo que si n es “grande”, la distribución de los θ ˆ tiende o se acerca a una distribución normal con media θ y varianza dada por V (θ ˆ) . A V θ ˆ se le conoce como error estándar del estimador. Entonces el
()
intervalo
de
confianza
al
95%
para
está
θ
dado
por
P θ ˆ − 1.96 V θ ˆ
( ) ≤ θ ≤ θ ˆ + 1.96 V (θ ˆ ) = 0.95 o P (θ ˆ − δ ≤ θ ≤ θ ˆ + δ ) = 0.95 .
El intervalo de confianza se usa en la etapa de planeación de la encuesta y también al presentar resultados finales. En la etapa de planeación, se usa al fijar el valor de δ que es el error de muestreo máximo con confianza del 95% que se quiere tener. Este valor lo determina el usuario del proceso, en función de la gravedad del alejamiento posible entre el valor único que se tendrá θ ˆ y el verdadero valor desconocido θ . Entonces de la expresión δ = 1.96 V θ ˆ se despeja el tamaño
( )
13
CONCEPTOS BÁSICOS DE MUESTREO de muestra que está implícito en V (θ ˆ) . Usualmente V (θ ˆ) es función del tamaño de muestra y de otros parámetros desconocidos. Entonces hay que suponer con base en experiencias previas que se conocen esos parámetros. En caso de no tener esas experiencias se lleva a cabo un muestreo, llamado “muestra piloto”, con el objeto de estimar dichos parámetros. Con esos valores en la expresión δ = 1.96 V (θ ˆ ) , se obtiene n. En la etapa de presentar resultados de la investigación por muestreo, se debe ˆ (θ ˆ ), el estimador de la varianza del estimador, estimar V ( θ ˆ ), es decir obtener V con este valor se obtiene un intervalo de confianza aproximado del 95% para el parámetro y es la manera correcta de presentar los resultados del proceso.
( ) ≤ θ ≤ θ ˆ + 1.96 V (θ ˆ ) =&0.95
P θ ˆ − 1.96 V θ ˆ
El proceso de planeación de tamaño de muestra se puede hacer también basándose en el llamado “efecto de diseño”, que es:
V D (θ ˆ) DEFF = V (θ ˆ) iid
donde V D (θ ˆ ) es la varianza del estimador según la estrategia (diseño, estimador) elegida y V (θ ˆ) es la varianza que se hubiera obtenido si la muestra del mismo iid
tamaño n, se toma con probabilidades iguales y con reemplazo. Los DEFF de una encuesta terminada se pueden aplicar en la planeación de otra encuesta semejante. Se obtiene el tamaño de muestra de
δ
= 1.96
V iid (θ ˆ) sea éste n0 . El tamaño
definitivo es n = n0 DEFF .
2.3
Diseños de muestra
Como un panorama introductorio y preliminar de los diseños de muestra básicos y más comunes, se presentan los siguientes esquemas con sus comentarios.
14
CONCEPTOS BÁSICOS DE MUESTREO
Muestreo Aleatorio Simple (“mas”)
Población N
Muestra n Selección aleatoria de los elementos muestrales con probabilidades De selección en cualquier extracción iguales y sin reemplazo. Muestreo sistemático (uno de cadak ), si el orden es aleatorio, equivale al “mas”, si hay un orden con cambios suaves, no periódicos en el intervalo de muestreo k=n / N, entonces es más eficiente (más “representativo”) que el “mas”.
15
CONCEPTOS BÁSICOS DE MUESTREO
Muestreo con Probabilidad Proporcional al Tamaño (PPT)
Población N
Muestra n
Selección con probabilidad P i = X i / X de n de los elementos muestrales con reemplazo. Si se tiene que hay buena proporcionalidad entre X i y Y i , es decir Y i
≅ RX i
entonces los elementos con valores mayores de Y i , tienen más probabilidades de estar en muestra. La estimacion de total de Y se realiza con el promedio de los n valores de Z i. Donde cada Z i = Y i / P i
16
CONCEPTOS BÁSICOS DE MUESTREO
Muestreo Población N =N1 + N2 + N3
N1
N3
Muestra n =n1 + n2 + n3 N2 n1
n3
n2 Selección aleatoria, sistemática o con probablidades proporcionales de los elementos muestrales en cada estrato, por separado, es decir la selección es independiente de un estrato a otro. Con tamaños de muestra n h proporcionales al tamaño de los estratos, o a las desviaciones estandar o inversamente a los costos en cada estrato .
17
CONCEPTOS BÁSICOS DE MUESTREO
Muestreo
M1 M3
M2 M4
M6
Población: N Unidades Primarias de Muestreo, UPM conM i unidades últimas de muestreo ( )USM cada M5
M7
Selección aleatoria o sistemática de n UPM con probabilidades de selección iguales o proporcionales al tamaño. Selección de m unidades últimas sólo en las UPM que se tienen en la primera etapa.
Muestra de n UPM y mi unidades últimas cada una m5
m4 m1
18
CONCEPTOS BÁSICOS DE MUESTREO UPM
Muestreo trietápico M1
M3
M2 M4
M6
M5
Población: ( PM ) N Unidades Primarias de Muestreo, U Secundarias de Muestreo (USM ) con M Unidades i en cadaUPM i , y conBij unidades últimas( UUM ) en cada USM ij .
M7 UPM
Muestra n UPM y mi USM en cadaUPM y con bij unidades en cadaUSM i
Selección aleatoria o sistemática o con probabilidades de selección proporcionales al tamaño,n UPM . Selección m i USM sólo en las n que se tienen en primera etapa; selección b ij unidades . últimas en cada USM ij en muestra
b21 b12
m1
m2 m3
b22 UUM en
b32 la
USM
USM 32
19
CONCEPTOS BÁSICOS DE MUESTREO
Muestreos Complejos. Polietápicos estratificados M1
M3
M2 M4
M6
M5
Población :N Unidades Primarias de Muestreo,(UPM ) con M i Unidades Secundarias de Muestreo(USM ) en cada UPM , y con Bij unidades últimas(UUM ) en cada USM ij. Las UPMen estratos y o las USM estratificadas dentro de cada UPM i
M7
Selección aleatoria o sistemática con probabilidades de seleccion iguales o proporcionales al tamaño, de nh UPM en cada estrato. Selección de mi USM sólo en las nh que se tienen en primera etapa. Selección de bij unidades últimas en cada USMij en muestra. (Puede ser de cada estrato de USM dentro de sólo algunas UPM ).
Muestra: n UPM y mi USM en cada UPM y con bij UUM en cada USM ij
b21 b12
m1
m2
b22
m3 b32
20
CONCEPTOS BÁSICOS DE MUESTREO 3. Representatividad de las muestras
REPRESENTATIVIDAD
X1 X1
Población Muestra
Extrapolación (Inferencia)
X2
X2
X3
Distribuciones Marginales y Conjunta de variables IMPORTANTES
Distribuciones Marginales y Conjunta de Variables IMPORTANTES
X3
X4 X4
3.1 Extrapolación
Un razonamiento innato en los seres humanos, es el aplicar a experiencias nuevas las conclusiones obtenidas en el pasado en otras experiencias semejantes. Por ejemplo, al ingerir 5 frutos rojos y pequeños y tener dolor de estómago, se generaliza a ese tipo de frutos o a un nuevo fruto.
¡Me comí 5 frutos pequeños rojos y me dolió el estómago!
Extrapolación
Este nuevo fruto hará que me duela el estómago ¿Es semejante a los otros?
1
CONCEPTOS BÁSICOS DE MUESTREO Sin embargo, hay dudas: ¿todos los frutos rojos son indigestos?, ¿influye el tamaño del fruto?, ¿el tono de rojo?, ¿la época del año?, ¿el tipo de árbol o arbusto?, etcétera. ¿Qué es ser semejante?. La Ciencia también hace extrapolaciones; ejemplo de ello son las investigaciones que se llevan a cabo con ciertos elementos (enfermos de amibiasis, fumadores empedernidos, plantas de maíz, cajas de Petri con un medio para crecer bacterias, etcétera), cuyas conclusiones se aplican a otros elementos semejantes a los estudiados.
Elementos estudiados
Extrapolación
Elementos semejantes a los estudiados
3.2 Poblaciones y muestras
Se puede considerar que lo estudiado, o experiencia previa, es una muestra de todo un conjunto de otros elementos o nuevas experiencias semejantes a los estudiados. Este conjunto no estudiado es la población.
Población
Muestra Extrapolación
¿Extrapolación Válida?. Nos preguntamos ¿la extrapolación no se equivoca?, ¿Cómo hacer que no se equivoque?. La respuesta es sí se puede equivocar, pero frecuentemente no se equivoca. Si se pueden encontrar leyes deterministas que expresen relaciones (necesarias y suficientes) entre propiedades de las instancias estudiadas (muestras), se pueden aplicar los resultados o conclusiones a todas las instancias (población) no estudiadas aún, que cumplan con las propiedades requeridas. Aquí están muchas leyes de la naturaleza, principalmente inorgánicas, como la física clásica, termodinámica (macroscópica), etcétera. Así la experiencia (traducida en leyes) con ciertos planetas, se aplica a otros; con ciertos gases se aplica a otros; con ciertas moléculas se aplica a otras; etcétera.
2
CONCEPTOS BÁSICOS DE MUESTREO 3.3 Aleatoriedad e indeterminismo
Hay procesos o fenómenos en los que no se pueden encontrar relaciones entre sus propiedades, que sean necesarias y suficientes. Hay mucha variabilidad, hay indeterminismo. Se pueden encontrar ciertas “leyes” pero son de naturaleza probabilística y no determinística. Estas leyes nos permiten hacer extrapolaciones, pero nunca son seguras, siempre hay la posibilidad de equivocarse. La estadística lo que busca es que la “probabilidad” de equivocarse sea “pequeña”. Como ejemplo considere el esquema siguiente donde se tienen datos de desarrollo de enfermedad cardiovascular en 50,000 personas. Aquí hay dos tipos de extrapolación, una es a toda la población de la cual los 50,000 se consideran una muestra; y la otra a una persona en el futuro que es considerada un elemento tomado al azar de la población. En la primera inferencia o extrapolación se puede predecir con poco error cuántas personas en ese millón desarrollarán la enfermedad; en cambio en el caso de una persona no se puede predecir con poco error, únicamente se le asignan las probabilidades de desarrollar la enfermedad de la población a que pertenece. En estos razonamientos es crucial la validez del supuesto que las condiciones de la muestra sean semejantes a las de la población o individuo.
Se estudian 5,000 personas de 40 años que fuman (20 cigarros al día o más) y con colesterol elevado. Se encuentra que 15% de ellas extrapolación desarrolla enfermedad cardiovascular antes de cumplir 50 años.
Se tiene una población de un millón de personas que fuman semejantes a los estudiados. Se espera “alrededor” de 150,000 con enfermedad cardiovascular antes de los 50 años.
muestra extrapolación
población
elemento
Una persona de 40 años que fuma, con colesterol elevado, semejante a los estudiados, tiene una probabilidad de 0.15 de enfermedad cardiovascular antes de cumplir 50 años.
3.4 Probabilidad
En Estadística se usa el concepto de probabilidad derivado del estudio de “grandes números” de elementos. Cualquier texto de Probabilidad menciona los teoremas básicos, por ejemplo, se puede consultar Chung (1974).
3
CONCEPTOS BÁSICOS DE MUESTREO 1a. Ley de los grandes números
Sean X 1,X 2 ,...,X n variables distribuidas (vaiid ), tales que 2
E(X i )=p
σ
Sn=X 1+X 2 +...+X n
n ≥1
aleatorias
independientes
e
idénticamente
1 X i = 0
(X i )=p(1-p)
Se dice que Sn puede tomar valores 0,1,...,n y tiene distribución binomial con media y varianza dados por: E(Sn )=np
σ
2
( S n ) = np(1 − p)
Entonces, sea c una constante arbitraria positiva, tal que Esto se interpreta ∀ c > 0 considerando que cuando n se hace
S n
− p < c = 1. n
lim P n →∞
grande
S n n
S n n
se acerca cada vez más a p.
es la frecuencia relativa de valores 1 o también llamada la proporción
muestral. Se dice que
S n n
∧
=p
∧
es consistente, en el sentido que al tener n grande p
se acerca cada vez más a p. 2ª. Ley de grandes números
Es una generalización de la primera ley de grandes números a variables arbitrarias. Así, sea X i i ≥ 1 una secuencia de vaiid con media poblacional E(X i ) = varianza poblacional V(X i ) = 2 . Una secuencia es Sn=X 1+X 2 +...+X n, X = P X − µ < c lim →∞
=1
S n n
y
es la media muestral, entonces:
∀c>0
n
De nuevo se dice que la media muestral es consistente en el sentido de que al incrementarse el tamaño de muestra, la media muestral se acerca cada vez más a la media poblacional.
4
CONCEPTOS BÁSICOS DE MUESTREO 3.5 Teorema central del límite
Un teorema sumamente importante en Estadística es el Teorema Central de Límite. Para los mismos supuestos que la 2ª. Ley de Grandes Números, se tiene que, sean dos números cualquiera a y b, entonces:
∀ a, b
a
b X − µ 1 − x 2 < ≤ = P a b e dx lim ∫ σ 2π a n →∞ n Se dice que X tiende a tener distribución normal ( µ , σ 2 / n ), o que la X converge en distribución a la normal con media µ , y varianza σ 2 / n. 2
A
σ
2
n
=
σ
n
se le llama “error estándar” de X .
Los teoremas se interpretan señalando que si la muestra se toma de una población infinita (o finita con reemplazo), los valores X i son vaiid; entonces al aumentar la muestra ( n → ∞ ) las proporciones (de cualquier resultado) o los promedios de la muestra tienden a las proporciones o promedios de la población. Además las proporciones o promedios tienden a tener distribución normal.
5
CONCEPTOS BÁSICOS DE MUESTREO En la gráfica se tiene de manera acumulada, es decir, recalculando los porcentajes a favor de PAN, PRI y PRD en secciones electorales, en las abscisas está el tamaño de muestra. Con muestras pequeñas los porcentajes oscilan mucho, pero con muestras grandes, de 60 más o menos, en adelante ya no hay oscilaciones fuertes y las proporciones son más estables, acercándose al valor en la población de todas las secciones. Esta es la ley de los grandes números. Aunque en este caso las muestras con números pequeños no son aleatorias porque las secciones que se registran primero son pequeñas, sin problemas de conteo y con buenas vías de comunicación. En las figuras que siguen, tomadas de Babbie, E. (1992), se ejemplifica el teorema central del límite. Se tiene una población con 10 elementos (puede ser una población de 10,000, con 1,000 elementos con cada valor) con valores 0,1,2,...9. Se toman todas las posibles muestras (caso de 10 elementos) de tamaños 2,3,4,5 y 6 y se grafican las frecuencias de los promedios de las muestras. Se puede observar la tendencia que al aumentar el tamaño de muestra la distribución de frecuencias de los promedios se acerca a la normal. Además los valores de los promedios con mayor frecuencia están cercanos al valor de la media poblacional µ = 4.5. Por ejemplo valores entre 4 ó 5 del promedio ( 4 ≤ X ≤ 5 ) ocurren en 13 de 45 ( P =0.28) con n=2; en 40 de 120 (P =0.3) con n=3; en 80 de 210 (P =0.38) con n=4; en 114 de 265 (P =.43) con n=5; y finalmente en 122 de 210 ( P =0.58) con n=6.
6
CONCEPTOS BÁSICOS DE MUESTREO
Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.
7
CONCEPTOS BÁSICOS DE MUESTREO
Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth.
8
CONCEPTOS BÁSICOS DE MUESTREO Extrapolación muestra a población
Una solución para el problema de inferir de muestra a población, se da a partir de la extrapolación en presencia de aleatoriedad, es tomar una muestra grande donde cada elemento de la población tiene la misma probabilidad de estar en la muestra (diseño autoponderado). En este caso opera la teoría de probabilidad y tendremos la consistencia y normalidad de estimadores de promedios y proporciones. Esto aunque la población sea finita y la muestra se tome sin reemplazo, si n << N. 3.6 Representatividad
En el caso de muestras autoponderadas y con n “grande” los promedios muestrales se parecen mucho a los poblacionales. Se puede afirmar que esto ocurre por que en la muestra la distribución de los valores de la(s) variable(s) de estudio también se parece a la de la población. Se dice entonces que la muestra es representativa de la población. Pero la representatividad es para la(s) variable(s) de interés en el estudio, aun que no se tenga para otras variables. Por ejemplo, un grupo de 45 alumnos de la Especialidad de Estadística Aplicada del IIMAS-UNAM, es posible que pueda ser considerado como una muestra de sujetos entre 23 y 45 años, de clase media, en México y clínicamente sanos para el estudio del contenido de hemoglobina en sangre. Sin embargo, si el estudio pretende evaluar los conocimientos de Estadística de la población de la UNAM, ciertamente el grupo no es una muestra representativa, por que fueron seleccionados por su interés y conocimientos de estadística, cosa que no ocurre en otros programas educativos de la Institución.
Población
Selección aleatoria autoponderada, m u e s t ra “ g r a n d e ”
Muestra representativa
X Proporción poblacional extrapolación
X Proporción muestral
Lo que importa es que las variables de interés en la muestra presenten una distribución semejante a las de la población. Si la muestra es grande y autoponderada se tendrán elevadas probabilidades de que esto suceda. En este caso la extrapolación tendrá errores pequeños.
9
CONCEPTOS BÁSICOS DE MUESTREO Dificultades para muestras grandes autoponderadas y eficiencia
Hay varias razones por las cuales en ocasiones no se toman muestras autoponderadas, sin ser exhaustivos, tenemos: 1. 2. 3. 4.
Se muestrea un proceso, o población infinita. Costos altos de muestras autoponderadas. Varianzas grandes para un costo dado. Falta de disponibilidad de marcos de muestreo.
Procesos o poblaciones infinitas
En muchas investigaciones no se tiene una población finita con ubicación en tiempo y espacio. Entonces es imposible tomar la muestra autoponderada (igual probabilidad de selección en muestra para todos y cada uno de los elementos de la población). En estos casos se usan “muestras disponibles” o un muestreo de un conjunto que a su vez es una “muestra disponible” (submuestreo). Por ejemplo: Conocer la efectividad de un tratamiento contra úlcera péptica. La población es • todos los casos de úlcera que hay en el mundo (o en México) y los que puede haber. • Conocer el porciento de zapatos “Domit” defectuosos. La población son todos los zapatos que la fábrica puede producir.
Muestra Pacientes de úlcera en el hospital A
Población Definición de la población Pacientes de úlcera sem ejantes a los de l hospital A extrapolación
X
X
Y
Y
En este caso en realidad la población infinita e imaginada se define a partir de la muestra. Para esto es crucial el tema de estudio. Es necesario preguntarse qué aspectos de los elementos estudiados (pacientes de úlcera) son importantes por que modifican el efecto del tratamiento y se estudia la distribución de esos aspectos en la muestra y se define la población con una distribución semejante en esos aspectos. Si la edad, el sexo y el nivel socioeconómico (SE) influyen en la evolución de la úlcera, la población será de pacientes con edad, sexo y SE semejantes a los de la muestra.
10
CONCEPTOS BÁSICOS DE MUESTREO Nótese que se requieren conocimientos y experiencia para seleccionar qué aspectos son importantes y en los que se basa la “semejanza” entre muestra y población. En ocasiones la muestra disponible contiene muchos elementos y no es posible ni conveniente estudiarlos a todos, si de ellos se toma una muestra autoponderada y grande, no pierde la representatividad supuesta en la muestra disponible, y con la submuestra se podrán efectuar las extrapolaciones.
Población
M u e s t ra D e f in i c ió n d e la Z a p a t o s “D o m it ” producidos en León, G to. En j u l io 1 9 9 9
P o b la c ió n
S u b m u e s tr a ”grande” autoponderada
T o d o s lo s z a p a to s “ D o m i t ” e n L e ó n y o t ra s fábricas
extrapolación
Lo que hemos llamado de modo laxo “representatividad”, es decir, la capacidad de poder extrapolar y concluir basándose en una muestra, sobre una población se le ha llamado validez externa. Con este nombre el concepto es ampliamente conocido sobre todo por epidemiólogos e investigadores en ciencias sociales. Campbell y Stanley(1991) se plantean la pregunta “¿A qué poblaciones, situaciones, variables de tratamiento y variables de medición puede generalizarse este efecto?”. La representatividad también se aplica en la elección de los elementos de estudio, el agregado de ellos es la población. Cada uno de sus elementos son llamados unidad experimental o de observación. Algunos ejemplos: a) Un estudio donde en macetas de cierto tamaño, se cultivan plantas de trigo, dentro de un invernadero, no sirve para concluir la mejor fórmula de fertilización para el trigo cultivado en el campo. Las macetas no representan, no reproducen, las condiciones de campo. La muestra del invernadero no es representativa de la población de producción en campo, por que algunas variables que afectan crecimiento y cantidad de granos en el invernadero no tienen la misma distribución en el campo. No hay validez externa. b) En experimentos industriales, con diseños elaborados (por ejemplo, diseño central compuesto o Box-Benkhen), en una planta piloto, se reproducen las condiciones de operación de la fábrica y se buscan condiciones óptimas de operación. Sin embargo, lo que se quiere es que al cliente o usuario le llegue el producto con la calidad deseada. El estudio en la planta piloto no representa todo el proceso, le falta considerar los problemas de escalamiento, almacenaje y transportación. Esto lo señaló Taguchi. c) En estudios de Ecología, pastizales, lagos, bosques, etcétera, se plantea la necesidad de representatividad en forma más aguda. Así por ejemplo, no se puede concluir sobre la dinámica del manejo de un bosque, si se estudian áreas de 2 o 3 km 2. Esto por que en esas áreas, la dinámica de la fauna y su relación con el bosque queda distorsionada, algunos animales requieren 11
CONCEPTOS BÁSICOS DE MUESTREO áreas mayores para su “territorio”. Carpenter(1998) señala “Ecological criteria for choosing experimental scales include the need to encompass or mimic the context of the processes under study”, es decir la necesidad de validez externa o representatividad. Muestras no autoponderadas de poblaciones finitas
Cuando por costos, marcos de muestreo, “no-respuesta” o para minimizar varianzas, se usan muestras no autoponderadas de poblaciones finitas, se sabe que los promedios o proporciones muestrales no están cerca (no convergen) a los poblacionales. Esto ocurre porque la muestra no es representativa de la población. Sin embargo, para obtener estimadores de promedios (o algunas otras características) poblacionales, se hacen ajustes en el cálculo. Esto equivale a restaurar la representatividad de la muestra en forma analítica. Todos los textos de muestreo tocan el tema y se generan los llamados “factores de expansión” que son el inverso de las probabilidades de selección de las unidades muestrales.
12
CONCEPTOS BÁSICOS DE MUESTREO Fuente: Babbie, E. (1992). The practice of Social Research. Ed. Wadsworth. Babbie (1992), presenta la idea de restaurar la representatividad muy claramente, aunque no le da ese nombre. Tiene una población de 100 personas, dividida en 4 estratos: 44 hombres blancos, 44 mujeres blancas, 6 hombres negros y 6 mujeres negras. Por muestreo aleatorio simple (igual probabilidad, sin reemplazo) obtiene 6 personas de cada estrato de negros y 11 de cada estrato de blancos; y textualmente dice “hacer 4 copias de cada uno (obviamente del dato o medición) de los elementos muestreados de los blancos”. Esto equivale a decir que cada dato de los estratos de los blancos se expande 4 veces. Por esto ese valor 44/11=4 se llama “factor de expansión”. Con esas 4 copias tiene una población con 44 hombres blancos (11 valores cada uno 4 veces), 44 mujeres blancas (11 valores cada uno 4 veces), 6 hombres negros (6 valores distintos) y 6 mujeres negras (6 valores distintos). Se consigue que la distribución de sexo y raza en la población sea la misma que la de la muestra reconstruida. Nótese que en general, para restaurar la representatividad se reproduce en la muestra la distribución conocida de algunas variables en la población, esto se efectúa para cada diseño de muestra de acuerdo a los llamados “factores de expansión” que son específicos para cada diseño, usualmente se denotan por w i. Para este diseño hay un teorema básico de Horvitz-Thompson para usar factores de expansión, que se utiliza con cualquier diseño de muestreo conociendo las llamadas probabilidades de inclusión de primer orden, que son la probabilidad de que el elemento i-ésimo de la población esté en la muestra. También las probabilidades de inclusión de segundo orden, que son la probabilidad de que ambos, el elemento i-ésimo y el j-ésimo estén en la muestra. Los estimadores de razón y regresión, que se verán después, usan información adicional que permite conocer el grado de representatividad de la muestra en relación con la población, vía una variable auxiliar; la que con algunos supuestos adicionales, se puede utilizar para restaurar la representatividad o hacerla mayor. La idea de ajustar la distribución de la muestra a la de la población conduce a varias alternativas, ya sea en el diseño o en el análisis de la información. En el diseño con las llamadas “cuotas” y en el análisis con los ajustes basándose en valores conocidos en la población. Los estimadores de razón y regresión son un ejemplo de esto último. 3.7 Muestreo por cuotas
En muchas situaciones de investigación por muestreo, se conoce en la población la distribución de varias variables categóricas; en muestreo de poblaciones humanas, es común que sea sexo, edad, escolaridad o niveles socioeconómicos. Se toma la muestra de manera que la distribución de esas variables, en forma conjunta, sea idéntica en la muestra a la de la población. Es decir, la muestra debe cumplir con “cuotas” o número de elementos para cada sexo, edad o nivel socioeconómico. Esto puede ser muy bueno, sin embargo hay dos grandes problemas. Primero, que las variables consideradas para formar las cuotas sean verdaderamente las que más se relacionan con las variables en estudio (opinión, ingresos, salud, etcétera.); y segundo, que al tomar la muestra se tenga una o más variables que no se incluyeron en las cuotas y que sí influyen en las variables de interés. Si la muestra se localiza en lugares poco frecuentados por un sector de la población, éste no
13
CONCEPTOS BÁSICOS DE MUESTREO aparece o aparece subrepresentado en la muestra, si en ese sector hay valores diferentes de las variables de interés, hace que la muestra no sea representativa. Véase Stephan y Mc Carthy (1974). Combinar muestreo probabilístico con cuotas
En algunas aplicaciones se puede tener un muestreo probabilístico polietápico estratificado, por ejemplo: Estratos de municipios (como UPM), localidades como USM, AGEB como UTM, manzanas como UCM, viviendas como UUM. Se toman por aleatorio simple, por ejemplo 10 viviendas en cada manzana y de ellas se seleccionan por ejemplo, 5 personas que cumplan con cuotas de edad y sexo en conjunto para la AGEB. Esto hace a la muestra aún más representativa, ya que las diferencias regionales y de áreas se toman en cuenta en el muestreo probabilístico, sin embargo se busca mayor representatividad de variables, que como sexo y edad, pueden no estar bien representadas en 1 ó 2 UUM (viviendas). Así no ocurre la segunda razón problemática del muestreo de cuota directo. Este esquema ha dado buenos resultados en la práctica. Postajustes
Otra forma de mejorar la representatividad de la muestra es ajustar los factores de expansión por la distribución conocida de variables en la población. Esto se verá después. Comentario final sobre el concepto de representatividad
A manera de conclusión rápida, se puede afirmar que el concepto de representatividad, entendida como la distribución de las variables de interés y/o relacionadas en la muestra, debe parecerse a la de la población, esto es crucial en todos los razonamientos estadísticos. En este apartado únicamente se tocaron algunas consecuencias en la investigación, sea observacional o experimental, del concepto de representatividad de las muestras a las poblaciones. Este es el concepto básico de la validez externa o sea la capacidad para aplicar las conclusiones de un estudio a otros, o a un conjunto amplio de otros elementos distintos a los estudiados. Se reconoce que es difícil asegurar la representatividad cuando no se tiene una muestra probabilística y de tamaño grande, es decir, si la muestra es así, opera la ley de grandes números (con sus correcciones tipo Horvitz-Thompson) y se esperan con elevada probabilidad muestras representativas. En los casos de muestras de tamaño pequeño o que sean no probabilísticas, la representatividad se supone con base en razonamientos teóricos del proceso estudiado.
14
CONCEPTOS BÁSICOS DE MUESTREO 4. Conceptos generales y notación Mediante el proceso de “muestreo”, lo que se desea hacer es una inferencia, esto es una estimación de un parámetro de una población finita. Así la población es un conjunto de N unidades, P={u1, u2 , … , u N } y a cada unidad se le asocia una variable Y (ui)=Y i que sea de interés (se le pueden asociar otras variables, por ejemplo: X (ui )=X i, Z (ui )=Z i, , etcétera). Si los vemos como vectores Y , Y , Y ,Λ , Y , X , X , X ,Λ , X . 1
2
3
N
1
2
3
N
N
Entonces, un parámetro es, por ejemplo, µ = Y = ∑ Y i / N la media de la población (en i =1
muestreo se usa Y para la media de la población finita y La varianza de la población es: σ = 2 y
y para la media de la muestra).
N
∑ (Y − Y )
2
i
/ N ,
i =1
aunque se usa por facilidad: N
S y2
N N 1
σ y2
i 1
(Y i
Y ) 2
N 1
En ocasiones es de interés el total de la población: Y
. N i 1
Y i
N Y .
La muestra es un subconjunto de n unidades de la población, éste se obtiene con probabilidades conocidas para todos y cada uno de los elementos de la población. El tamaño de la muestra es n. En la muestra de n unidades se determinan los n valores de , y n (y i minúscula es el valor observado, Y j es un la variable Y y se denotan por y 1 ,y 2,… valor no observado en la población, i =1…n, j =1…N). Con los valores y 1,y 2,…,y n de la muestra se construyen estimadores de los 2 2 parámetros ( Y ,Y,S ,σ y ). Para evaluar los estimadores se considera que el proceso de obtención de la muestra se puede repetir muchas veces y en cada una tener un valor para el estimador. Como las muestras varían en su constitución los valores de los estimadores también variarán. Siempre que se realice un muestreo se debe especificar la forma de tomar la muestra y la manera de calcular los estimadores f ( y ,...., y ) θ ˆ . Al tener 1 n muchos valores de los estimadores se puede estudiar su regularidad estadística con distribuciones de frecuencias. Estamos hablando de una nueva población que son las diferentes estimaciones del parámetro de interés. Estas distribuciones de frecuencia se estudian teóricamente. Si la media de los posibles valores de los estimadores es el parámetro en estudio, se dice que el estimador es insesgado con esta forma de seleccionar la muestra ( E (θ ˆ) θ ). El criterio fundamental para determinar cuál estimador es mejor entre varios posibles es que para un tamaño de muestra fijo, el mejor estimador tenga menor variabilidad alrededor de su media (o sea el parámetro, si el estimador es insesgado). La medida de variabilidad es la varianza del estimador.
1
CONCEPTOS BÁSICOS DE MUESTREO
V (θ ˆ) E [θ ˆ
E (θ ˆ)]2
Si el estimador no es insesgado es conveniente tomar como medida de variabilidad el error cuadrático medio (ECM ).
ECM (θ ˆ) E (θ ˆ θ ) 2
donde
ECM (θ ˆ) V (θ ˆ) [ E (θ ˆ) θ ]2 E (θ ˆ) − θ = B(θ ˆ) = sesgo
Una vez seleccionado un “buen” estimador, el tamaño de muestra n se determina con base en el grado de precisión deseada. Esta precisión es el grado de variabilidad que presenta el estimador alrededor del parámetro al tomar muchas muestras de tamaño n. Así, si el parámetro θ es
Y y el estimador (θ ˆ = Y ˆ ) es y , esta precisión se expresa
por un número δ tal que tenemos tres expresiones equivalentes:
P | θ ˆ − θ | < δ = 1 − α ˆ − Y | < δ = 1 − α P | Y P [ | y − Y | < δ ] = 1 − α
(4.1)
A δ se le conoce como error absoluto. Entonces, P θ ˆ
δ
θ
θ ˆ
δ
Y
y
δ
1
α
. 95
ó P y
δ
1
α
. 95
Donde 1-α será cercano a 1 y se denomina confiabilidad. Para poder usar la expresión (4.1) se requiere conocer la distribución teórica de los posibles valores de y , el estimador en general. Frecuentemente se recurre al Teorema central del límite que especifica que, 2 σ y ) . Sin embargo, en algunos casos el teorema central del límite no es y ~ N (Y , n válido, entonces la determinación del tamaño de muestra n se basa únicamente en el criterio de lograr que la varianza del estimador sea pequeña, menor o igual que un valor dado, asegurando así, el grado de variabilidad que presenta el estimador alrededor de su media (el parámetro si el estimador es insesgado). Una presentación alternativa del error de estimación es:
2
CONCEPTOS BÁSICOS DE MUESTREO
θ ˆ − θ * P < δ = 1 − α θ
donde δ * =
δ θ
Aunque no conocemos θ , al emplear δ * = δ estamos pensando en un error máximo θ
permisible que esté en función de la cantidad que vamos a estimar. A δ * se le conoce como error relativo. También el error de muestreo se usa con porcentajes,
δ θ
100.
Si no se supone la normalidad, lo más usual es considerar el coeficiente de variación del estimador con un valor fijo y determinar el tamaño de muestra para que se alcance ese coeficiente de variación. Lo más frecuente es que las características de la distribución del estimador dependan de algunos parámetros desconocidos de la población de interés. Como las características de la distribución del estimador son las que se usan para determinar el tamaño de muestra n, resulta que hay que conocer ciertos parámetros de la distribución original (la población) para determinar n, el que a su vez servirá para estimar parámetros de la población. Esta situación conflictiva puede resolverse de dos maneras: (1) Teórica: utilizando los conocimientos existentes para tratar de especificar con base en
experiencias previas, la distribución teórica de la variable en la población o con algún otro método a priori , el valor de los parámetros de la población necesarios en la determinación del tamaño de muestra. Los valores que se necesitan usualmente son la varianza o el coeficiente de variación. (2) Práctica: Se obtiene una muestra preliminar o muestra piloto para estimar aunque sea
de un modo muy aproximado los parámetros relevantes. La muestra piloto sirve, además, para probar la factibilidad de los métodos de selección, probar el cuestionario, determinar costos y otros aspectos prácticos. Para especificar la varianza de una población se puede usar el conocimiento aproximado que se tenga sobre la forma de la distribución y la amplitud de variación de los valores. Deming (1950, pág. 62) propone una tabla de formas de distribución y sus varianzas correspondientes en función de la amplitud h. Donde h = amplitud (máxima Y i – mínima Y i ). La tabla es:
3
CONCEPTOS BÁSICOS DE MUESTREO TABLA 1.
Varianza de distribución en función de forma y amplitud.
FORMA
NOMBRE
Uniforme
Triangular simétrica Triangular asimétrica
2
VARIANZA= σ y
h2 12 h2 24 h2 18 h2 8
Elipse
Normal a
h
h2 16 h2 36
b
Con un conocimiento más o menos profundo del fenómeno estudiado (el que determina Y (ui )=Y i y el tipo de unidades ui ) se puede determinar h y la forma de la distribución de los valores de Y y con ellos obtener σ y2 que se usará posteriormente para fijar n. Kish (1965, p. 262) presenta una ampliación de esta tabla. Nota: Recordemos que
4
CONCEPTOS BÁSICOS DE MUESTREO
( )
V ( X ) = E [ X − E ( X )] = E X 2 − E 2 ( X ) 2
∞
∫
E ( X ) = xf ( x )dx −∞
∞
( ) = ∫ x f ( x )dx −∞
E X
2
2
donde f ( x) es la función de densidad.
5
CONCEPTOS BÁSICOS DE MUESTREO 5. Muestreo aleatorio simple sin reemplazo (“mas”) Este esquema de muestreo es el más usado cuando se tiene un marco de muestreo que especifique la manera de identificar cada unidad en la población. Además no se tiene conocimiento a priori sobre los posibles valores de Y i ni otras mediciones asociadas a Y i. En este caso cada unidad se extrae con igual probabilidad, por etapas, y sin reemplazo, hasta tener las n unidades de la muestra. En la primera extracción, la probabilidad de que se seleccione una de las n unidades es n . En la segunda extracción la probabilidad de N
que se seleccione una de las restantes n-1 unidades es: la selección k , la probabilidad de una unidad l es
n −1
N − 1 n − k + 1
N − k + 1
y así sucesivamente: en N
. Para estimar Y = ∑ Y i / N i =1
se obtiene el promedio de la muestra:
ˆ= y = Y
n
∑ y / n i
(5.1)
i =1
Este es un estimador insesgado ( E ( y ) = Y , el promedio de los posibles valores y al tomar muchas muestras es
Y ) además su varianza es 2
V ( y ) E y Y S y2
donde
=
1
1
n
S y2
N n
N
∑ (Y i − Y ) 2 .
N − 1 i =1
Nótese que si N es infinito, V ( y )
S y2 n
, es el resultado que se obtiene para
poblaciones infinitas. n es la fracción de muestreo o proporción de la población que se muestrea, y N
1
n N
es el factor de corrección por finitud ( fcf ). Se puede demostrar que con este proceso de selección, la probabilidad de que
cualquier unidad ui esté en la muestra es π i = en la muestra es π ij =
n( n − 1) N ( N − 1)
n N
y la de que ambas una ui y una u j estén
.
N
Para estimar el total
∑ Y i = N Y = Y
tenemos:
i
1
CONCEPTOS BÁSICOS DE MUESTREO
ˆ ˆ N Y Y N y
(5.2)
además si θ ˆ ~ N[ θ ,V( θ ˆ )] , entonces:
P [θ ˆ 1.96 V( θ ˆ)
θ
θ ˆ 1.96 V( θ ˆ) ]
0.95
Si no conocemos V (θ ˆ) tenemos que estimarla:
ˆ( θ ˆ) P [θ ˆ 1.96 V
ˆ( θ ˆ) ] &0.95 θ θ ˆ 1.96 V
En el caso particular del “ mas” tenemos: 2
n S y θ = Y , θ ˆ = y y V (θ ˆ ) = V ( y ) = 1 − N n
P y
1 .96
1-
n
S y2
N
n
Y
y
1 . 96
1-
1 4 4 2 4 4 3
n
S y2
N
n
0 . 95
δ
⇒ P y − Y < δ = 0.95 δ = error absoluto. Despejando n de δ = 1.96 V ( y ) se tiene:
1.96
1
n
δ 1.96
&
2 2
1 S y2
2
S y2
δ 2
N
Recordemos que: N
∑ (Y i − Y )2
E ( yi − E ( yi ) )2 = E ( yi − Y )2 = σ y2 = i
S y2
=
N N − 1
σ y2 ,
S y2
N
(Y i − Y )2 ∑ = ( N − 1) 2
CONCEPTOS BÁSICOS DE MUESTREO
5.1 Tamaño de la muestra (“ mas”)
El valor de S 2 ó σ 2 se estima con una prueba piloto o bien se “adivina” usando tablas y y (ver Tabla 1), y el conocimiento previo sobre la población. Si se considera que y no se ajusta a la distribución normal, se usa el criterio de fijar la magnitud de la varianza o del coeficiente de variación de y . Se determina n para que produzca un coeficiente de variación dado (CV 0) usando estimaciones “gruesas” de Y y de S 2 . y
1
Así
CV 0 =
[V ( y )] 2 E ( y )
n S y2 1 − N n =
1
2
Y
Despejando n, se obtiene:
n=
S y2 (CV 0 ) Y + 2
2
(5.3)
S y2 N
Si n es "grande” se espera que el teorema Central del Límite dé una buena aproximación de la distribución de y . Así:
y ~ N [Y ,V ( y )] P y − z α
2
V ( y ) ≤ Y ≤ y + z α
V ( y ) = 1 − α 2
si 1 − α = .95
n S 2 n S 2 P y − 1.96 (1 − ) ≤ Y ≤ y + 1.96 (1 − ) N n N n
= 0.95,
3
CONCEPTOS BÁSICOS DE MUESTREO
entonces
y
Y
V ( y )
1
se distribuye aproximadamente como una normal estandarizada 2 2
n S y
. N n
(media cero y varianza uno), donde V ( y ) = 1 −
Si se desea un tamaño de muestra tal que el error de estimación sea inferior a δ con una probabilidad de 1-α , esto es: P [| y Y | δ ] 1 α , δ = z α V ( yˆ ) 2
dividiendo entre V y
1
2
y
P
Y
[V ( y )]
1
δ 2
[V ( y )]
1
1 α 2
De las tablas de la normal estándar, Z~N (0,1), se obtiene un valor z α /2 tal que P [ Z < z α / 2 ] = 1 − α (z α /2 es el valor de Z obtenido en las tablas que deja un área y
de α /2 a la derecha de él). Como
Y 1
V y
y ~ N (0,1) , hacemos que 2
V y
Y 1
sea un
2
valor de Z arbitrario y que:
z α / 2 =
δ 1
[V ( y )] 2
δ
=
S y2 n 1 − n N
de aquí se despeja n: z α 2 / 2 S y2
1
n=
δ
2
2 α / 2
z
2 y
S
+
=&
1
δ 2
(5.4)
N
Si α = 0.05 entonces:
(1.96) 2 S y2
n =&
δ 2
4
CONCEPTOS BÁSICOS DE MUESTREO
Se puede usar n' = n 1
z α 2 / 2 S y2 δ 2
como una primera aproximación y luego corregir usando
n' . n' N
Si no se puede suponer normalidad de la distribución del estimador, se recurre a la desigualdad de Tchebycheff. Desigualdad de Tchebycheff 2 Sea U una variable aleatoria con cualquier distribución y E (U ) = µ U , V (U ) = σ U 1 ⇒ P [U − µ U ≥ λσ U ] ≤ 2 λ 1 ⇒ P [U − µ U ≤ λσ U ] ≥ 1 − 2 λ 1 ⇒ P [U − λσ U ≤ µ U ≤ U + λσ U ] ≥ 1 − 2 λ 1 ⇒ P y − λ V ( y ) ≤ Y ≤ y + λ V ( y ) ≥ 1 − 2 λ
[
]
λ = 2
1−
λ = 3
1−
λ = 4 .4
1 λ 2 1 λ 2
1−
δ = 4 .4 V ( y )
= .75 = .889 1
λ 2
(5.4a)
= .95
⇒
n=
1 δ 2 ( 4 .4 ) 2 S 2
+
1
.
N
En las expresiones anteriores, si tanto δ como S se expresan en por ciento de la media, S δ δ ' 100 , CV = 100 la expresión (5.4) se transforma a: y y
n=
z α 2 / 2 (CV ) 2
1
(δ ')
=&
2
Z α 2 / 2 (CV ) 2
+
1
(δ ')
2
.
N
Si no se supone normalidad para la distribución de y y con confianza del 95%, por la desigualdad de Tchebycheff , entonces (5.4a) se transforma a:
5
CONCEPTOS BÁSICOS DE MUESTREO
(4.4)(CV ) 2
1
n=
(δ ´) 2 2
(4.4) (CV )
2
+
=&
1
(δ ´) 2
N
5.2 Estimación de proporciones
Y (ui ) es una medida o indicador de la presencia o ausencia de una característica en la unidad ui con valor 1 si la característica está presente y 0 si no es así. En este caso Y P = proporción de unidades en la población que tienen la característica N ∑ Y i . Y = i = P N
p = y que es la proporción de unidades en la muestra con la característica. El valor de S 2 en términos de P resulta: y
N
S Y 2 =
∑ (Y i − Y )
2
i
N − 1
1
= NP (1 − P )
N
P (1 − P ), N − 1 N − 1
con estimador
=
n
∑ ( y
ˆ 2 = s 2 = S y y
i
− y )2
i
n −1
=
ˆ n P n −1
σ 2 = P (1 − P )
ˆ ). (1 − P
Con este nuevo valor la expresión (5.3) resulta:
N n=
N − 1
(1 − P )
=&
1 − P
1 − P P (CV 0 )2 (CV 0 ) P + N − 1 2
(5.5)
Para usar esta expresión, se estima a priori o con una prueba piloto el valor de P y se fija el CV o que se desea. Si utilizamos la desigualdad de Tchebycheff tenemos:
6
CONCEPTOS BÁSICOS DE MUESTREO ( 4 .4 ) 2
1
n
&
2
( 4 .4 ) 2
δ N
1
N
P (1 P ) N 1 δ 2
N
P (1 P ) N 1 ( 4 .4) 2 n
5
4 δ 2
&
δ 2
Nótese que si P está cercano a cero, el valor de n aumenta. Esto indica que para estimar la proporción de unidades con una característica rara se requieren muchas unidades en la muestra. Esto es lo contrario de lo que sucede si se usa la aproximación a la normal, en NP 2 cuyo caso se usa la expresión (5.4) con S Y (1 − P ) = N − 1
⇒
z α 2 S y2
1
n=
δ
2
z α 2 S y2
+
1
=&
2
δ
2
.
N
2
Si se quiere conocer P , las Y i son 0 ó 1.
S y2
N
P (1 P ) & P (1 P ) N 1 z α 2 / 2 P (1 − P ) ⇒ n= . δ 2
ˆ es máxima cuando P Si α = .05 ⇒ z α = 1.96 =&2 , además como la varianza de P 2
= 0.5, se usa P(1-P)=(.5)(.5)=0.25 como margen de seguridad 2 2 (.25) 1 ⇒ n =& = . δ 2 δ 2 Entonces se debe dar que nP>5 y n(1-P)>5 para que se tenga buena cercanía a la normalidad. Al variar δ se tienen los siguientes tamaños de muestra :
δ
.001 .01 .02 .025 .03 .035 .04
n
1,000,000 10,000 2,500 1,600 1,111 816 625
7
CONCEPTOS BÁSICOS DE MUESTREO
ˆ ~ N ( P ,V ( P ˆ )) entonces se debe reportar el resultado de la estimación de además si P P con un intervalo de confianza aproximado dado por: ˆ ( p ) ≤ P ≤ p + 1.96 V ˆ ( p ) ≅ .95, P p − 1.96 V
n N pˆ (1 − pˆ ) ˆ ( pˆ ) = . − V 1 ( ) − N N 1 n
8
CONCEPTOS BÁSICOS DE MUESTREO
6. Muestreo estratificado El muestreo estratificado consiste en dividir la población en L subconjuntos o estratos, y de cada uno de ellos seleccionar una muestra probabilística; de manera independiente de un estrato a otro. Existen tres razones importantes para utilizar este tipo de muestreo: estadísticas, marcos y de costos. La razón estadística ocurre cuando la población está constituida por unidades heterogéneas y podemos tener una idea previa de los grupos de unidades más homogéneas entre sí, entonces es conveniente formar estratos. Los estratos son subconjuntos de la población que agrupan unidades homogéneas, aunque sean heterogéneas entre estratos. Cada estrato se muestrea por separado y se obtienen los estimadores de parámetros (totales, medias, proporciones) para cada estrato. Se supone que se conoce el número de unidades en cada estrato (N h). Aunque esto se verá después, es importante señalar que si se usan estimadores de razón o de regresión o si el muestreo se hace con probabilidad proporcional al tamaño, los estratos se forman con subconjuntos de unidades donde sea constante la proporcionalidad de Y a X , aunque esa proporcionalidad cambie de estrato a estrato. Como ejemplos de la razón estadística para usar estratos, considérense: (a) En un muestreo donde interesa conocer alguna característica de los hogares en la Ciudad de México (por ejemplo: gastos en alimentos, ropa, ingresos, tipo de casa habitación, años de escolaridad del padre, número de hijos, etcétera). Se sabe que esas características dependen fuertemente del nivel socioeconómico de las familias, por lo tanto conviene hacer estratos considerando áreas de la ciudad con niveles socioeconómicos semejantes. Así, las colonias se pueden clasificar a priori con relación al nivel socioeconómico como: muy alto, alto, medio, medio bajo y bajo, formando de esta manera cinco estratos. La encuesta se planea para cada estrato por separado. El efecto de formación de estratos es reducir la variabilidad de los estimadores. La variabilidad de Y ˆ se puede reducir mucho si los estratos son muy homogéneos dentro de cada uno de ellos y heterogéneos entre los mismos. (b) En un muestreo para estimar la cosecha total de café en México, se conocía que el estado fisiológico, edad y estado de sanidad de los árboles influye mucho en su producción. Entonces, se tomaron como estratos, categorías de árboles bien definidas y homogéneas en lo que respecta a edad, estados fisiológicos y de sanidad. Además, los predios se agruparon en estratos de acuerdo a la región ecológica donde estaban ubicados. Esto es porque la productividad del café varía según las condiciones ecológicas como altura sobre el nivel del mar, vientos, temperaturas extremas, etcétera. (c) En una encuesta para estimar el consumo de energía eléctrica es conveniente agrupar las fábricas en estratos, así quedarían agrupadas en: fábricas grandes, fábricas pequeñas, empresas de producción familiar y un estrato final constituido por casa-habitación. Esto, porque sabemos que el consumo de electricidad va a ser muy variable entre estratos, y esperamos que sea menor dentro de estos. Otra razón poderosa para formar estratos es la disponibilidad de marcos . Si para una parte de la población se tiene un buen marco, éste se usa para el muestreo de esa parte y la o las otras partes de la población se muestrean usando otros marcos más imprecisos y, posiblemente distintos esquemas (diseños) de muestra. Por
45
CONCEPTOS BÁSICOS DE MUESTREO ejemplo, en encuesta de hogares se cuenta con un buen marco para la zona urbana de construcción antigua; pero las zonas rurales y las urbanas de construcción reciente no tienen un marco adecuado. Entonces se utilizan planos catastrales para las zonas urbanas antiguas (un estrato), se usan fotografías aéreas para zonas rurales (otro estrato) y las áreas de posible nueva urbanización (otro estrato) se delimitan como otro marco; se muestrean áreas y se investigan las nuevas urbanizaciones (muestreo en etapas o conglomerados). Otra razón más para construir estratos puede ser el costo de localizar y levantar la información de las unidades, por ejemplo: si en una encuesta de predios agrícolas hay una región cuyo acceso es difícil (por avión o a caballo únicamente), esa región puede constituir un estrato, que será muestreado con un tamaño de muestra pequeño. Lo más frecuente es que los tres criterios para formación de estratos coincidan, de modo que los estratos formen unidades homogéneas con un mismo tipo de marco y con costos de localización y captación de información semejantes. Se pueden utilizar diferentes formas de muestreo en los diferentes estratos, sin embargo, se considerará en este escrito como una introducción al tema, aquel en el cual cada estrato se muestrea usando “ mas”. Más adelante se consideran las muestras complejas, donde se amplia el uso de estratos. Considérese la siguiente notación: N h= número de unidades en estrato h-ésimo;
h = 1,2,, L, L= número de
estratos. Valores poblacionales
Y hi
valor de la medición en el elemento i -ésimo del estrato h-ésimo. L
N
N h
total de unidades en la población .
h 1 N h
Y h
i 1
Y hi media poblacional del estrato h-ésimo.
N h N h
Y h
N hY h
i 1
Y hi
total poblacional del estrato h-ésimo.
46
CONCEPTOS BÁSICOS DE MUESTREO 2
N h
∑ (Y hi − Y h ) i =1
S h2 =
N h − 1 L N h
L
∑ Y h = ∑∑ Y hi
Y =
h =1
Y=
varianzas poblacionales del estrato h-ésimo.
total de toda la población.
h =1 i =1
L
∑N
Y h
h
h=1
Y =
Y
media de los valores Y hi en toda la población.
∑ N h
W h =
N h
proporción del tamaño del estrato h-ésimo.
N
L
∑W h = 1.
h =1
Valores muestrales En esta parte se considera cualquier estrategia de muestreo probabilístico en cada estrado, incluso pueden ser diferentes de un estrato a otro. Supóngase que de manera independiente se toman muestras de cada estrato. Sea nh el tamaño de muestra en el estrato h-ésimo. La muestra total es L
n h 1
Supóngase
h 1
se
L N h
L
Y
que
Y h
h 1i 1
quiere
estimar
el
nh total
de
la
población,
esto
es
Y hi . Para esto con la muestra de cada estrato se estima el total,
ˆ el estimador insesgado o con sesgo despreciable para el caso de sea Y h
47
CONCEPTOS BÁSICOS DE MUESTREO ˆ ) , además, sea V ˆ (Y ˆ ) un estimadores de razón o de regresión, su varianza V (Y h h estimador de esa varianza.
ˆ El estimador del total es Y
L h 1
ˆ la suma de los estimadores de los Y h
totales de los estratos (es un estimador insesgado). Esto es válido con cualquier diseño de muestra y estimadores por estrato, los que pueden ser distintos en los diferentes estratos. L
ˆ) La varianza del estimador del total es V (Y
ˆ ) , que es la suma de V (Y h
h 1
las varianzas de los estimadores de los totales de estratos. Esto es por tener muestras independientes en los estratos. Además el estimador de la varianza del estimador del total es: V ˆ (Y ˆ)
L
ˆ (Y ˆ ). V h
h 1
ˆ se tiene: Suponiendo distribución normal de Y
[
]
ˆ − Y < 1.96 V (Y ˆ ) = .95 P Y
[
]
ˆ (Y ˆ ) ≤ Y ≤ Y ˆ + 1.96 V ˆ (Y ˆ ) = .95 ⇒ P Y ˆ − 1.96 V Si no se puede suponer normalidad úsese el valor 4.4 en lugar de 1.96 (T.
ˆ son válidas para cualquier forma de Tchebycheff). Estas expresiones para Y muestrear estratos. La primera aproximación al suo de estratos es considerar que se usa “mas” nh
en cada estrato entonces: Y ˆ N y N h h h h
y hi
i 1
nh
ˆ N hY h donde y hi son los valores
observados en la unidad i-ésima de la muestra (tamaño nh) del estrato h-ésimo. El estimador del total poblacional es:
ˆ Y
L
ˆ Y h
h 1
L
N h yh
h 1
L
nh
h =1
i =1 nh
ˆ = ∑ N h ∑ ⇒ Y
yhi
L nh N h y
= ∑ ∑
(6.1)
h =1 i =1 nh
hi
48
CONCEPTOS BÁSICOS DE MUESTREO
donde
N h
corresponde al factor de expansión, de las unidades obtenidas en cada
nh
estrato. Su varianza teórica es: L
ˆ) V (Y
ˆ ) V (Y h
h 1
L
N h2V ( yh2 )
h 1
L
N h2 1
h 1
nh
S h2
N h
nh
(6.2)
Esta varianza se estima al sustituir S 2 por su estimador en cada estrato. Para esto h se usan los estimadores de varianza usuales, ∧ 2
nh
S = ∑ = h
i 1
( y hi − y h )2 nh − 1
, que es el estimador insesgado de S 2 . h
ˆ 2 es la misma expresión que 2 , pero la primera es con Nótese que S S h h valores de la muestra y la segunda con los valores de todo el estrato h-ésimo. Recurriendo al Teorema central del límite, para cada estrato ˆ ~ N [Y , V (Y ˆ )] . Esto es mucho más factible yh ~ N [Y h , V ( yh )] , se tendrá que Y aunque cada yh no tenga distribución normal, si se tienen muchos estratos. Se puede decir que los errores de estimación tienden a cancelarse de un estrato a otro. ˆ ) , se puede construir un intervalo de confianza aproximado Si se estima V (Y para el total de la población:
[
]
ˆ 1.96 V ˆ(Y ˆ) Y Y ˆ 1.96 V ˆ (Y ˆ) 0.95 P Y
(6.3)
Al dividir cada término de (6.3) entre N =∑ N h , tenemos el intervalo de confianza para ed d ia ea l po ló cib a n. Y , l am Si secn oisd eru aq e am l srtu ea sg er nd a een ca d s ,eto a am r l sr e a tu at t lo sá er yo a m ra n.E ú sto sjif tu icael so ud elo lv1 ra .6 9 n e g l rud a ela lo rvd e st sd a l b le a t . Nótese que:
ˆ2 n S ˆ (Y ˆ ) = N 1 − h h V ∑ N n h =1 h h L
2 h
(6.4)
Si lo que se quiere estimar es Y , set end á r u eq ,
49
CONCEPTOS BÁSICOS DE MUESTREO L
ˆ Y
N h y h
ˆ Y N N h
Donde W
h
L
h 1
N
N h
h 1 N
L
y h
W h y h
(6.5)
h 1
proporción del tamaño de estrato h-ésimo. Nótese que (6.5) es un
N
promedio ponderado de los promedios muestrales y su varianza es:
()
ˆ V Y =
nh S h2 W 1 − ∑ h =1 N h nh L
2 h
(6.6)
la que se estima con:
ˆ) = ˆ (Y V
ˆ2 nh S h W 1 − ∑ h =1 N h nh L
2 h
(6.6a)
De manera semejante, el intervalo de confianza aproximado para Y es el sig ient e u
:
ˆ P Y
ˆ) ˆ (Y 1 . 96 V
Y
ˆ Y
ˆ) ˆ (Y 1 . 96 V
0 . 95
Aún con muestras chicas en cada estrato (nh = 2,3,4) si se tienen mas de 10 estratos se puede tener normalidad para Y ˆ , esto en virtud de la compensación de errores. Proporciones
Si lo que se requiere estimar es P, la proporción de elementos de la población que tienen una característica determinada , se usan las equivalencias dadas por
Y h
P h , y h
ph .
ˆ= P
L
∑ W p , h
h
h =1
ˆ ) = V ˆ (Y ˆ ( P ˆ) = V
L
∑ h =1
W h2 1 −
nh p h (1 − p h )
N h
nh
.
Estas equivalencias surgen al considerar que
50
CONCEPTOS BÁSICOS DE MUESTREO
1 Y hi =
Si la unidad i -ésima del estrato h tiene la característica
0 De otro modo
Sólo si las P h son muy diferentes de estrato a estrato, vale la pena estratificar. Si .2 ≤ P h ≤ .8 ∀ h , no conviene usar los estratos. 6.1
Distribución (afijación) de la muestra a los estratos
Antes de considerar el problema de la determinación del tamaño de muestra, se discute la forma de distribuir el tamaño de muestra total, n, a los diferentes estratos. 6.1.1. Distribución proporcional
Un criterio es lo que se le llama distribución (afijación) proporcional, donde la muestra se divide de manera proporcional a los tamaños de los estratos N h. Se busca que se cumpla la relación:
nh
=
n
N h
= W h .
N
De esta relación se tiene: nh
n
N h
nW h .
N
(6.7)
Esta distribución de la muestra total se usa cuando no se tiene información sobre la magnitud de las S 2 , o que esas S 2 sean semejantes; se usa además cuando los h
h
costos de muestrear las unidades en los diferentes estratos son semejantes. También se emplea cuando el muestreo o encuesta va a determinar varias características (varias mediciones) en cada unidad de la población, incluso cuando se quiere que sea “autoponderado”, es decir, todos los elementos de la muestra tienen un mismo factor de expansión N h = N . Con esta distribución proporcional se nh
n
tiene:
ˆ= Y
L
L
nh
L
y hi
∑ Y ˆ =∑ N y =∑ N ∑ n h
h =1
donde k =
N h nh
h
h
h =1
=
h
h =1
i =1
h
L
N h
=∑ h =1
nh
nh
∑ y i =1
L
hi
nh
= k ∑∑ y hi h =1 i =1
N h N = . N n n h N
51
CONCEPTOS BÁSICOS DE MUESTREO 6.1.2 Distribución óptima
Cuando se tienen costos muy diferentes para el muestreo de unidades en los diferentes estratos, se usa la distribución (afijación) óptima. Si el costo para obtener información de una unidad en el estrato h-ésimo es C h, el costo total será: L
C C 0
h 1
C h n h
(6.8)
C 0 es costo administrativo, de instalación, etcétera, general. La minimización
(variando las nh, sin cambiar otras condiciones), de la varianza del estimador (6.2) con costo fijo (6.8) o viceversa, produce la distribución óptima que es:
N h S h n C h
nh
nh
L
N h S h
h 1
1
(6.9)
C h
N h S h C h
Esto es para muestreo “mas” en todos los estratos. Para cualquier diseño de muestreo en los estratos, la varianza del estimador del total se podrá expresar como:
ˆh) = V(Y
Ah nh
+ (cte. que no involucra n h )
Entonces la distribución óptima es: nh = n
Ah L
∑
Ah
−1
,
C h h =1 C h
nh ∝
Ah C h
6.2 Tamaño de muestra total
Si lo que se quiere es encontrar aquel valor de n que produce la mínima varianza para un costo total fijo C 0, se deberá usar la expresión (6.9) y sustituir en (6.8) entonces tenemos:
52
CONCEPTOS BÁSICOS DE MUESTREO −1
N h S h L N h S h C − C 0 = ∑ C h nh = ∑ n ∑ Ch Ch h=1 C h h =1 h =1 L
L
L
n C − C 0 =
∑ h =1
n
h
S
C h
h
N S ∑ h h C h
N h S h
L
C C 0
N
C h
h 1
(6.10)
L
N h S h C h
h 1
Esto es usando la distribución óptima. Los valores de S h se deberán obtener con base en muestras piloto de cada estrato, o bien por conocimiento previo de la forma de la distribución en cada estrato y el rango de variación. Si lo que se quiere es encontrar el valor de n que produce el costo mínimo para un error de estimación δ determinado, entre el estimador del total y el
ˆ ) . Si se sustituye la varianza de la verdadero total, entonces se tiene δ = 1.96 V (Y expresión (6.2) con distribución óptima, se obtiene: L
L
N h S h C h
n
h 1
2
1.96
h 1 L
δ
2
N h S h C h
(6.11)
N h S h2
h 1
Las expresiones (6.10) y (6.11) se refieren a la estimación del total. Para estimar un promedio, Y , l a x pr e sieó n (6.10) sigue siendo válida pero la (6.11) debe modificarse:
ˆ ˆ ˆ ˆ P Y − 1.96 V (Y ) ≤ Y ≤ Y + 1.96 V (Y ) = .95 δ δ = 1.96
()
ˆ V Y
Sustituyendo la varianza por la expresión (6.6) y con
nh óptimo
se tiene:
53
CONCEPTOS BÁSICOS DE MUESTREO
L N h S h S h C h ∑ ∑ 2 N C h =1 h =1 h n= 2 1 L δ 2 + N S ∑ h h 2 2 L
N h
(1.96)
N
(6.11’)
h =1
Donde ahora δ es el error máximo permisible, con confianza del 95%, entre el set q e sl u a estimador del promedio Y ˆ , y el promedio poblacional Y . Nó δ en expresiones (6.11) y (6.11’) son muy diferentes. Las expresiones (6.10), (6.11) y (6.11’) se usan cuando se quiere optimizar algo que involucra el costo. Si el costo no es determinante y si se usa la distribución óptima para C h constante, (6.10) no deberá usarse. Es importante enfatizar que en (6.10), (6.11) y (6.11’) se usa la distribución óptima. 6.3 Distribución proporcional
Si se va a usar la distribución proporcional se puede recurrir a la expresión de la varianza que es: ˆ ) = V ( Y
L
n h S h2
2
L
∑1 N 1 − N h
h=
Si se sustituye n h
N h2
S h2 − ∑ N h S h2 =∑ h =1 n h h n h
N h
(6.12)
n se tiene:
N
ˆ) V (Y
N L n
N h S h2
h 1
N h S h2
(6.12’)
Con este valor en lugar de las S2 , se pueden usar las expresiones (5.3) y (5.4) para obtener n. Si se quiere tener un coeficiente de variación fijo (CV o), sin tomar en cuenta el tipo de distribución del estimador Y ˆ , se tendrá CV 0 2
2
CV 0 Y
ˆ V Y
N L n
N h S h2 h 1
L
ˆ) V (Y
1
2
Y
N h S h2 .
h 1
De donde
54
CONCEPTOS BÁSICOS DE MUESTREO L
N N h S h2 h 1
n
L
2
Y 2 CV 0
(6.13)
N h S h2
h 1
ˆ ~ [Y ,V (Y ˆ )] y se desea tener: Si se considera que Y ˆ Y | P [| Y
]
δ
ˆ Y Y
α ,
1
P ˆ )] [V (Y
Esto es
[
]
2
2
z / 2 α
ˆ )] [V (Y
2
1
L
ˆ = N N S 2 − = V Y h h n h =1
()
∑
α
1 2
de aquí se tiene que z α / 2 =
P | Z |< z δ / 2 = 1 − α , δ
1
δ
δ
[
ˆ) V (Y
]
1
2
L
∑ N S h
2 h
h =1
.
De donde se obtiene que n debe de ser: L
∑
N N h S h2 n=
h =1 2
δ 2
z / 2 α
(6.14)
L
+ ∑ N h S
2 h
h =1
Es relativamente sencillo modificar las expresiones (6.13) y (6.14) para considerar ˆ la estimación de Y . El cambio fundamental está en que se debe sustituir Y por Y ˆ que es Y , entonces N
ˆ V (Y )
1
ˆ) V (Y 2 N
1
L
N h S h2 nN h 1
1 N 2
L
N h S h2 .
h 1
Resumiendo: Si se considera que el costo es importante, esto es, hay costos diferenciales en los estratos, conviene usar la distribución óptima (6.9) y determinar el tamaño de muestra con expresiones (6.10), (6.11) o (6.11’). Si no hay costos diferenciales muy marcados y se decide usar la distribución proporcional (6.7) para determinar el tamaño de muestra total, se usará (6.13), si se quiere fijar el coeficiente de variación, sin consideraciones sobre la distribución de los
55
CONCEPTOS BÁSICOS DE MUESTREO estimadores. Si se quiere fijar la precisión (δ ) y la confiabilidad (1-α ) considerando distribución normal para el estimador, se usará la expresión (6.14). Debe tenerse cuidado al señalar que todas las expresiones anteriores determinan el tamaño de muestra para estimadores globales de toda la población. Las inferencias no son para cada estrato con esas muestras. Si lo que se desea es estimar media o totales en cada estrato, las expresiones anteriores no se deben usar, lo que se debe emplear son fórmulas (5.3) y (5.4) para cada estrato por separado y así determinar las nh a usarse en cada uno de ellos. Por supuesto que en este último caso la muestra total n es mucho más grande. Esto es de esperarse, puesto que ahora se están haciendo inferencias por separado para L poblaciones.
56
CONCEPTOS BÁSICOS DE MUESTREO
7. Muestreo por conglomerados o muestreo polietápico Cuando la población contiene muchas unidades más o menos dispersas, puede haber dos razones fundamentales que impidan la toma de muestras directamente de la población: 1) No se dispone de un marco para las unidades de la población, por que sea muy caro o imposible construirlo. 2) El costo del muestreo se incrementa mucho por la dispersión de las unidades, siendo más deseable obtener la muestra de un modo menos disperso. Cuando sucede alguna de las dos situaciones señaladas, o lo que es más común, ocurran simultáneamente, se recomienda el uso del muestreo por conglomerados, aunque se sabe que en general, produce varianzas mayores que un muestreo directo de una etapa. Por ejemplo, si se desea investigar el número de personas desocupadas (definir adecuadamente qué se entiende por desocupado) en la Ciudad de México. La población es el total de personas en edad productiva, esto es que pueden trabajar. En este caso no hay una lista de esas personas, además sería muy costoso que la muestra quedara dispersa en toda la ciudad. Para remediar esta situación se pueden formar nuevas unidades de muestreo, las llamadas unidades primarias o unidades de primera etapa ( upm). En este caso, las unidades de primera etapa, serían las “manzanas”, de las cuales sí se tiene un marco, los mapas de la ciudad. Además, si se seleccionan al azar (“mas”) un cierto número de “manzanas”, considerando en ese momento una población de “manzanas” y de cada “manzana” en la muestra se seleccionan al azar (“mas”) un cierto número de personas en edad productiva. Para esto se debe construir previamente una lista (marco) de las personas productivas en las “manzanas” seleccionadas en la primera etapa. Nótese que no se tiene un marco de personas para todas las manzanas, únicamente las que aparecen en muestra en la primera etapa. Algunos ejemplos de unidades primarias y unidades secundarias de muestreo son: Variable de interés
Trabajo, ingreso, drogadicción. Producción de trigo, maíz, carne, leche, etcétera. Contenido de calcio, nitrógeno, etcétera. Gasto, ingreso, periódicos o revistas leídas. Calificaciones, ingresos de los alumnos, etcétera., en la Facultad de Ciencias. Características de la producción de acero y fertilizantes.
Unidades primarias
Unidades secundarias
upm
usm
“Manzanas”
Individuos dentro de la “Manzana”
Municipios
Predios
Árboles
Hojas o frutos
“Manzanas”
Familias
Grupos (por materia)
Alumnos
Plantas
Lotes de producción
56
CONCEPTOS BÁSICOS DE MUESTREO
El muestreo de conglomerados también se puede combinar con muestreo estratificado; así, por ejemplo, para los casos señalados antes, las “manzanas” se pueden agrupar en colonias o sectores según niveles socioeconómicos. Los municipios se pueden agrupar por estados o por regiones ecológicas semejantes. Los árboles se pueden agrupar según edad y forma semejante. Los grupos se pueden agrupar por carreras o años de estudio. Las plantas de producción de fertilizantes, acero, etcétera., se pueden agrupar por tamaño, tipo de materias primas, etcétera. El principio básico para construir estimadores y sus varianzas en muestreo bietápico, es considerar el muestreo de unidades secundarias dentro de cada unidad primaria y obtener estimadores de totales de Y y sus varianzas en las upm. Posteriormente, usando los estimadores para cada unidad primaria muestreada, es necesario considerar un muestreo de unidades primarias, con el fin estimar totales en toda la población. La notación usual es la siguiente: Valores poblacionales (No dependen de un diseño de muestra o estimadores) N=
número de unidades primarias de muestreo (upm). Se cuenta con un N upm. marco de muestreo para las N upm número de unidades secundarias (usm) en la unidad primaria i -ésima. -ésima.
M i i =
N
M = ∑ M i = Número total de ( usm). Normalmente no se conoce i =1
Y ijij =
valor de la medición en la unidad secundaria j -ésima -ésima dentro de la unidad primaria i -ésima. -ésima. M i total de los valores Y ij de la unidad primaria i -ésima, -ésima, Y i = ∑ Y ij . j =1
Y i =
Y i = promedio de la unidad primaria i -ésima -ésima Y i
1 M i
Y i
1
M i
Y ij
M i j 1
Y i = M iY i = total de la unidad primaria i -ésima. -ésima.
Y = Total de los los valores valores de de Y en la población, N M i
N
Y i
1
Y i N Y
i
Y ij .
1 j 1
Y = promedio de los totales de unidades primarias,
57
CONCEPTOS BÁSICOS DE MUESTREO
1
Y
N
N i 1
Y i
este promedio de totales es completamente diferente al promedio por elemento
Y e =
Y
=
N
∑ M i
Y M
= promedio por elemento,
i =1
M i
2 S wi
(Y ij Y i ) 2
j
1
M i
varianza entre unidades secundarias dentro de la unidad primaria i -ésima. -ésima.
1
2
S b
N
N 1 i 1
(Y i Y ) 2
varianza entre totales de unidades primarias.
Como un primer acercamiento acercamiento para construir estimadores, se considera “mas” para upm y también “mas” para usm. Pero puede haber otras formas de tomar la muestra en ambas etapas. n = mi =
unidades primarias en muestra. número de unidades secundarias muestreadas de las M i que contiene la unidad primaria i -ésima -ésima en muestra
1
ˆ
Y i yi
mi
ˆ
ˆ wi = S
1 mi
j
1
yij , promedio de la muestra de unidades secundarias de la unidad primaria i -ésima. -ésima.
ˆ M Y Y i i i 2
mi
total estimado de la unidad primaria i -ésima. -ésima. mi
( y ∑ −1 1 j =
ij
− yi )
2
varianza estimada entre unidades secundarias dentro de la upm i .
ˆ= Y
1
(7.1)
n
ˆ Y ∑ n 1 i
i=
promedio estimado de totales estimados de upm.
58
CONCEPTOS BÁSICOS DE MUESTREO
Total estimado para la población:
ˆ = N Y ˆ Y n
Yˆ =
N n
n
∑M y i
i
i
=
N n
1
n
∑1 M i=
i
mi
mi
n
m
∑1 y = ∑ ∑ ij
j=
i
j
N M i n mi
∑ Y ˆ i
yij
= N
i
n
(7.2)
Factores de expansión f i Si mi es proporcional a M i entonces
M i mi
= k el diseño es autoponderado, es decir,
los factores de expansión son iguales, f ij = f , j = 1,..., M i , i = 1,..., N .
fij =
La varianza estimada entre totales estimados de unidades primarias; es:
n n n 1 1 1 2 2 M Y ˆ − ∑ M y ˆ − Y ˆ ) = ( Sˆ = Y ˆ ∑ ∑ b n − 1 i =1 i i i n − 1 i i i n i Y ˆ ˆ i Y
N n
k
2 .
La varianza teórica del estimador del total es: ( 1 )
1 1 2 N N 2 1 1 ˆ ) = N 2 − S 2 + V ( Y M S . − ∑ i b n N n i m M wi i i 90%−95% del es cero si mi =M i ˆ ) valor de V ( Y
(7.3)
En la gran mayoría de las encuestas, en general de los muestreos, los valores de Y ij ij 2 son semejantes dentro de las upm. Esto hace que las S wi tiendan a ser pequeñas. También los valores de las Y ij son más diferentes entre upm; además, los totales Y i i difieren mucho si el número M i i de usm, dentro de las upm son diferentes; y finalmente en S b2 se tiene varianza entre totales, no entre valores individuales. Todo esto hace que la primera parte de (7.3) constituya frecuentemente un 90 a 95% o incluso mas del valor total de la varianza del estimador del total. En algunos textos de muestreo se trata el tema de “muestreo de conglomerados”. Este es el que surge si en cada upm se estudian todas (se censa) las usm. En este caso mi =M i i y entonces el segundo término de (7.3) se hace cero. Esto en realidad corresponde a un muestreo de una etapa, donde las upm son las
59
CONCEPTOS BÁSICOS DE MUESTREO
unidades de muestreo únicas y a cada una de ellas se le asocia (se determina) Y i , el total de los Y ij en su interior. La varianza del total, (7.3) se estima mediante
2 1
ˆ (Y ˆ ) = N V
−
1
1 ˆ 2 N n
S b + n n N
∑ M i2
mi
i
−
1 ˆ 2 S wi .
M i
(7.4)
Así una estimación por intervalo, al 95% aproximado para el total Y será:
[
]
ˆ 1.96 V ˆ (Y ˆ ) P Y
ˆ 1.96 V ˆ (Y ˆ ) 0.95 Y Y
(7.5)
Si se considera que el primer término de (7.3) representa la mayor parte (95% o más) de su valor, es decir, se desprecia la variación entre usm dentro de upm, se tiene: δ
1 1.96 V (Y ˆ ) 1.96 N 2 (
1
)S b2
n N
1
n
2
1
δ
de aquí despejamos n
(1.96) 2 S b2 2
δ
(1.96) 2 S b2 N Un caso práctico es cuando las muestras de unidades secundarias en cada unidad primaria son del mismo tamaño mi = m. Si además se hace el supuesto, poco realista de que M i = M * , las unidades primarias tienen el mismo número de unidades secundarias, se tiene:
ˆ Y
N M * n
ˆ ) N S V (Y b
2 2
n
m
1 n
1
i
n N
m j
2
yij ,
S w
2
2 * 2 S w
N M
mn
1
N
N
i
1
2 S wi
m *
(7.6)
M
Si en este caso se considera que el costo de localizar y elaborar el marco de las unidades secundarias que contiene una unidad primaria es C 1 y el de obtener información sobre una unidad secundaria es C 2 , el costo total será
C nC 1
nmC 2
60
CONCEPTOS BÁSICOS DE MUESTREO
ˆ ) en (7.6) De aquí, los valores de n y m óptimos, esto es, los que minimizan V ( Y manteniendo el costo fijo C 0 , son:
C 1 / C 2
*
m M S W
1
(7.7)
S b2 M * S w2 2
Nótese que el número de unidades secundarias a muestrearse en cada unidad primaria será mayor si S 2 es mayor, o si el costo por unidad primaria es mayor, o el W
costo por unidad secundaria es menor, o bien si S 2 es menor. Con el valor de m se b obtiene el de n:
n
C 0 C 1
C 2 m
(7.8)
Nótese que para estimar el promedio de toda la población o promedio por el Y , es necesario el conocimiento de los valores M i para todas elemento Y e N i
M i
1
las unidades; esto no siempre es factible, por lo que se debe usar el llamado “estimador de razón”. Tal caso se discute a continuación.
61
CONCEPTOS BÁSICOS DE MUESTREO 8. Estimadores de razón (bajo “mas”) Se considera que a cada unidad U i de la población se le asocian dos variables numéricas Yi y X i y además cuando se tiene conocimiento “a priori” de que la razón entre una y otra variable es bastante estable en toda la población, se puede usar este conocimiento para construir mejores estimadores. Recordemos que en una estrategia de muestreo siempre se debe especificar la forma de tomar la muestra, así como la manera de generar el estimador (en este caso de razón) para poder saber cuál es la distribución del estimador. En la población P={u1…uN } se determinan dos mediciones para cada unidad Y (u )=Y i i y X (u )=X i i, además los valores de X i se conocen o bien se conoce el total sin advertir los valores individuales. En el primer caso los valores de X i forman parte del marco. Hay dos usos para los estimadores de razón: Caso I
Se quiere conocer Y o Y bajo el supuesto Y i
X i y que se conoce X , X , no
nos interesa R pero lo estimamos para conocer Y . Se supone que existe el valor desconocido N ∑ Y i Y Y R i 1 N X X ∑ X i i 1
∴ Y RX , Y R X Un estimador de Y , con base en una muestra “mas”, donde se determinan valores {( x1 ,y1), ( x2, y2), … ,( xn ,yn) } es: n
ˆ Y
∑1 y
i
i n
∑1 x
X Rˆ X
(8.1)
i
i
62
CONCEPTOS BÁSICOS DE MUESTREO
ˆ Y
ˆ Y N
Rˆ X
donde
n
Rˆ
y x
∑ yi
i n1
∑ xi
i 1
En la siguiente figura podemos observar gráficamente la representación del error de estimación, es decir, la falta de representatividad.
Y i X Y i α i
Y i RX i
Y ε i
y
Y i
ˆ Y i
Y i Rˆ X i
error
x
X i
X
La tasa de error conocida es
X x
, esta tasa se aplica al estimador y . Es decir, si
X x
es digamos 1.2, se tiene una sobreestimación de 20%; ésta se aplica a y . Así, en
ˆ
general Y y
X x
Rˆ X , y también
Y RX
Caso II
Hay ocasiones en donde las X i no se conocen y sin embargo se quiere estimar R, ˆ dado que R es de interés por si mismo, entonces se usa R
y . x
En estos dos casos, conocer las X i y usarlas para estimar el valor desconocido de Y o Y , o no conocer las X i pero querer estimar R, se basan en los mismos desarrollos teóricos, sobre las propiedades distribucionales de R .
63
CONCEPTOS BÁSICOS DE MUESTREO El estimador de R, con base en una muestra obtenida por “mas” es : n
∑1 y
i
ˆ R
i n
∑1 x
y x
y resulta ser sesgado. El promedio de los posibles valores de Rˆ al
i
i
R , muestreo no es es decir E ( Rˆ ) ≠ R, ∴ B( Rˆ ) E ( Rˆ ) − R ≠ 0 , sin embargo sí está bastante cerca de R. Resulta ser un estimador consistente, lo que quiere decir es que si n se hace grande repetir
muchas
veces
el
Rˆ se acerca a más y más R, es decir, lim Rˆ R . E( Rˆ ) es el valor del promedio n →∞
señalado, entonces se puede demostrar Raj (1968) la siguiente desigualdad:
CV ( x ) [V ( Rˆ )]
E ( Rˆ ) R
1
2.
O bien (sesgo de Rˆestandarizado),
E ( Rˆ ) R
CV ( x )
1
[V ( Rˆ )] 2
El lado izquierdo es el sesgo de Rˆ dividido entre su desviación estándar. El lado derecho es el coeficiente de variación de x , de manera que lo que se hace usualmente es tomar la muestra de modo que frecuente es hacer que muestra se obtiene de:
CV ( x ) sea de 0.1 o menor. En este caso el tamaño de 1
CV ( x )
CV ( x ) sea pequeño. Un valor
0 .1
n
2 S X
N
n
X
de donde:
n
1
2
1
1
1
n
N X
1 2
2
(0.1) X
1
2 S X
N
2
S X
,
(8.2)
Para ver el efecto del sesgo en la probabilidad de cobertura de los intervalos de confianza, obsérvese que si
(
I θ ˆ − 1.96 V (θ ˆ ) , θ ˆ + 1.96 V (θ ˆ )
)
64
CONCEPTOS BÁSICOS DE MUESTREO entonces
B (θ ˆ )
P [θ I ]
V (θ ˆ )
0.00 0.01 0.10 0.50 1.00
.9500 .9500 .9489 .9210 .8300
ˆ R ˆ X se busca mantener fijo, a un nivel bajo, el En la estimación de Y , mediante Y error cuadrático medio; esto es, el promedio de los errores de estimación que se ˆ . cometen al efectuar muchas veces el muestreo y obtener muchos estimadores Y ˆ es: La expresión aproximada para el error cuadrático medio de Y
1 ECM (Yˆ ) X 2 ECM ( Rˆ ) ≅ N 2V ∑ (Yi − RX i ) N 2V (ε ) n
n
i 1
N 2 n 1 − ( S y2 + R 2 S x2 − 2 R ρ S x S y ) n N
(8.3)
n 1 N 2 1 − ( S y2 + R 2 S x2 − 2 RS x y ) , n n donde
1 1 n N (Y i − RX i ) ˆ ECM ( R ) 2 1 − ∑ X n N i 1 N − 1 S y2
N
∑
1
i 1 N − 1
(Y i − Y ) 2 , R
S xy
1
1
2
S x
Y
Y
X
X
N
N
1i
1
2
( X i
X ) 2 ,
,
N
∑ (Y i − Y )( X i − X )
N − 1 i 1
65
CONCEPTOS BÁSICOS DE MUESTREO ρ = es el coeficiente de correlación entre X i y Y i que es:
covarianza de X y Y N
N
)(Y − Y ) ∑ (X − X i i 1 i N N ) 2 ∑ (Y − Y ) 2 ∑ (X i − X i 1 i 1 i
ρ
)(Y − Y ) ∑ (X − X i i 1 i N N N ∑ (X − X ) 2 ∑ (Y − Y ) 2 i 1 i i 1 i
N N
2 σ x
ε i V (ε i )
,
Y i RX i
V (Y i RX i )
2 σ y
ε i
V (Y ) R 2V ( X ) S y2 R 2 S x2
yi Rˆ xi
2 RCov(Y i , X i )
2 R ρ S x S y
En la práctica se debe estimar R y a los n elementos de la muestra asociarles n V ( ε i ) ε ˆi Y i Rˆ X i para obtener ε ⇒ V ( ε ) 1 − N n Si se quiere mantener el ECM ( Y ˆ ) igual a una constante E 0 =
δ 2
( 1.96 )
2
el tamaño de
muestra es:
1
n
1 1
E 0
N 2 (S y2 R 2 S x2
2 R ρ S x S y ) N
δ 2
1
(1.96) 2 S ε 2
(8.4)
δ 2
(1.96) 2 S ε 2 N 2 N
S 2 ε
δ es el error máximo de estimación para conocer Y con Y ˆ Rˆ X Para usar (8.4) se requiere estimar con una prueba piloto o bien con consideraciones a priori , los valores de
S y2 , S x2 , R, y ρ ==
ˆ ) se obtiene mediante: El estimador de ECM( R ˆ2 S 1 n ε ˆ M ( Rˆ ) 1 E C − 2 X
N n
(8.5)
donde
66
CONCEPTOS BÁSICOS DE MUESTREO
1 Sˆε 2
n
2 ˆ ˆ i ∑ ( yi − RX i ) , ε ˆi yi − Rx
n − 1 i 1
Así un intervalo de confianza aproximado para el total de la población, Y , es:
ˆ Y P [ Y
[
ˆ P Y
δ ] 0.95
ˆ M (Y ˆ ) Y Y ˆ 1.96 E C ˆ M (Y ˆ ) ] 0.95 1.96 E C δ
δ
Este es un intervalo de confianza aproximado. En la práctica la aproximación es bastante buena, si para el tamaño de muestra se usó una n que cumpliera con (8.2) además de cumplir con (8.4). Esto es, se usan expresiones (8.2) y (8.4) y se selecciona el tamaño de muestra mayor. Para usar el estimador de razón es fundamental considerar que Y i es proporcional a X i; esto es, que la relación entre esas dos variables sea del tipo señalado en la figura siguiente:
Y i Aproximadamente
Y i
RX i
X i El caso más frecuente es cuando X i es la misma variable que Y i, pero medida en una ocasión anterior. Algunos ejemplos de variables X i y Y i que se usan para construir estimadores de razón, son: Unidad de muestreo
Predios agrícolas Ciudades o pueblos.
Variable X i
Tamaño del predio en hectáreas. Población en el censo anterior.
Variable Y i
Objetivo a estimar
Producción de café, Y producción total maíz, etcétera. Población actual Y población total
67
CONCEPTOS BÁSICOS DE MUESTREO Familias Distritos de ventas Casas habitación Animales para consumo de su carne Área de 1km2 de bosque
Ingreso mensual
Gasto en alimento
Ventas de un producto 3 meses antes Número de habitantes en la casa
Ventas actuales Número de habitaciones
Peso inicial de un Peso final periodo de engorda Conteo de árboles en una fotografía
Y X
R =
Y total de ventas
actuales
Y X
R=
Y peso del hato
Conteo real de árboles en el campo Y total de árboles
Si se tiene mala proporcionalidad en toda la población se puede y debe estratificar,
Y ih ∝ X ih , Y ih Rh X ih , utilizando estimadores de razón en cada estrato; las R pueden cambiar mucho de un estrato a otro. h para logra que
El estimador de razón resulta mas preciso que el estimador usual en “mas”, si se cumple que:
ρ
CV ( x )
2CV ( y )
Sin embargo, puede tomarse una ρ =muy grande y que no funcionen bien los estimadores de razón; en caso de que la relación entre X i y Y i sea:
Y i
a X i En la figura existe alta correlación entre las variables pero no una buena proporcionalidad entre ellas. Si a es “grande” el estimador de razón no es
68
CONCEPTOS BÁSICOS DE MUESTREO adecuado, no hay proporcionalidad entre X i y Y i . Es la proporcionalidad entre X i y Y i la que se requiere para el buen uso de los estimadores de razón.
Estimadores de diferencia.- Si se supone que se conoce el valor de a , se cambia el eje de las ordenadas y se recobra la proporcionalidad.
Así el estimador por diferencia, donde se supone que a es conocida, es:
Y i- a
(Y ˆ − a) X y x− a y a ˆ Y X a
X i
x
Regresando al caso de muestreo por conglomerados y/o de etapas en donde no se conocen los valores de las M i, ni los tamaños (en número de unidades secundarias) de todas las unidades primarias en la población, entonces en este caso no se conoce el número total de unidades secundarias. Para estimar el promedio de los Y , es necesario estimar el numerador y el denominador. valores de Y ij, Y e N M i
i 1
Esto toma la forma de un estimador de razón.
N n M i y i ˆ e n i 1 Y N n M i n i 1
∑
n
mi
y ij
j
i
∑1 M ∑1 m i
i
∑
(8.6)
n
∑1 M
i
i
Para motivos de cálculo es mejor utilizar la siguiente expresión equivalente: mi
n
ˆ Y e
N M i
∑∑ 1 1 n i
j
n
mi
mi
N M i
∑∑ 1 1 n i
j
yij
mi
n
mi
i
j
W y ∑∑ 1 1 ij
n
ij
mi
W ∑∑ 1 1
ij
i
j
donde W ij son los factores de expansión.
69
CONCEPTOS BÁSICOS DE MUESTREO Un estimador del ECM de este estimador es:
n ˆ wi2 m S n 1 1 2 2 ˆ i ˆ M V ˆ (Y e ) 1 − ˆ y + E C S M 1 − ∑ 2 2 ˆ ˆ N M n M i mi n M N i 1 i
(8.7)
Donde n
n
ˆ
M
i
M i
1
ˆ wi2 se definió en (7.1). S
ˆ y2 S
,
n
(
∑ M yi − Y ˆe i 1
2
i
)
2
n −1
De manera que un intervalo de confianza al 95% aproximadamente para
ˆ 1.96 V ˆ (Y ˆ ) P Y e e
1
2
δ
ˆ 1.96 V ˆ (Y ˆ ) Y e Y e e
1
2
Y e es
0.95
δ
al fijar δ e ignorar la segunda parte de (8.7) se puede obtener n (número) de unidades primarias.
70
CONCEPTOS BÁSICOS DE MUESTREO 9. Estimadores de regresión (selección de la muestra por “mas”) Cuando se tiene información sobre la variable X i en todas las unidades de la población y no hay proporcionalidad entre X i y con buena aproximación como
Y i, esto es Y i no se puede expresar
Y i RX i , no se deben usar estimadores de razón,
sin embargo, si la relación entre Y i y X i es del tipo de la primera figura de abajo, esto es que se pueda representar aproximadamente como Y a bX , entonces i
i
esta información se puede incorporar en la construcción de estimadores de regresión. La idea fundamental de los estimadores de regresión es que si se conoce X y el valor de b, se puede conocer Y . Se sabe que si la relación de X i y Y i es representable adecuadamente por Y a bX , entonces se tendrá que i
Y
b X .
a
i
También de modo aproximado y
a
b x . Es decir los puntos
( X , Y ) y ( x, y ) están sobre la recta. Si la figura de la asociación entre X i y Y i es: Y i
θ
b = tan θ
b( x X )
b=
y − Y
x − X b( x − X ) = y − Y
y Y a
ˆ
X
x
Y = y − b( x − X )
X i
r *
erro
* Error de estimación de X con x que es conocido.
estimar Y ,
Para
consideremos
que
Y
se
compone
de
dos
Y y
b( x X ) .
y
b x ; sin embargo, esto no se cumple exactamente porque tanto x
y
a
partes
El valor de Y sería exacto si se cumpliera exactamente que como
están sujetas a fluctuaciones aleatorias originadas por el proceso de muestreo,
de igual manera se debe estimar el coeficiente de regresión, de modo que en realidad se tiene un estimador
ˆ = y − b( x − X ) Y
(9.1)
71
CONCEPTOS BÁSICOS DE MUESTREO Para estimar el total se tiene:
ˆ
ˆ N Y N y Y
b( x X )
(9.2)
Es difícil encontrar expresiones exactas para la varianza o los errores cuadráticos medios (son sesgados) de estos estimadores, pero son consistentes. Sin embargo,
si n es “grande”, además de ignorar el factor de corrección por finitud 1 −
n , se N
tiene
S y2 (1
ˆ
V (Y ) Donde ρ
ρ 2 ) n
X y Y . Además
1
2
S y
N
1i
N
Y ) 2
( Y i
1
Si se estiman estos dos parámetros por
ˆ y = S 2
1
n
∑ ( y n −1 1
i
− y ) 2
y
i=
n
∑ i=1
ˆ= ρ
( xi − x)( yi − y) n −1 n −1
n
( xi − x )2
i =1
n −1
∑
n
∑ i =1
( yi − y)2 , n −1
ˆ ) y con él se podrán construir intervalos de se obtiene un estimador de V ( Y confianza para Y o para Y . Si
se
ˆ p | Y
especifica
una
δ para el error de estimación en Y , esto es
Y | δ 1 α , se obtendrá que el tamaño de muestra adecuado es
n=
(
z α 2 / 2 S y2 1 − ρ 2
δ 2
)
.
72
CONCEPTOS BÁSICOS DE MUESTREO 2
ρ = 0.49 casi 0.5, lo que implica que el tamaño de Nótese que si ρ muestra se reduce a la mitad si se usa la estimación por regresión, comparado con no usarla. Recuerde que aproximadamente en el “mas” que estima Y con y , se tiene n =
Zα 2 / 2 S y2 δ 2
.
Si se desea mantener un coeficiente de variación fijo igual a CV 0, se tiene 1 2
[V ( Y ˆ )] CV = 0
Y
, de aquí se despeja n y se obtendrá: n=
Sy 2 (1 − ρ 2 ) 2
Y 2 (CV 0 )
73
CONCEPTOS BÁSICOS DE MUESTREO 10. Muestreo sistemático (con arranque aleatorio) Cuando la población se identifica en el marco de un modo aleatorio, esto es, cuando los valores Y i de los elementos de la población no presentan ninguna regularidad en el marco, es más fácil obtener la muestra usando muestreo sistemático. En este caso la muestra se considera igual a la extraída por “mas”. El muestreo sistemático consiste en dividir la población de N unidades en n subgrupos ordenados y tomar un elemento de cada subgrupo. Conjunto Conjunto de unidades poblacionales i; i=1,...,N, ordenadas en n renglones de tamaño
k . Se obtiene k como el cociente
N n
k
.
= N
n
∴
kn = N
i
1
2
...
i
...
k
1
1
2
...
i
...
k
2
1+k
2+k
...
i+k
...
2k
3
1+2k
2+2k
...
i+2k
...
3k
j
1+( j-1)k
2+( j-1)k
... ...
i+( j-1)k
... ...
jk
n
1+(n-1)k
2+(n-1)k
... ...
i+(n-1)k
... ...
nk
El muestreo sistemático procede al tomar al azar un número entre entonces los elementos de la muestra son:
1
y
k , sea i
u ,i ui+k , ui+2k ,...,ui+(n-1)k Para fines de estimación se tiene que la probabilidad de seleccionar en la muestra cualquier elemento o unidad U i es :
(
i = P U i
π
)=
1
=
n
K N
El arranque es aleatorio ya que se toma un número entre
P (U i ) =
1 K
∀i =
1
y
k con probabilidad
1.... N
En caso de que N no sea divisible exactamente entre
n, se procede igual y
habrá muestras de tamaño n y otras de tamaño n+1. El siguiente es un ejemplo:
73
CONCEPTOS BÁSICOS DE MUESTREO
N = 14,
n=3
N = nk + cte. ⇒
N = 3k + 2
∴
k = 4
Se toma un número entre 1 y k U 1
←
U 2 U 3 U 4 U 5
←
conglomerado
1 2 3 4
muestra
(U 1 , U 5 , U 9 , U 13 ) (U 2 , U 6 , U 10 , U 14 ) (U 3 , U 7 , U 11 ) (U 4 , U 8 , U 12 )
U 6 U 7 U 8 U 9
←
U 10 U 11 U 12 U 13
←
U 14 Un ejemplo de muestreo sistemático: se va a investigar el ingreso en las familias de los estudiantes de una facultad. Se tiene la lista en orden alfabético por apellido. Si se considera que el nombre no tiene ninguna relación con el ingreso en pesos de la familia, se puede usar el muestreo sistemático y se considerará como una muestra aleatoria irrestricta (“mas”). Cuando la población está en un orden aleatorio en lo que respecta a los valores Y i, se usa el muestreo sistemático para facilitar la extracción de la muestra. El muestreo, en este caso, es equivalente al muestreo aleatorio irrestricto y se usarán por lo tanto las mismas expresiones para estimar la media Y o el total de la población Y como se hizo con “mas” , expresiones (5.1) y (5.2) (sección 5). Cuando la población está ordenada con relación a los valores de Y i, con tendencia a cambiar paulatinamente dichos valores, el muestreo sistemático produce varianzas de los estimadores menores que con el método “mas” ver gráfica. Esto se debe a que la muestra queda más dispersa sobre la población. Se asegura que la muestra sea más representativa. Un ejemplo de esta situación es el que ocurre cuando se va a muestrear ramas de un árbol para evaluar su producción de frutos (caso del café). Si existe una tendencia de la producción a tener valores mayores en las ramas más bajas, el muestreo sistemático asegura que en la muestra aparezcan ramas de todas las alturas del árbol.
74
CONCEPTOS BÁSICOS DE MUESTREO
L a muestra consiste de: Una rama de esta z ona
Valores mayores de Y i
Una rama de esta z ona
Una rama de esta z ona
Zona de nivel económico medio Zona de bajo nivel económico
Zona de nivel económico medio-alto
Zona de nivel económico alto
Otro ejemplo donde sucede esto es en algunos muestreos de viviendas, donde es posible numerar las “manzanas” o cuadras iniciando en colonias (urbanizaciones) de bajo nivel económico, pasando gradualmente a niveles económicos altos. Las flechas indican el orden de numeración.
75
CONCEPTOS BÁSICOS DE MUESTREO Si la característica medida produce valores Y i, que dependen del nivel económico, se tiene una población ordenada y el muestreo sistemático produce varianzas menores que “mas”. No hay expresiones válidas para estimadores y varianzas de estimadores cuando se usa el muestreo sistemático en poblaciones que no tienen orden aleatorio. Al usar el muestreo sistemático en poblaciones ordenadas, se pueden utilizar las expresiones para el “mas” como una aproximación, y se sabe que en realidad las varianzas serán menores (resulta un método conservador). Si la población tiene un orden que se refleja en cambios periódicos de los valores de Y i, el muestreo sistemático puede producir varianzas mayores. En este caso el problema es que la muestra puede coincidir con valores todos bajos (altos) de Y i, siendo de esta manera poco representativa y con fluctuaciones fuertes de muestra a muestra.
Y i
Orden en la población de las unidades
X i Muestra de valores altos.
Esto puede suceder cuando la población consiste en los volúmenes de ventas de una tienda en un periodo de tiempo. Otro ejemplo es en el muestreo de plantas cultivadas (maíz, trigo, etcétera) en donde ciertas áreas del terreno se riegan en un día determinado y otras áreas otro día. En resumen el muestreo sistemático es una herramienta delicada que puede ser mejor, igual o peor que “mas”.
Población (relación de los valores de Y con el orden en el marco) Aleatoria Con orden creciente o decreciente. Con orden periódico
El muestreo sistemático es: Igual que “mas” Mejor que “mas” Peor que “mas”
76
CONCEPTOS BÁSICOS DE MUESTREO La tabla 1 muestra diez posibles muestras sistemáticas y el total de cada una de ellas, con un orden creciente en los valores de Y . Tabla 1.
r
y k
t s r
1 1 11 21 31 41 51 61 71 81 91
2 2 12 22 32 42 52 62 72 82 92
3 3 13 23 33 43 53 63 73 83 93
4 4 14 24 34 44 54 64 74 84 94
5 5 15 25 35 45 55 65 75 85 95
6 6 16 26 36 46 56 66 76 86 96
7 7 17 27 37 47 57 67 77 87 97
8 8 18 28 38 48 58 68 78 88 98
9 9 19 29 39 49 59 69 79 89 99
10 10 20 30 40 50 60 70 80 90 100
460
470
480
490
500
510
520
530
540
550
7 7 14 27 34 47 54 67 74 87 94
8 8 13 28 33 48 53 68 73 88 93
9 9 12 29 32 49 52 69 72 89 92
10 10 11 30 31 50 51 70 71 90 91
()
= En este caso, V si Y
y
( ) = 7.57(10 ).
ˆ V mas Y
5
La tabla 2 muestra un orden óptimo de las unidades. Tabla 2.
r
y k
t s r
1 1 20 21 40 41 60 61 80 81 100
2 2 19 22 39 42 59 62 79 82 99
3 3 18 23 38 43 58 63 78 83 98
4 4 17 24 37 44 57 64 77 84 97
5 5 16 25 36 45 56 65 76 85 96
6 6 15 26 35 46 55 66 75 86 95
505
505
505
505
505
505
505
505
505
505
( ) =
Se observa V si Y
77
CONCEPTOS BÁSICOS DE MUESTREO La tabla 3 muestra un orden adicional. Tabla 3.
r
y k
1 1 2 3 4 5 6 7 8 9 10
2 11 12 13 14 15 16 17 18 19 20
t s r
55
155
3 21 22 23 24 25 26 27 28 29 30
4 31 32 33 34 35 36 37 38 39 40
255
5 41 42 43 44 45 46 47 48 49 50
6 51 52 53 54 55 56 57 58 59 60
7 61 62 63 64 65 66 67 68 69 70
8 71 72 73 74 75 76 77 78 79 80
9 81 82 83 84 85 86 87 88 89 90
10 91 92 93 94 95 96 97 98 99 100
355
455
555
655
755
855
955
9 6 77 99 20 57 85 61 63 64 52
10 53 84 9 54 5 83 92 97 29 4
( ) = 8.25(10 ) .
ˆ Se observa V si Y
6
La tabla 4 presenta a las unidades ordenadas en forma aleatoria. Tabla 4.
r
y k
t s r
1 48 38 10 17 56 73 3 74 75 49
2 14 23 51 26 79 7 28 37 41 42
3 71 11 98 8 31 80 33 44 16 15
4 13 58 65 78 86 27 90 94 82 19
5 40 70 93 34 43 60 55 12 35 46
6 59 22 68 87 66 89 1 72 95 36
7 18 24 25 96 2 76 21 100 67 47
8 45 88 32 39 62 81 69 30 50 91
443
348
407
612
488
595
476
587
584
510
( ) = 7.17(10 ) similar a V (Y ˆ ) = 7.57(10 ).
ˆ Se obtiene V si Y
5
5
mas
78
CONCEPTOS BÁSICOS DE MUESTREO La tabla 5 muestra otro orden óptimo de las unidades. Tabla 5.
r
y k
t s r
1
2
3
4
5 10 30 50 70 90 91 71 51 31 11
6 12 32 52 72 92 89 69 49 29 9
7 14 34 54 74 94 87 67 47 27 7
2 22 42 62 82 99 79 59 39 19
4 24 44 64 84 97 77 57 37 17
6 26 46 66 86 95 75 55 35 15
8 28 48 68 88 93 73 53 33 13
505
505
505
505
505
505
505
8 16 36 56 76 96 85 65 45 25 5
9 18 38 58 78 98 83 63 43 23 3
10 20 40 60 80 100 81 61 41 21 1
505
505
505
( ) = , V (Y ˆ ) = 7.57(10 ).
Se obtiene V si Y
5
mas
79
CONCEPTOS BÁSICOS DE MUESTREO
11. Muestreo con probabilidades proporcionales al tamaño con reemplazo
Cuando en el marco se tiene información sobre una medida de las unidades ( X i) que tiene relación de tipo proporcional con la medida que nos interesa Y i, que es desconocida, esta información se puede usar para construir estimadores de razón. Otra forma de usar ventajosamente esta información es asignando probabilidades desiguales y proporcionales a X i para la unidad ui. Para asignar probabilidades desiguales en el muestreo sin reemplazo, se requiere conocer, en la construcción de estimadores y sus varianzas, las probabilidades de que se incluya cada unidad en la muestra. Este es un problema teórico muy difícil y no se ha llegado a una solución satisfactoria (casos especiales útiles se encuentran en Raj (1968)). La manera más fácil de usar probabilidades desiguales, proporcionales al tamaño (el valor de X i) es usando muestreo con reemplazo. Se sabe que es más eficiente, es decir produce varianzas menores hacerlo sin reemplazo; sin embargo las expresiones para las varianzas requieren probabilidades, de selección de pares de variables muy laboriosas de calcular. Por esto es ampliamente usado el p.p.t con reemplazo, que es mucho mas simple. Se denominará muestreo p.p.t. con reemplazo o p.p.t . La forma para extraer la muestra en este esquema de muestreo es la siguiente:
81
CONCEPTOS BÁSICOS DE MUESTREO
1. Se obtienen los valores de X i, acumulados en un orden arbitrario. 2. Se obtiene un número aleatorio entre 1 y X ( X es el total conocido para los valores de X i ). 3. Se ve a qué unidad corresponde el número extraído en el punto 2, y esa unidad se selecciona en la muestra. 4. Se repite el proceso a partir del punto 2, independientemente del resultado de las extracciones previas, hasta completar la muestra de tamaño n.
82
CONCEPTOS BÁSICOS DE MUESTREO
Los pasos 1 a 3 constituyen la extracción de una unidad de la población. Unidad de la
Tamaño
Tamaño acumulado
Intervalo
u1
X 1
X 1
(1 , X 1)
u2
X 2
X 1 + X 2
( X 1+1 , X 1+X 2)
población
u3
X 3
X 1 + X 2 + X 3
…
…
…
( X 1+ X 2+1 , X 1+X 2+X 3) … ( X 1+ X 2+…
ui
X i
X 1 + X 2 + + X i
+ X i-1+1 , X 1+X 2+…+X i)
…
…
…
…
u N −1
X N −1
X 1 + X 2 + + X N −1
u N
X N
X 1 + X 2 + + X N
Total
X
Si el número aleatorio está entre X + X y X + X + X se selecciona la unidad u3. Nótese que algunas unidades pueden aparecer varias veces en la muestra. La probabilidad de la unidad en una extracción es 1
P i =
X i X
2
1
2
3
.
Ejemplo: Universidad
Tamaño
Tamaño Acumulado
Intervalo
P i
83
CONCEPTOS BÁSICOS DE MUESTREO UAM
50,000
50,000
(1,50)
50/700
UdeG
150,000
200,000
(51,200)
150/700
UNAM
400,000
600,000
(201,600)
400/700
UABC
50,000
650,000
(601,650)
50/700
UACH
50,000
700,000
(651,700)
50/700
P (UNAM)=400/700
P (UAM)=50/700
Con este procedimiento, un estimador del total de la población, Y , es: X n yi ˆ Y n i 1 xi
n
z i
i 1
n
(11.1)
z
Para encontrar las propiedades distribucionales, considere que a cada elemento de la población se le asocia un valor Y Y Z = = X , al tomar la muestra los valores P X i
i
i
i
i
obtenidos serán
z i =
yi P i
; el conjunto
z 1 , z 2 ,..., z n
se
constituye con variables aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.). La probabilidad P 1 de elegir en la primera extracción la unidad i-ésima, es decir que el valor de z 1 sea Z i es P ( z 1 = Z i ) =
X i X
;
i = 1... N
la probabilidad P j de elegir en la j-ésima extracción a la unidad i-ésima, es decir que el z j de la muestra sea el Z i de la población es 84
CONCEPTOS BÁSICOS DE MUESTREO
P ( z j = Z i ) =
X i X
i = 1... N
;
Así sucesivamente hasta la probabilidad P n de elegir en la n-ésima extracción la unidad i-ésima, es decir que z n sea igual a Z i es P ( z n = Z i ) =
X i X
; i = 1... N
En general se usan minúsculas para denotar los valores en la muestra para X i y Y i, es decir (y1...yn ) y (x1...xn ) son los valores de Y i y de X i en las unidades de la muestra (algunas repetidas). Las expresiones para la esperanza y la varianza de z j son las siguientes: N
N
N
Yi X i E ( z j ) = Zi P ( z j = Zi ) = Zi = = X X X i =1 i =1 i =1 i X Cada z estima al total y .
∑
∑
2
V ( z j ) = σ z = E z j − E ( z j ) = 2
X i
∑
N
∑ ( Zi − Y )
2
i =1
N
∑1 Y i=
i
=Y
P ( zj = Zi ) =
N
X i
∑ ( Zi − Y )2 i =1
X
2
2 N N Xi Y i Y Yi = ∑ −Y = ∑ − X i X X X = i =1 X i i 1 i X X
La varianza teórica del estimador del total N
2
Y i Y 1 2 − = V ( z ) = V (Yˆ ) = X ∑ i X X n σ z n i =1 i X
es:
z = y
(11.2)
85
CONCEPTOS BÁSICOS DE MUESTREO
Nótese que si se tiene una proporcionalidad perfecta entre los valores de Y i y X i, entonces Y i k X i
para toda i.
kX i ,
Y i
N i 1
N
Y i
k i 1
X i
,
esto es, se tiene
Y
de donde k = X = R . De modo que en este caso
Y kX ,
Y i
Y
X i
X
0
para toda
i , entonces V (Y ˆ ) 0 . A con proporcionalidad perfecta la varianza de Y ˆ es cero; lo que implica que Y ˆ sea igual a Y . Cuando la proporcionalidad no es perfecta pero sí bastante aproximada, el valor de Y ˆ estará muy cerca de Y . Esto es, la varianza V (Y ˆ ) será un valor cercano a cero. La manera de estimar V (Y ˆ ) es usando: yi 1 n yi ˆ ˆ ˆ V ( z ) V (Y ) ∑ − ∑ n n(n − 1) i =1 xi n i =1 xi 2
ˆ Z σ
2
X
n
2
(11.3)
también n
∑ ( z − z ) 1
2
i
ˆ ( z ) V ˆ (Y ˆ ) 1 σ ˆ 2 i 1 V z n n n −1 Considerando que Y ˆ tiene distribución
normal y además, si se quiere tener P [| Y ˆ − Y |< δ ] 1 − α , el tamaño de muestra, para un error de muestreo δ = 1 − α , usando muestreo p.p.t . con reemplazo es:
86
CONCEPTOS BÁSICOS DE MUESTREO
N Y Y 2 Z α 2 / 2 X ∑ X i i − i =1 X i X Z α 2 / 2σ z 2 n= = 2 2 δ
(11.4)
δ
Para usar esta expresión es necesario conocer en una encuesta previa o piloto el valor X X Y Y , 2
N
i 1
i
i
X i
X
lo más conveniente es utilizar su estimador que es la expresión: 2
2 z
ˆ σ
n
X
n 1i
1
yi
1
xi
n i 1 xi
n
yi
2
(11.5)
De manera alternativa n
∑ ( z i − z ) 2
2
σ ˆ z
= i =1
n −1
Si se quiere tener un coeficiente de variación para 1
ˆ 2 ˆ Y , CV (Y ˆ ) = [V (Y )] , de un valor fijo CV 0, sin suponer la Y
distribución normal para los posibles valores de Y ˆ , se usa como tamaño de muestra: Y Y X ∑ X i i − i =1 X i X n= N
(CV 0 ) 2 Y 2
2
(11.6)
El numerador de (11.6) se estima con (11.5). El muestreo p.p.t. es muy útil para la selección de UPM en muestreos polietápicos.
87
CONCEPTOS BÁSICOS DE MUESTREO
12. Muestreo con probabilidades de selección arbitrarias y sin reemplazo Este es el procedimiento más general y los diseños de muestra discutidos son casos particulares de este esquema. Para este diseño se tienen las expresiones siguientes, que corresponden a los estimadores de Horvitz-Thompson (ver Raj (1968), Overton, W., S. Stehman (1995)).
πi = P(U i esté en muestra ) πij = P(U i y U j estén en muestra ) Entonces el estimador consistente del total de los valores de Y en la población es: y ∧
Y T y ∑ ∧
n
i
i
π i
A
1 π i
wi
, i=1,...,n,
se les llama “Factores de
Expansión”. La varianza “teórica”, es decir, en la población de todos los posibles valores de T es: ∧
y
N N π − π π ∧ N Y i2 ij i j ∑ Y iY j ( V T − π ) + ∑∑ 1 i y π iπ j i 1 π i i j
Un estimador consistente de esta varianza es:
86
CONCEPTOS BÁSICOS DE MUESTREO n n (π − π π ) Y j ∧ n 1 − π i 2 ij i j Y i Y i + 2∑∑ V T Y ∑ 2 π π π i ≠ j j ij i j i 1 π i
∧
Los valores de muestra son:
πι
y
π ij
para algunos diseños de
a) En “mas”
π i
n
π ij
N
b) Con estratos y “mas” nh nh (nh − 1) π π ih ijh N h N h ( N h − 1) estrato π
ihjh ´
π π
jh ´
ih
n(n − 1) N ( N − 1)
i y j en el mismo
i y j en diferentes estratos
c) Sistemático Con intervalo de selección k k
N
π
ij
n
1
si U i y U j son tales que j=i+k
k π ij
0 =de otro modo
d) “ppt” con reemplazo π i
n
X i X
ˆ T ˆ y Y
X n
n
Y i
i
i
∑ X
87
CONCEPTOS BÁSICOS DE MUESTREO
Cualquier función continua lineal de parámetros se estima de modo consistente con la misma función de los estimadores H-T de esos parámetros. Se conserva la representatividad. 12.1 H-Tn2.3 Evaluación de las probabilidades de selección con PPT sin reemplazo. Esto es muy usado en el caso de muestreos bietápicos con estratos de modo que de cada estrato se toman pocas UPM, digamos dos o 3. Esquema A de Raj. Pag 132-133. π es la probabilidad de que la Unidad i-ésima este i en la muestra π es la probabilidad de que las unidades i y j i j estén ambas en la muestra El esquema usa estimadores de Horvitz- Thomson. Sea Ti el total estimado de la UPM i-ésima y 2 2 σ V (T i ) , con σ ˆ i V ˆ (T i ) , estas expresiones se i obtienen con el esquema de muestreo de cada UPMi Entonces, si las se toman con n UPM probabilidades de selección dadas por π i y π i j , el estimador del total de la población es n
ˆ ∑ T i y su varianza teórica es: Y i 1 π i
88
CONCEPTOS BÁSICOS DE MUESTREO
ˆ) V (Y
2
2 N Y i Y j σ i − π ij ) − + ∑ . π π π 1 i i j i
N N
∑∑ (
π π
i ≠ j
i
j
j
El estimador de esta varianza es: 2
2 n π iπ j − π ij T i T j σ i − + ∑ ˆ (Y ˆ ) ∑∑ V π ij π i π j i 1 π i i ≠ j j n
n
Caso de ppt sin reemplazo Supóngase primero el caso de dos Unidades de Muestreo n=2, Sea Xi el tamaño de la unidad i-ésima, entonces P 1i
X i
N
∑ X
X i
P (U i en − 1a ) es
X
la probabilidad de que la
i
i
unidad i-ésima extracción. Y P 2i P (Ui / Uk )
se seleccione en la primera
X i N
∑ X
u
− X k
X i X − X k
es la probabilidad de
u ≠ k
que en la primera extracción este la unidad k ésima, diferente de i , y que aparezca la i -ésima en la segunda extracción, entonces π
π
i
i
P ( U i e n p rim e r a e xtra c c ió n ) + P ( U i e n s e g u n d a e xtra cc ió n )
P ( U i e n 1a ) + P ( U i e n 2 a )
89
CONCEPTOS BÁSICOS DE MUESTREO
P 1i +
π
i
N
∑1,
X k
k ≠i
P 2i
N
∑1 X
u
u
donde P (U i en 2 ) ∑ N P 2 i ∑ X X X − 1, ≠ 1, ≠ k i k i k ∑ X u N
N
X k
a
X k
X i
u 1
1a ) P (Ui en 1a )P(U j en 2a / Ui en
π
ij
1a ) +P (U j en 1a )P(Ui en 2a / U j en
π
ij
X j
X i
X X − X i
+
X j
X i
X X − X j
Caso con n=3 3 a ) , P (U i en 1a ) + P (U i en 2a ) + P(U i en
como ya se conocen los dos primeros términos, resta obtener el tercero. π
i
P (U i en 3 ) a
N
∑
) P (Uw yUu en 1a y 2 a )P (U i / Uw , U u
w ,u ≠ i N
∑
w.u ≠ i
{
X i
X j
X X − X i
+
X j
X i
X X − X j
}
X i
X − X w − X u
Para obtener la probabilidad de inclusión de 2º orden, se tiene: π
ij
P (Ui yU j en 1a y 2 a ) + P (Ui + P (U i
y U j en 1a y 3a )
y U j en 2a y 3a ) ,
90
CONCEPTOS BÁSICOS DE MUESTREO
El primer término de π i j es el calculado en el caso de n=2, Para el segundo termino de π i j , se tiene P (Ui y U j en 1a y 3a ) = P (U i en 1a y U j en 3a ) + P (Ui en 3a y U j en 1a ) P (U i en 1a y U j en 3a ) P (Ui en 3a y U j en 1a )
X i X X j X
∑( u ≠ i , j
∑( u ≠ i , j
X u X − Xi
)(
X u X − Xj
)(
X j X − Xi − X u
)
X i X − X j − X u
)
Para el tercer termino de π i j se tiene P(U i y U j en 2a y 3a ) = P (Ui en 2a y U j en 3a )
+ P (U i X i X − X u N X X j a a P (Ui en 3 y U j en 2 ) ∑ u u ≠ i , j X X − X u X P (Ui en 2 y U j en 3 ) ∑ u u ≠ i , j X N
a
a
Para la obtención final de tres términos, anteriores.
π i
j
en 3a y U j en 2a )
X j X X X − − u i X i X X X − − j u
se substituyen sus
12.2 Ajuste de Factores de Expansión Otra forma de buscar mayor cercanía entre frecuencias relativas de valores de variables importantes en muestra y en población, es decir, mayor representatividad, es ajustar los factores de expansión, los w 1 , para que, además de las i
π i
probabilidades de inclusión del diseño, tomen en 91
CONCEPTOS BÁSICOS DE MUESTREO
cuenta las proporciones poblacionales de variables categóricas de gran importancia teórica en las variables de estudio. A esto se llama postestratificación, aunque no es el término que se usa en muestreo doble (se discute después). Para esto se toman las proporciones que en la población hay, según fuentes externas, para el cruce de las variables categóricas. Sean P h, h=1,...,Q las proporciones en la población para cada estrato o cruce, con Q el número de estratos o cruces referido. Con los factores de expansión adecuados, según el diseño, se estiman, basándose en la muestra, el número de los elementos en cada postestrato h. El total estimado, por Horvitz-Thompson (H-T), de elementos en la población es N ∑W . Sea Y hi=1 1 ∧
n
i
i
si el elemento i de la muestra está en el estrato h, y 0 en caso contrario. El total de elementos en la población estimado por H-T en la categoría h es N h ∑W Y , entonces el número esperado de ∧
n
i
ih
i
elementos en h, en la muestra es
∧ ∧
M h
N h ∧
n
,
esto
N
equivale a n
n
ˆ h ∑W iY ih W ∑ W i Y hi , M i
i
W
donde
W i W
es el peso relativo y
n
W ∑ W n , los pesos o factores de expansión relativos i
i
reproducen la distribución de las variables de diseño en la población, pero en un conjunto del tamaño de la muestra. Con esto se encuentran las
92
CONCEPTOS BÁSICOS DE MUESTREO
proporciones muestrales corregidas por factores de expansión en cada postestrato como PM M ˆ , esta ∑ M ˆ h
h
h
h
es la distribución muestral corregida de esas categorías. Note que ∑ M h n . ∧
h
La distribución muestral se ajusta por las proporciones conocidas en la población, sean P h; produciendo un “factor de ajuste” FA P , es h
h
semejante a
X ∧
PM h
de los estimadores de razón.
X
Así, un valor de FAh de 1.2 indica que en la población hay 20% más elementos en el estrato h, que los estimados con la muestra. Uno de 0.95 significa que en el estrato h hay un 5% más estimado en la muestra que en la población. Finalmente, cada factor de expansión se ajusta, generando un peso ajustado: WAi FAhiW i
Para ejemplificar este ajuste o calibración, se toma del libro Lee, et. al .(1989) las siguientes tablas:
TABLE 3.1 Derivation of Poststratification Adjustment Factor: General Social Survey, 1984 Demographic Subgroups
Population Distribution (1) P h conocido
Weighted No. of Adults in Sample(2) ∧
M h Total estimado
Sample Distribution (3) M h PM h M h
∑ h
Adjustment Factor (1)/ (3)
FA
P h PM h
93
CONCEPTOS BÁSICOS DE MUESTREO White, male 24 yrs 25 - 34 35 - 44 45 - 54 55 - 64 65 & over White, female 18 - 24 25 - 34 35 - 44 45 - 54 55 - 64 65 & over Nonwhite, male 18 - 24 25 - 34 35 - 44 45 - 54 55 - 64 65 & over Nonwhite, female 18 - 24 25 - 34 35 - 44 45 - 54 55 - 64 65 & over Total
.0719660 .1028236 .0708987 .0557924 .0544026 .0574872
211 193 277 135 144 138
.0739832 .0676718 .0795933 .0473352 .0504909 .0483871
.9727346 1.5194460 .8907624 1.1786660 1.0774730 1.1880687
.0705058 .1007594 .0777364 .0582026 .0610057 .0823047
198 324 267 196 186 216
.0694250 .1136045 .0936185 .0682737 .0652174 .0757363
1.1555680 .8869317 .8303528 .8469074 .9354210 1.0867272
.0138044 .0172057 .0109779 .0077643 .0064683 .0062688
34 30 30 37 12 18
.0119215 .0105189 .0105189 .0129734 .0042076 .0063113
1.1579480 1.6356880 1.0436290 .5984774 1.5372900 .9932661
.0145081 .0196276 .0130655 .0094590 .0079636 .0090016
42 86 38 33 30 27
.0145081 .0301543 .0133240 .0115708 .0105189 .0094670
.9851716 .6509067 .9806026 .8174890 .7570769 .9508398
1.0000000
2852
1.0000000
*Based on noninstitutional population; Source: U.S. Bureau of the Census, "Estimates of the population of the United States, by age, sex, and race, 1980 to 1985," Current Population Reports, Series P25 (No. 985), April, 1986; derived from the estimated total population of 1984 (Table 1) adjusted by applying the ratio of noninstitutional to total population (Table At). TABLE 3.2 Comparison of Weighted and Unweighted Estimates in Two Surveys
94
CONCEPTOS BÁSICOS DE MUESTREO
Survey Variables I.General Social Survey (percent approving “hitting”) Overall By sex Male Female By education Some college High School Others II. Epidemiologic Catchment Area Survey (prevalence of mental disorders) Any disorders Anxiety disorders
Weighted Estimate
Unweighted Estimate
60.0
59.4
63.5 56.8
63.2 56.8
68.7 63.3 46.8
68.6 63.2 45.2
14.8 6.5
18.5 8.8
Dif 1.8
Dif 3.7
Nótese, de nuevo, se busca más representatividad en la muestra. Esto es parecido a la idea de estimadores de razón, pero aplicada a todos los postestratos. 12.3
Ajustes
en
muestras
de
poblaciones
infinitas o procesos Algo similar a los ajustes con base en conocimiento de toda la población, se puede hacer cuando se tienen las muestras a conveniencia y se define la población basándose en características semejantes a las de la muestra. Si se quiere extrapolar o aplicar los resultados a una población (proceso) que difiere en uno o más factores que pueden 95
CONCEPTOS BÁSICOS DE MUESTREO
modificar esos resultados, y si además se tienen conocimientos teóricos sobre la forma de modificación, se procede a extrapolar con los ajustes. Como un ejemplo, considere lo señalado como “Correction for spatial scales: an underappreciated problem”. Esta es una breve sección en el artículo de Schindler (1998), donde considera el estudio de la dinámica de peces en lagos muestreados de cierto tamaño; y señala que al aumentar el tamaño del lago, los procesos adventivos de mezclado son más importantes en el mezclado de nutrientes y otras substancias. También que los peces de lagos pequeños tienden a tener mayores concentraciones de mercurio.
96
CONCEPTOS BÁSICOS DE MUESTREO 13. Muestreo doble
Como se expuso, en muestras autoponderadas, en particular muestreo aleatorio simple (“mas”), al incrementarse el tamaño de muestra ésta se hace cada vez más representativa. Esto se refleja en que la distribución de variables importantes en la muestra se parece cada vez más a la distribución de esas variables en la población. Claro, esto produce que las proporciones y promedios de la muestra se parecen cada vez más ( n → ∞ ) a las de la población. En ocasiones no hay información auxiliar en el marco sobre variables relacionadas con las de interés, o exógenas. En aquellos casos en los que es muy barato medir las variables auxiliares (un “vistazo” a la unidad, o vivienda, o una pregunta, etcétera), se puede tomar una muestra grande y medir las variables auxiliares; la distribución de ellas en esa muestra estará muy cercana a las de la población. Esta información se usa entonces para el diseño de una segunda muestra mucho más pequeña que la primera, en la que se mide la variable de interés Y , que es más caro su medición; y con ella se estiman aspectos de la población. Respecto al proceso hay dos casos. Que la segunda muestra de tamaño n sea un subconjunto (muestra) de la primera muestra de tamaño n’ Caso I. Que
la primera muestra constituya el marco de muestreo para la segunda. Ésta es una submuestra (subconjunto) de la primera.
n
n´
2a. muestra
1a. muestra
Población a) Muestreo doble para estratificación.
“mas” en estratos
n´ “mas” Barato Postestratos
y h
Es caro medir Y ih
Población ∧
W
h
=
n´h n´
n=
∑n
h
93
CONCEPTOS BÁSICOS DE MUESTREO
Primera muestra de tamaño n´ por muestreo aleatorio simple y sólo se clasifican sus elementos en L categorías (conceptualizadas previamente). Se toman muy pocos nh elementos de cada estrato, incluso , nh = 2 ∀h , donde n = ∑ nh es el h
tamaño de la segunda muestra. Con la muestra en 2ª. ocasión, de cada estrato se obtienen las medias y h . Con ellas se tiene: ∧
∧
Y = ∑W h y
h
∧ S h2 (W h2 + g ´W h (1 − W h )) + g ´∑W h ( y h − Y )2 V Y = ∑ (1 − f h ) nh h ∧
Las proporciones o pesos,
w
=
h
pequeño
o hay reemplazo, N 1 1 g ´= − . N − 1 n´ N
n ´h n´
,
son variables aleatorias (si
tendrá
distribución
n´ N
multinomial).
es muy Donde
b) Muestreo doble para estimadores de razón. Se supone que medir X i es barato y medir Y i es caro. Con la primera muestra, tomada por muestreo aleatorio simple (mas) y n´ grande, se mide X i, la variable auxiliar, con el supuesto Y i ∝ X i , se estima X con x´ la media de las X i en la primera muestra. Dentro de la primera muestra se toma por “mas” una muestra de tamaño n, (con n<
n
y i
∑n i
n
y x
=∑ i
xi n
.
x ´ x ´ El estimador de Razón de Y poblacional es y es el error por , donde x x falta de representatividad de la segunda muestra con relación a la primera. Para la primera por ser n´ grande se supone la representatividad, es decir, se espera que x´ esté cercano al promedio poblacional de las X i, X que es desconocido. ∧ ∧ ∧ y ´ y , x x ´ donde = = = Y r x R R x El estimador del total de Y es:
94
CONCEPTOS BÁSICOS DE MUESTREO ∧
∧
∧
Y = X ´ R
donde el total de X se estima con la muestra inicial grande,
∧
X ´ = N x´ . Barato
Caro
medir Xi
medir Yi
n´ ”mas”
n “mas” y = ∧
1 n
R =
∧
X ´ = N x´ ∧
∧
∑ y i
y x
∧
Y = X ´ R c) Muestreo doble con muestreo ppt de la segunda muestra. De nuevo es más barato medir X i y más caro Y i. Se supone que hay buena
proporcionalidad Y i ∝ X i , o bien Y i=RX i+ε . Se toma una primera muestra por ι
“mas” con n´ grande, se mide X i. De esta primera muestra se toma la segunda muestra de n elementos con reemplazo y con probabilidades proporcionales a X ´i
= p´i . Entonces el estimador del total de Y en la primera muestra es
n
∑ X ´
i
i
∧
Y ´ =
1
n
Y i
i
i
∑ p ´ . Con este total se estima la media de las Y i de la primera muestra n ∧
como
Y n´´ =
∧
Y ´ , esta estima a Y . Si queremos estimar el total de Y en la n´
∧
∧
población se tiene Y = N Y ´ . n´
n′
Con x ′ = ∑ X i i
95
i
CONCEPTOS BÁSICOS DE MUESTREO
( x ′ ) n y i2 1 n y i ∑ 2 − ∑ V (Y ) = 2 − n n 1 ) i x i n i xi ( n′) (
2
N 2
2
N (N − n ′) + x ′ nn ′ ( n ′ − 1)
n
y i2
∑x i
i
−
( x ′)
2
1
n
y i
2
y i 2
n
∑ − ∑ 2 x i x i i i
n ′ n − 1
Barato medir Xi´ n´ ”mas”
n ppt
X i ´ n´
∑ X ´
= P i ´
i
i
∧
Y ´
No se conocen las Yi, su total se estima con ∧ ´
Y
n´
=
1
n
Y i
i
i
∑ n P ´
n´
∧
∧
N
∧
Y = n´ Y ´n´ = N Y La segunda muestra es independiente de la primera. Se toma por “mas” una muestra de tamaño n´ y se mide X i ′ . También por “mas”
Caso II.
una muestra independiente de tamaño mucho menor n y se miden los X i y los Y i. ∧ Con la primera muestra estimamos X con x´ , y X ´ con N x´ . Con la segunda ∧
∧
muestra estimamos R con ∧ = y . Se suponen pocos errores de muestreo en R R x ∧
∧
comparado con x´ . Entonces el estimador de la media Y es Y = x R ´ ; y del total Y es ∧
∧
∧
Y = X ´ R .
Más detalles de muestreo doble se encuentran en el capítulo 7 del libro: Raj
(1972).
96
CONCEPTOS BÁSICOS DE MUESTREO
Barato n´ ”mas”
medir Xi
n “mas” estimar Y ,
Estimar X , X , X
y x
En base a n´ ∧ ∧
∧
X ´ X ´
∧
∧
Y = X ´ R
97
∧
= R
CONCEPTOS BÁSICOS DE MUESTREO 14. Respuesta aleatorizada En ocasiones el cuestionario incluye una o mas preguntas que se refieren a aspectos personales que pueden ser considerados “íntimos” y hacen que el entrevistado se sienta en peligro o se sienta apenado si la responde correctamente. En este caso es conveniente usar la técnica de “respuesta aleatorizada”. Esta técnica consiste en tener dos preguntas, la pregunta sensitiva (la que causa pena o peligro) y la pregunta inocua. Se usa algún procedimiento aleatorio (moneda, dado, números aleatorios) para que el entrevistado seleccione la pregunta que va a contestar, sin que lo sepa el enumerador o encuestador. Interesa conocer la proporción de personas en la población con cierto tipo de respuesta a una pregunta sensitiva. Este esquema se presenta con un ejemplo de fácil generalización. Supóngase que se desea conocer la proporción de estudiantes de la UNAM que fuman mariguana. La pregunta sensitiva es: ¿fuma usted mariguana por lo menos una vez a la semana? La pregunta inocua es: ¿su ¿su número de cuenta en la UNAM es par? Si se usa una probabilidad de 0.7 de seleccionar la pregunta sensitiva, se cuenta con diez canicas o barajas, de las cuales 7 son rojas y 3 blancas y se pide al entrevistado tomar una canica o baraja y sin decir que color fue, regresarla al conjunto. Se le pide que responda correctamente a la pregunta que apareció aleatoriamente, sin que el entrevistador sepa a que pregunta está respondiendo. Sólo comunica “si” o “no”). Se registra el número de respuestas que son “si”, sea éste n1, en una muestra de tamaño n. Entonces se tiene: P (" si
") = P "si"en
P (" si" )
pregunta sensitiva + P ["si" e n pregunta
inocua]
pregunta pregunta pregunta pregunta = P " si" + P P P " si" sensitiva sensitiva inocua inocua
En la expresión anterior se conoce en el lado derecho todo excepto pregunta P "Si" que es la proporción de “sí” en la población, para la pregunta sensitiva sensitiva. Del lado izquierdo se estima esa probabilidad con
n
1
, de manera que es
n
factible
despejar
la
incógnita.
Si
se
usa
P "Si"
P "Si"
pregunta = 0.7 , sensitiva
pregunta = 0.3 , como ejemplo, se tiene: inocua n
1
n
ˆ (0.3)(0.5) (0.7) P
98
CONCEPTOS BÁSICOS DE MUESTREO Se llama P a la proporción de “sí” a la pregunta sensitiva, en el ejemplo es la proporción de personas que fuman mariguana. El valor 0.5 se sabe que es la probabilidad o proporción de personas con número de cuenta par
ˆ P
1
n
0.7
n
1
(0.3)(0.5)
(14.1)
Este es el estimador buscado. Para el tamaño de muestra, considérese que se requiere una “buena” estimación de (“sí” ) en toda la población; esta es una proporción. Se podrán usar expresiones P (“ (5.3) y (5.4) para estimar esta última proporción adecuadamente.
99
CONCEPTOS BÁSICOS DE MUESTREO 15. Estimación del número total de miembros en poblaciones de animales En estudios ecológicos y de preservación de especies es necesario conocer el tamaño de las poblaciones de animales. Un método para estimar esas poblaciones es el llamado captura-recaptura, N representa el tamaño de la población, el número de peces, venados, focas, osos, etcétera; y es el parámetro por estimador. Se toma una muestra de tamaño t de la población (los que se dejan capturar) y se marcan. En una fecha posterior, considerando que los animales se mezclaron lo suficiente, t de animales marcados. Se toma una segunda se tendrá una proporción p N
muestra de tamaño n, supóngase que son s los animales marcados, que se vuelvan a capturar entonces pˆ s . Igualando la proporción estimada con la teórica en n
función de N se tiene: nt s t ˆ = = ∴ N ˆ n N s
El tamaño de muestra n debe ser grande para que s no sea cero; esto es para que ˆ es sesgado, aparezcan animales marcados en la segunda muestra. El estimador N pero el sesgo es pequeño si t y s son grandes. ˆ es: La varianza estimada de N
t 2 n( n − s ) ˆ ( N ˆ ) = V s2
Para determinar el tamaño de ambas muestras, t y n, se requiere un conocimiento aproximado de N y del valor de V (N ) que estamos dispuestos a tolerar. El libro de Mendenhall, et. al. (1971) presenta la siguiente tabla:
100
CONCEPTOS BÁSICOS DE MUESTREO
Valores de
ˆ) V ( N N Valores de
.001
t N
.001
.01
99900
.1
.25
.50
1.0
99000 9000
3000
1000
0
0 Valores de
n
.01
99900
9900
900
300
100
0
N
.1
9990
990
90
30
10
0
.25
3996
396
36
12
4
0
.50
1998
198
18
6
2
0
1.0
999
99
9
3
1
0
ˆ ) =12000, el valor de Por ejemplo si consideramos N =1000 y deseamos V (N
ˆ) V ( N N
t N n N
12 , con esto se tiene
0.25
t = 0.25N = 250 animales, en la primer muestra .
0.25
n = 0.25N = 250 animales, en la segunda muestra .
101
Apéndice de Fórmulas Apéndice de Fórmulas
4. Conceptos Generales (4.1)
P [| y
Y | δ ] 1 α
pag. 33
5. Muestreo aleatorio simple sin reemplazo (“mas”)
5.1 Introducción
ˆ= y = Y
(5.1)
n
∑ y / n i
pag. 37
i =1
ˆ ˆ N Y Y N y
(5.2)
pag. 38
5.2 Tamaño de la muestra (“mas”)
n=
(5.3)
2
2
2
(CV 0 ) Y +
1
n= (5.4)
S y2
δ
2
2 α / 2
z
2 y
S
+
=
1
S y
pag. 39
N
z α 2 / 2 S y2 δ 2
N
pag. 40
Suponiendo distribución normal de y
n= (5.4a)
1 δ 2 2
2
(4.4) S
+
1
pag. 41
N
Sin suponer normalidad
102
Apéndice de Fórmulas 5.3 Estimación de proporciones
N n=
(5.5)
N − 1
(1 − P )
1 − P
=
1 − P P (CV 0 )2 (CV 0 ) P + − N 1 2
pag. 42
6. Muestreo estratificado L
L
Yˆ = ∑ Yˆh = ∑ Nh Y h h =1
V (Yˆ ) =
(6.2)
(6.3)
(6.1)
L
∑1
V (Yˆh ) =
h=
L
∑1
pag. 48
h =1
Nh2V ( y h ) =
h=
L
∑1
nh Sh2
Nh nh
Nh2 1 −
h=
[
pag. 48
]
pag. 49
ˆ − 1.96 V ˆ (Y ˆ ) < Y < Y ˆ + 1.96 V ˆ (Y ˆ ) = 0.95 P Y
ˆ (Y ˆ) = V
(6.4)
n N h2 1 − h h =1 N h L
∑
ˆh2 S nh
pag. 49
L
(6.5)
(6.6)
ˆ= Y
ˆ Y N
∑ N h yh
=
h =1
N
()
ˆ V Y =
N h
=∑
h =1 N
yh =
L
∑W h yh
pag. 49
h =1
nh S h2 W 1 − ∑ h =1 N h nh L
2 h
ˆ h2 n S h ˆ ) = W h 1 − ˆ ( Y V N n h =1 h h L
(6.6a)
L
∑
2
pag. 49
pag. 49
103
Apéndice de Fórmulas 6.1 Distribución (afijación) de la muestra a los estratos 6.1.1 Distribución proporcional
N h n N
nh
(6.7)
nW h
pag. 51
C h n h
pag. 51
6.1.2 Distribución óptima L
C C 0
(6.8)
N h S h n C h
nh
(6.9)
h 1 L
N h S h
h 1
C h
L
N h S h
1
pag. 51
6.2 Tamaño de muestra total
C C 0 n
(6.10)
C h
h 1
L
pag. 52
N h S h C h
h 1 L
L
N h S h C h
(6.11)
n
h 1
δ 2 1.96
N h S h
h 1
C h pag. 53
L
2
N h S h2 h 1 Para estimar el total
L N h S h S h C h ∑ ∑ 2 N C h =1 h=1 h n= δ 2 1 L 2 N S + ∑ h h 2 2 L
(6.11’)
N h
(1.96)
N
pag. 53
h =1
Para estimar la media
104
Apéndice de Fórmulas 6.3 Distribución proporcional
(6.12)
(6.12’)
ˆ ) = V ( Y
L nh Sh2 N h2 2 N h 1 − = ∑ Sh − ∑ N h Sh2 ∑ h =1 N h n h h=1 nh L
2
N L
ˆ) V (Y
n
N h S h2
N h S h2
h 1
pag. 54
pag. 54
L
N N h S h2 (6.13)
h 1
n
Y 2 CV 0
L
2
pag. 54
N h S h2
h 1 L
∑
N N h S h2 n= (6.14)
h =1
δ 2 z α 2 / 2
L
+∑
pag. 55
N h S h2
h =1
Para estimar el total 7. Muestreo por conglomerados o muestreo polietápico
Estimadores de la muestra
(7.1)
ˆ = S 2 wi
1 mi
mi
( y ∑ −1
ij
− yi )
2
pag. 58
j =1
105
Apéndice de Fórmulas
n
1 N N = Yˆ = My M yij = i i i ni n i =1 mi j =1 n
(7.2)
n
∑
∑
mi
n m
∑ ∑∑ i
j
∑Y ˆ
i N M i i yij =N nm n i
pag. 63
Factor de expansión 1
1 1 2 − Sb n N
Vˆ (Yˆ ) =
N2
(7.3)
90%−95% del ˆ) valor de V (Y
(7.4)
(7.5)
(7.7)
(7.8)
N n
1
N
∑M2 m
−
1
2
Swi M i i i i
es cero si m = i
1
ˆ 1.96 V ˆ (Y ˆ) P [Y
ˆ 1.96 V ˆ (Y ˆ ) ] 0.95 Y Y
2 2 S w 1 n m 2 * ˆ ) = N S 1 − + N ( M ) − V (Y 1 n N mn M * 2 b
C 1 / C 2
*
m M S W
n
S b2 M * S w2 C 0
C 1
C 2 m
1
pag. 63
M i
1 1 2 N n 1 2 ˆb + ∑ M i2 ˆ wi S − S − n i n N mi M i
ˆ (Y ˆ ) = N 2 V
2
(7.6)
+
pag. 64
pag. 64
Pag. 65
pag. 65 2
pag. 65
106
Apéndice de Fórmulas 8. Estimadores de razón (bajo “mas”) n
ˆ= Y
(8.1)
∑ y
i
i =1 n
∑ x
X = Rˆ X
pag. 62
i
i =1
1
n (8.2)
(0.1) 2 X 2
1
2 S X
N
pag. 64
Para acotar sesgo
(8.3)
ˆ ) = X 2 ECM ( Rˆ ) = X 2V [ 1 ECM (Y n
∑ (Y − RX )] = X V (ε ) 2
i
i
i =1
pag. 65
N 2 n 2 2 2 = 1 − (S y + R S x − 2 R ρ S x S y ) n N n=
(8.4)
n
1 E 0
+
1
1
=
δ 2
+
=
1
2 (1.96) 2 S ε
δ 2
2 N 2 (S y2 + R2 S x2 − 2 R ρ S x S y ) N (1.96) 2 S ε N 2 N
S 2
pag. 66
ε
Para acotar δ
ˆ2 1 n S ˆ ˆ E C M ( R) = 2 1 − ε X N n
(8.5)
2
con Sε =
1
n
∑ (Y − R X ) n −1
pag. 66
2
i
i
i
N
(8.6)
Y e
n
M i yi
i 1 n
N n
mi
n
n
M i
i 1
Y ij
j 1 mi
n
M i
i 1
M i
pag. 69
i 1
Promedio por elemento en bietápico
107
Apéndice de Fórmulas (8.7)
n ˆ2 mi S 1 n 1 ˆ 2 2 ˆ ˆ ˆ wi E C M = V (Y e ) = 1 − S y + M i 1 − ˆ2 ˆ 2 N i =1 N n M M i mi n M
∑
pag. 69
9. Estimadores de regresión (selección de la muestra por “mas”)
ˆ Y y (9.1)
n=
b( x X )
( zα12 )
2
δ 2
ˆ ˆ N Y Y N y
(9.2)
pag. 70
Sy 2 ρ 2
pag. 71
b( x X )
11. Muestreo con probabilidades proporcionales al tamaño con reemplazo
X n yi ˆ Y n i 1 xi
(11.1)
ˆ ) X X V (Y n i 1 i X i
(11.2)
(11.4)
ˆ ( z ) V
2 ˆ Z σ
n
z i
Y
2
X
2
n
X
ˆ (Y ˆ) V
z
n
i 1
Y i
N
(11.3)
n
n(n 1) i
1
pag. 81
1 n
pag. 82
yi
1
xi
n i 1 xi
n
yi
N Y Y 2 Z α 2 / 2 X ∑ X i i − i =1 X i X Z α 2 / 2σ z 2 n= = 2 2 δ
2
(11.5)
σ z 2
X
ˆ z 2 σ
1
N
X X i
(11.6)
n
i 1
pag. 83
pag. 83
δ
n
n 1i
2
yi
1
xi
n i 1 xi
n
Y i
Y
X i
X
yi
2
pag. 83
2
pag. 84
(CV 0 ) 2 Y 2 108
Apéndice de Fórmulas 14. Respuesta aleatorizada
(14.1)
ˆ P
1
n1
0.7 n
(0.3)(0.5)
pag. 96
109
Bibliografía Bibliografía 1. Babbie, E. (1992). The Practice of Social Research. Ed. Wadsworth. 2. Campbell, D. y Stanley, J. (1991). Diseños Experimentales y Cuasi Experimentales en la Investigación Social. Amorrotu Editores. Buenos Aires. 3. Carpenter, et. al. (1998). “Evaluating Alternative Explanations in Ecosystem Experiments”. Ecosystems 1(4) pp. 335-344. 4. Chung, K.L. (1974). Elementary Probability Theory with Stochastic Processes. Springer-Verlag. 5. Cochran, W. G. (1977). Sampling Techniques . John Wiley & Sons, 3ª ed. 6. Deming W. E. (1950). Some Theory of Sampling . Dover Publications Inc. 7. Hansen, M. H. Hurwitz, W.N. y Madow, W.G. (1953). Sample Survey Methods and Theory. Vol. I y II, John Wiley & Sons. 8. Kish L. (1965). Survey Sampling . John Wiley & Sons. 9. Lee, E.S., Forthofer, R.N. and Lorimer, R. (1989). Analyzing Complex Survey Data. SAGE Publications Inc. 10. Mendenhall, Ott y Scheaffer. (1971). Elementary Survey Sampling . Duxbury Press. 11. Overton, W., Stehman, S. (1995). “The Horvitz-Thompson Theorem as a Unifying Perspective for Probability Sampling: with Examples from Natural Resource Sampling”. The American Statistician . Vol. 49, No. 3, pp. 261-268. 12. Raj, Des (1968). Sampling Theory . McGraw Hill Co. 13. Raj, Des (1972). The Design of Sample Surveys. McGraw Hill Book Co. 14. Särndal, C.E., Swensson, B., Wretman, J. (1992). Model Assisted Survey Sampling. Springer-Verlag. 15. Schindler, D.W. (1998). “Replication Versus Realism: The Need for EcosystemScale Experiments”. Ecosystems 1(4) pp. 323-333. 16. Stephan, F.F. and Mc. Carthy, P.J. (1974). Sampling Opinions and Analysis of Survey Procedure . Greenwoos Press Publishers, Westport , Connecticut 1 st. ed. 17. Sukhatme, P.V. y Sukhatme, B. V. Asok, C. (1984). Sampling Theory of Surveys with Applications. Iowa State University Press.
CONCEPTOS DE MUESTREO 16. Efectos de Diseño en el Análisis y Planeación de Encuestas Los
métodos estadísticos usuales para probar hipótesis sobre uno o más parámetros o para explorar o corroborar relaciones esperadas entre variables, tales como pruebas de “t ”, F y χ 2 , dentro de modelos lineales o logísticos, o “tablas de contingencia”, requiere entre otros el supuesto básico de que las observaciones son independientes. Además en los diseños no autoponderados el peso de cada observación es diferente al de otras, es decir la muestra “bruta” no es representativa. Sin embargo, en todos los esquemas de muestreo de poblaciones finitas, las observaciones resultan estar correlacionadas, lo que en la mayoría de los casos implica la dependencia entre ellas, aun que estas correlaciones son más fuertes en el caso de muestreos multietápicos. Kish(1965,1995) y seguidores, propusieron evaluar la varianza de un estimador con el diseño de muestra usado y compararla (vía una razón o cociente) con la varianza que se hubiera obtenido con una muestra del mismo tamaño a la usada n, si se usa un muestreo aleatorio simple con reemplazo, que es el que produce observaciones independientes. Nótese que se comparan dos estrategias de muestreo, la usada con la de tener un muestreo aleatorio simple con reemplazo y con estimadores simples, es decir, medias muestrales simples como estimadores de medias poblacionales. La independencia de las observaciones, e igualdad de distribuciones (“vaiid ” variables aleatorias independientes e igualmente distribuidas) es el supuesto tácito de muchos usos de la estadística donde se tienen muestras que no se toman aleatoriamente de una población finita, sino que son “muestras disponibles” y se hace el supuesto de que esa muestra es representativa o que fue generada con un proceso aleatorio a partir de una población infinita en tamaño pero de determinadas características. En estos casos, por ese supuesto las observaciones son independientes, y las inferencias dependen fuertemente del supuesto. El “Efecto de Diseño”, abreviado DEFF , es:
DEFF
V verdadera (θ ˆdiseño ) V iid (θ ˆiid )
Donde V es el operador Varianza.
Además, se supone que:
θ ˆdiseño≈ N { θ , V verdadera (θ ˆdiseño ) }
representa se distribuye Donde ≈ aproximadamente como. Los estimadores del parámetro son diferentes, salvo el caso de
diseños autoponderados. θ ˆdiseño es el estimador que toma en cuenta el diseño de la muestra en particular los factores de expansión. θ ˆiid es el estimador que ignora el diseño y considera la muestra como tomada con iguales probabilidades y con reemplazo, es decir produce variables aleatorias idénticas e independientemente distribuidas (iid ). Usualmente las varianzas se desconocen, así que hay que usar sus estimadores, sin embargo en este escrito no se hará distinción entre el uso del DEFF teórico y el 104
CONCEPTOS DE MUESTREO estimado, se entenderá que al hacer uso del DEFF se tienen estimadores consistentes de las dos varianzas o bien se suponen conocidas. Cuando sea necesario se especificará la forma de cada una de esas varianzas. Si se desea efectuar una prueba de hipótesis sobre el parámetro θ = = iid , se tiene que la estadística
t o
θ ˆiid − θ vo
tiene una distribución normal con media cero y
desviación estándar uno, t o ≈ N ( 0,1) . Además que v o es un estimador consistente de la varianza en el caso iid . Entonces un intervalo de confianza para θ = iid .
C o {θ : t o < 1.96
} {θ ˆ − 1.96
v0 , θ ˆ+
{
P θ ˆ − 1.96 v0 < θ < θ ˆ + 1.96 v0
1.96 v0 }, o de otro modo
} 0.95
Con un diseño muestral complejo, y con muestras de tamaño relativamente grande, para
ˆ
que opere el Teorema Central del Límite, se puede suponer que θ diseño , el que ajusta por factores de expansión, es insesgado o por lo menos consistente ˆ ( lim n→∝ θ diseño θ ) . Entonces se tiene de forma aproximada que, si se obtiene la estadística t con ese estimador,
t o
θ ˆdiseño− θ
vo con esto se corrige la falta de representatividad pero no la de independencia, entonces la (16.1) distribución de la estadística es t o ≈ N (0 , DEFF ) Esto se obtiene de considerar que bajo el diseño verdadero, entonces
θ ˆdiseño ≈ N { θ ,V verdadera (θ ˆdiseño )} por lo que
θ ˆdiseño − θ V verdadera (θ ˆdiseño )
≈ N (0,1) .
Si la expresión de t o anterior se multiplica y divide por la Varianza verdadera se tiene:
t o
θ ˆdiseño − θ V verdadera (θ ˆdiseño ) vo
V verdadera (θ ˆdiseño )
θ ˆdiseño− θ
V verdadera (θ ˆdsieño )
(
V verdadera (θ ˆdiseño ) vo
)
105
CONCEPTOS DE MUESTREO Una variable multiplicada por una constante, produce una nueva variable con media dada por la media inicial que se multiplica por esa constante y la Varianza por el cuadrado de la constante, en este caso la constante es la raíz cuadrada del DEFF , de aquí se obtiene la expresión (16.1), de la definición del DEFF se tiene que
V verdadera (θ ˆdiseño ) vo DEFF . Si se usa el intervalo de confianza usual, el señalado antes, se tiene una Varianza errónea por que solo está vo, es decir la Varianza según iid . Por esto tanto el intervalo de confianza como las pruebas de hipótesis basadas en él son erróneos. DEFF
0.9 1.0 1.5 2.0 2.5 3.0
Cobertura real Cobertura real si el intervalo se si el intervalo intenta al 95% se intenta al 99%
96 95 89 83 78 74
Nivel de significancia real si la prueba se hace al 5%
Nivel de significancia real si la prueba se hace al 1%
4 5 11 17 22 26
0.7 1 4 7 10 14
99.3 99 96 93 90 86
Como se puede observar, por ejemplo, si el DEFF es de 2, la prueba tiene un error tipo I o nivel de significancia real de 17%, en lugar del 5%. Es decir va a rechazar la hipótesis demasiadas veces. En general si el DEFF es mayor que uno, los intervalos sin corregir tienen una cobertura real menor a la intentada y mayores probabilidades de error tipo I, que el nivel de significancia intentado, es decir el intervalo es demasiado estrecho por que el error estándar del estimador usado es menor que el que tiene de acuerdo a la estrategia de muestreo usada. Si se usa un paquete de cómputo, que supone iid y que obtiene el intervalo de confianza al 95%, y se usa un diseño y estimador complejo, hay que corregir el intervalo, multiplicando el error estándar de la media por la raíz cuadrada del DEFF . Así el intervalo corregido será:
{θ ˆ − 1.96
vo DEFF , θ ˆ+ 1.96 vo DEFF } . En el caso autoponderado el estimador del
parámetro con diseño coincide con el de diseño, en caso de que no sea autoponderado el diseño, el estimador deberá ser el corregido. Sin embargo aún con muestras autoponderadas la varianza se debe obtener según el diseño usado y no utilizar vo . En una prueba de hipótesis sobre el valor de θ == . Es decir el valor de t obtenido en la prueba se multiplica por la DEFF raíz del DEFF . La t o que produzca el paquete se modifica a t o
corregida
t o
DEFF
.
106
CONCEPTOS DE MUESTREO 16.1 Tamaño de muestra efectivo
Una manera muy conveniente de tomar en cuenta el DEFF es el llamado tamaño de muestra efectivo ne, que es el tamaño de muestra de una estrategia de muestreo aleatorio simple que produzca la misma varianza que la verdadera para θ ˆ . Así ne
n DEFF
. Si se tiene un DEFF de 2, el diseño usado produce una varianza que es el
doble de la que se tiene en un iid , entonces ne es la mitad de la muestra usada. El conocimiento del DEFF de encuestas previas semejantes a la que se planea, se puede usar para corregir el tamaño de muestra, es decir se obtiene el tamaño de muestra como si fuese un muestreo aleatorio simple con reemplazo y se multiplica por el DEFF . De la expresión sobre el error de muestreo, con relación a la varianza del estimador, se tiene que en general δ 1.96 * (V (θ ˆ)) , donde esa δ == = = =V =θ = depende del tamaño de muestra y claro de otros parámetros que hay que conocer
o estimar con una muestra piloto. Si se tiene información de un DEFF en una encuesta semejante a la planeada, se tiene entonces que, niid es el tamaño de muestra si se usa un muestreo que produce vaiid . Es decir uno con iguales probabilidades de selección y con reemplazo. Para el caso de estimar una media poblacional, se tiene (1.96) 2 σ 2 n DEFF niid DEFF . 2 δ
Si se quiere estimar una proporción, se obtiene un “buen” valor de P , la proporción por (1.96) 2 P (1 − P ) estimar y entonces n DEFF niid DEFF = 2 δ
TNR , la tasa de no-respuesta esperada, para incrementar la muestra en ese porcentaje, Así la expresión para n, el tamaño de muestra,
si se llama TNR a la proporción de no-respuesta, es (1.96) 2 σ 2 n DEFF (1.TNR ) niid DEFF (1.TNR ) , por ejemplo si se espera una tasa de 2 δ
no-respuesta del 20%, se tendrá n=niid DEFF (1.20). 16.2 Algunos DEFF
Se presentan a continuación algunos de los valores de DEFF para los diseños más usados. 1.- Muestreo aleatorio simple sin reemplazo (el usual “mas”)
n S 2 1 1 ˆ V verdadera (Y ) (1 − ) ( − ) S 2 y N n
n N
V mas (iid )
S 2 n
, entonces:
107
=
CONCEPTOS DE MUESTREO n S 2 1 − N n 1 − n que es el factor de corrección por finitud. Esto expresa DEFF S 2 N n
que el muestreo “mas” con reemplazo es menos eficiente, produce varianzas mayores que el “mas” sin reemplazo. Esto es debido a la redundancia de los posibles valores si aparecen en muestra elementos repetidos. Es importante señalar que si el cociente n/N es pequeño, digamos =0.01 ó =.001, entonces la diferencia es negligible, por que aun que se tome con reemplazo, la probabilidad de un reemplazo es muy baja. También se puede llevar a cabo el diseño sin reemplazo y emplear las expresiones de varianzas que lo suponen con poco error. 2.- Muestreo Bietápico
Si se tiene un muestreo en dos etapas, donde las unidades de primera etapa, UPM , contienen a las unidades de segunda etapa, USM . Si se toman por “mas” n de las UPM y dentro de cada una de las muestreadas se toman, también por “mas” m USM , entonces de modo aproximado, se tiene: DEFF 1 + (m− 1) ρ , donde ρ Y en las USM tienden a ser parecidos = = dentro de cada UPM (Viviendas dentro de manzanas, alumnos dentro de grupos, grupos dentro de escuelas, etc.), entonces ρ > 0 y DEFF >1. Si de cada UPM se toman mi USM , entonces se substituye m por la media de las mi , en la expresión del DEFF , DEFF 1 + (m− 1) ρ . Sea σ 2 la varianza de una observación, σ b 2 la varianza entre promedios de USM en cada 2
2
2
UPM ; σ w la varianza entre USM dentro de UPM y σ 2 σ b + σ w . El coeficiente de
correlación es entonces: σ b −
σ w
2
M − 1 . Otra manera de expresar ese coeficiente es, considerando que hay N σ 2 UPM y estas contienen M i elementos y que M es el promedio de esos tamaños de 1 1 N σ 2 (1 + ( M − 1) ρ ) ˆ unidades V verdadera (Y ) − M ( N − 1) n N ρ
N M M
∑ ∑ ∑ (Y − Y )(Y ij
ρ
i
j ≠
ik
− Y )
k
( M − 1) M N σ 2 de la expresión DEFF 1 + (m− 1) ρ se puede observar que el DEFF aumenta si == = =USM dentro=de las UPM . aumenta ρ De hecho si solo se toma una (m=1) USM dentro de cada UPM , el DEFF es uno, equivale a muestreo aleatorio, también mientras más USM estén en la muestra el DEFF aumenta para ρ = DEFF para =diferentes valores del 108
CONCEPTOS DE MUESTREO coeficiente de correlación al variar m. En la segunda gráfica está el tamaño de muestra efectivo para varios valores de ρ ρ USM = por cada UPM , hace que el tamaño de muestra efectivo esté alrededor de 3.
DEFF =1+(1-m)rho 40
1 V ALO R E S D E RH O o .9 9
0 .8 30
0 .7
0 . 6 0 .5
20
0 .4
0 .3
10 0 .2
0 .1
0 0 0
10
20
30
40
m
109
CONCEPTOS DE MUESTREO
ne según m;
ne=n/DEFF 0.1
8
7
6 Tamaño de muestra efectivo
Ne=m/deff 5 0.2
4
0.3 3 0.4 2
0.5
1
0.6 0.7 0.8 0.9 1
0
10
20
30
40
m
3.- Muestreo trietápico
Suponga que se toman n UPM por “mas”, que en ellas se toma por “mas” m USM y dentro de las USM , también por “mas” se toman b UTM , entonces el DEFF está en función de dos coeficientes de correlación, r 1 entre totales de USM dentro de las UPM y, r 2 entre UTM dentro de las USM . DEFF 1 + (m − 1)br 1 + (b− 1)r 2
Se observa algo ya mencionado, la varianza de los estimadores disminuye si aumentamos el número de UPM en muestra y se disminuye el número de secundarias y de terciarias; ya que en el segundo termino además de (m-1) se multiplica por b. 4.- Muestreo Estratificado
Se considera por facilidad el caso de distribución de la muestra a los estratos en forma proporcional, nh n
N h N
nW h con h=1,...L.
110
CONCEPTOS DE MUESTREO
σ h
2
1 N ∑ (Y hi − Y h )2 N h − 1 i h
L
2
σ Total
N h
∑ ∑ (Y
hi
h
i L
∑ N
h
− Y )2 −1
L
L
∑ W h (Y h − Y ) + ∑W hσ h 2
h
2
h
h
Varianza total = Varianza entre estratos + Varianza dentro de estratos DEFF=(Varianza dentro de estratos) / Varianza total < 1.
De aquí que siempre convenga tener estratos, y mientras más variación es identificada entre estratos, más eficiente es el diseño y menor es el DEFF . 5.- Comparación de medias en dominios independientes (regiones, estados, etc).
Si se quiere efectuar una prueba de t para someter a contrastación la Hipótesis Ho: Y 1 Y 2 , por ser independientes, la varianza de la diferencia es la suma de las ˆ ˆ V Diseño (Y 1 ) + V Diseño (Y 2 ) ˆ) DEFF max i 1, 2 (Y < varianzas. DEFF (Y 1 − Y 2 ) 2 2 σ 1
n1
+
σ 2
n2
El DEFF de la diferencia siempre es menor que el DEFF de cualquiera de las dos medias. Entonces para efectuar una prueba conservadora se puede usar un proceso que supone muestras iid , pero el error estándar de la diferencia se multiplica por la raíz cuadrada del DEFF mayor de las medias estimadas. 6.- Comparación de medias en dominios no independientes. De clases que ocurren dentro de las mismas UPM , por ejemplo
comparar ingresos de hombres y mujeres o de emigrantes y nativos, de escolaridad alta con baja, etc. Sean a y b dos categorías en las que se quiere comparar las medias de una variable numérica. Entonces se tiene que DEFF (Y ˆa ) 1 + (ma − 1)ρ a donde ma es el promedio del número de elementos en la UPM que caen en la categoría a en muestra, ma π a m , la proporción de elementos en a, por el promedio de muestra en las UPM . Y además ρ a es el coeficiente de correlación intra clase para la variables Y , dentro de la categoría a. Algo similar para la categoría b. Kish demostró que de modo aproximado se tiene que DEFF (Y ˆa ) 1 + π a [ DEFF (Y ˆ )− 1 ] y semejante para b. Entonces de nuevo, si se tiene una rutina que obtiene las medias y errores estándar de la diferencia suponiendo caso iid , esos errores estándar se corrigen multiplicando por la raíz cuadrada del máximo de los dos DEFF, el de la media en el dominio a o el b. Si se hace una prueba de F , la F calculada se corrige dividiéndola entre el DEFF máximo. 111
CONCEPTOS DE MUESTREO
17. Encuestas Complejas
Se acostumbra llamar muestra o encuesta compleja cuando se tiene la combinación de estratos, estimadores de razón o regresión, y varias etapas de muestreo. Con tener dos de estas características se le llama encuesta compleja. En este escrito se presentan de manera sucinta las expresiones necesarias para obtener estimadores de totales o de promedios en este tipo de estudios. La fuente principal de referencia es el libro de Des Raj (1968) “Teoría del Muestreo” del Fondo de Cultura Económica, México. Se presentan los resultados principales para poder elegir un diseño de muestra, y para obtener estimadores y las varianzas o errores cuadráticos medios estimados. No se presentan las varianzas y errores cuadráticos verdaderos. 17.1 Estimadores de Razón con Muestreo Estratificado
Considérese el uso de estimadores de razón cuándo se hizo un muestreo aleatorio simple (“mas”) en cada uno de L estratos. La información está dada por muestras independientes, obtenidas por muestreo aleatorio simple (“mas”) en cada estrato, de tamaño nh y en cada elemento se miden los valores Y hi y X hi, donde i= 1,...,nh y h=1,...L. Se conocen los tamaños de los estratos N h y además los totales de la variable X por estrato X h, por supuesto que con ellos el tamaño total N de la población y el total de la variable X en la población. Se plantea la estimación por razón, del total en la población, Y . Se pueden forma dos tipos de estimadores que son, el Separado y el Combinado. nh
Separado :
ˆ s Y
L
∑ Y
hi
L
∑ X Rˆ ∑ X h
h
h
h
h
i nh
∑ X
hi
i
L
L
Combinado :
ˆc X Rˆ X Y
∑ Y ˆ ∑ h
ˆh X
nh
∑ n ∑ Y
hi
h
h L
N h
X
h L
i h L h
N
∑ n ∑ X
hi
h
h
i
112
CONCEPTOS DE MUESTREO En el separado, el sesgo de los estimadores de la razón en cada estrato, se puede acumular, si hay muchos estratos. Si las razones en los estratos Rh , difieren mucho de un estrato a otro y los tamaños de muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es preferible. Si los tamaños de las muestras en los estratos son pequeños, o los estratos tienen Rh semejantes o ambas cosas, el estimador combinado es preferible. Los errores cuadráticos medios son los que siguen:
1 2 ˆ 2 2 2 1 ˆ [S y + Rh S x − 2 Rˆ h ρ h S y S x ECM (Y s ) ∑ ( N h ) − L
nh N h
h 1
h
h
h
L 1 2 ˆ 2 2 2 1 ˆ [S y + Rc S x − 2 Rˆ c ρ S y S x ECM ( Rc ) ∑ ( N h ) − h 1
nh N h
h
h
h
h
h
]
]
Donde S y2 y S x2 son las varianzas de Y , y de X dentro del estrato h, el valor ρ h es el h
h
coeficiente de correlación entre Y y X dentro de estrato h; y ρ es la correlación entre Y y X en toda la población. Lo que está en el último paréntesis cuadrado es más fácil de calcular, sí se considera que equivale al computo de la varianza estimada de una nueva variable, al interior de cada estrato, que es para el caso del combinado:
ˆhi − Rˆ h X ˆ hi Gshi Y y para el separado
ˆhi − Rˆc X ˆ hi . Gchi Y Así para el separado: 2 2 ˆ2 ˆ ˆ y S ˆx ˆ ˆ ˆ ˆ ˆ ˆ h S V h (Y hi − Rh X hi ) [S y + Rh S x − 2 ρ h
1 ˆ ˆ ˆ ∑ (Y hi − Rh X hi ) − nh − 1 i 1 nh
1
1 nh
nh
nh
∑ 11
h
h
]
2
ˆ hi ) (Y ˆhi − Rˆ h X
2
nh
(Gs ∑ −1 1
h
hi
− G s h )
i
113
CONCEPTOS DE MUESTREO
En este caso el último término dentro del paréntesis cuadrado, la media de las Gshi, es cero. Y para el combinado :
[
ˆ y2 + Rˆ c2 S ˆ x2 − 2 ρ ˆ S ˆ y S ˆx ˆh (Y ˆhi − Rˆ c X ˆ hi ) S V
h
1 ˆ ˆ ˆ ( ) Y R X − − ∑ hi c hi n nh − 1 i 1 h
1
1 nh
nh
nh
∑ 1 1
h
h
]
2
ˆ hi ) (Y ˆhi − Rˆ c X
2
nh
(Gc ∑ −1 1
h
hi
− G ch )
i
En este caso la media de las Gchi no es cero.
17.2 Diseños de muestra multietápicos
Se presentan tres esquemas de muestreo que son muy útiles para tener la máxima generalidad para el caso de múltiples etapas de muestreo. Son los llamados Esquemas A, B y C tomados del libro de Des Raj (1968). En todos los casos lo que determina el esquema de muestreo es la forma de selección de las Unidades Primarias de Muestreo (UPM ), en el caso C si hay o no submuestreo independiente. De nuevo se presentan los estimadores y las varianzas estimadas de ellos. ESQUEMA A.
El texto de Raj, considera el caso de selección de las UPM con probabilidades de selección arbitrarias y sin reemplazo. Para obtener estimadores de totales y sus varianzas, usa el teorema de Horvitz-Thompson, en base a las probabilidades de inclusión de primer y de segundo orden, Π i y Π ij , que son las probabilidades de que la UPM i-ésima; y de que la i-ésima y la j-ésima estén en la muestra respectivamente. Este esquema requiere conocer los valores de Π i y Π ij para todas las parejas de UPM en muestra. Esto es difícil de obtener en la gran mayoría de los casos. El esquema de probabilidades arbitrarias comprende, como un caso particular al Muestreo Aleatorio Simple (“mas”), en el que i = n/N y ij = (n(n-1))/(N(N-1)). El esquema A, considera la selección de las UPM con probabilidades arbitrarias (un caso particular de este es el de “mas”), y dentro de cada UPM en muestra se lleva a cabo un muestreo de las unidades secundarias, terciarias, etc., que tenga cada UPM . El submuestreo puede ser 114
CONCEPTOS DE MUESTREO de cualquier número de etapas, con o sin estratos de USM y subsiguientes, y con cualquiera forma de seleccionar las muestras y de formar estimadores (simples, de razón o por algún otro método). Se pueden tener esquemas de muestreo diferentes para diferentes UPM . Lo que se requiere es generar un estimador conocido del total de los valores de Y ijklm.., sea este T i, además conocer su varianza teórica V(T ) i y un estimador de esta varianza. El estimador del total, con este esquema A, con “mas” de UPM y submuestreo de cualquier forma, es el siguiente:
ˆ Y
N
n
T ∑ n i
i
(17.1)
La varianza estimada, de este estimador es: n 1 1 N 2 2 ˆ (Y ˆ ) − ˆ (T i ) ) ( V × N Sb + V ∑ n N n i
(17.2)
Donde: 2 1 n 2 S b ∑ (T i − T ) n − 1 i1
•
y
T
1
n
T ∑ n 1 i
i
Bietápico con “mas” en las dos etapas
Para el submuestreo con “mas” de USM , se tiene:
T i M i yi
M i mi
mi
∑ Y ij
j
y su varianza estimada
1 2 2 1 ˆ V (T i ) M i − Swi mi M i
Con estos dos elementos en las expresiones generales, (17.1) y (17.2), se tiene:
ˆ Y
N n M i
mi
i
j
Y ∑ ∑ n m ij
i
115
CONCEPTOS DE MUESTREO n 2 1 1 1 N 1 2 2 ˆ wi ˆ (Y ˆ ) − × N Sb + ∑ − S V n mi M i n N i
donde
Y ij
ˆS z i 1 ∑ − T i m − 1 P i j 1 i mi
2
m 1 2 ˆS w (Y ij − Y i ) m − 1 ∑ i j 1 i
2
i
Y i •
1
mi
∑1 Y
mi
ij
i
Bietápico con “mas” y “ ppt ”.
Si se trata de nuevo de dos etapas, las n UPM se toman con “mas” y si en cada UPM en muestra se toman las mi USM por ppt con reemplazo, con probabilidades de selección P ij, se tiene:
ˆ Y
N
n
T ∑ n i
i
con el valor de T i dado por:
T i
1 mi
mi
1
Y ij
mi
∑ P m ∑ Z Z ij
j
ij
i
i
j
Por lo tanto
ˆ Y
N
n
1
mi
Y ij
N
n
∑ Z N Z ∑ ∑ n m P n i
i
i
j
ij
i
116
CONCEPTOS DE MUESTREO CONCEPTOS Como las P ij son las probabilidades de selección de la USM ij en la UPM ,i se consideran las n variables aleatorias independientes e idénticamente distribuidas, Z i=Y i /P j ij, su media es el estimador del total Y i. Entonces un estimador de la varianza del estimador es: n 1 1 N ˆ 2 2 ˆ ˆ V (Y ) − × N S b + ∑ (V (T i ) ). n i n N
Donde
1 ˆ 2 ˆ V (T i ) S z i mi
1 m Y ij ˆS z i m − 1 ∑ P − T i i j 1 i
2
i
Se presentaron solo dos casos de muestreo bietápico, pero el esquema es aplicable a cualquier situación donde se tengan varias etapas de muestreo y las UPM se seleccionen por “mas”.
ESQUEMA B. El esquema llamado B, por Raj, es muy usado en las encuestas complejas, por que es muy fácil obtener los estimadores de las varianzas de los estimadores de totales. Se realizan n extracciones o selecciones de UPM con reemplazo, existe la posibilidad de que algunas UPM i sean extraídas o estén en la muestra mas de una vez. La muestra tendrá un numero menor o igual a n de UPM . Para cada extracción y de manera independiente se realiza el submuestreo de cualquier forma y de cualquier número de etapas, cada submuestreo de una UPM i, produce estimadores del total de Y , en las UPM i en muestra, los T i. En este caso, como hay reemplazo, algunas UPM están en muestra mas de una vez, sin embargo hay n diferentes valores de T i, ya que debe haber n diferentes procesos de submuestreo independientes, uno por cada extracción, sea o no una unidad con mas de una extracción. Los estimadores en este caso son:
ˆ= Y
1
n
T i
1
n
Z = ∑ Z = Z ∑ n P n i
i
i
(17.3)
i
117 117
CONCEPTOS DE MUESTREO
1 1 T i ˆ ˆ ˆ V (Y ) ∑ − Y n n − 1 i P i n
2 (17.3)
Como se puede observar ambos estimadores son muy simples de obtener aun que el muestreo sea muy complejo, basta con que las UPM se seleccionen mediante ppt con reemplazo, y un submuestreo independiente por cada extracción. Es de notarse que se puede estimar la varianza del estimador, sin tener que estimar las varianzas de los estimadores de los totales en cada UPM . Es decir, no se requiere tener el estimador de V(T )i . Esto por supuesto es muy conveniente para los cálculos de varianzas. Como una aproximación muy conveniente, es frecuente que en realidad se tenga una selección ppt sin reemplazo, como cuando se obtienen tamaños X i acumulados y sobre ellos se hace una selección sistemática con arranque aleatorio. En este caso, si el número de UPM en la población N es muy grande comparado con el tamaño de muestra n, n/N de 0.01 o menos; y si no hay tamaños muy grandes de las UPM , es decir si las P i son todas pequeñas, sin que algunas sean varias veces mayores que otras, entonces la probabilidad de un reemplazo es muy pequeña. Así, a pesar de ser un muestreo ppt sin reemplazo, se puede usar el esquema B, como una muy buena aproximación. Ejemplo 1 de Esquema B
Se tienen tres etapas de muestreo, ppt con reemplazo de UPM , con estratos de USM y “mas” para selección de USM , dentro de cada estrato y además con UTM , seleccionadas por “mas” en cada USM en muestra. Como un ejemplo del esquema B de Raj, y sin pérdida de generalidad, suponga que se quiere estimar el número de ciudadanos con capacidad de compra de un producto, es decir, si un ciudadano tiene la capacidad de compra se le asigna un 1 en la variable Y ihjkt , y si no la tiene un cero. Los índices son i para la AGEBi (UPM )i , h para el estrato de manzanas (USM ihj), j para la manzana j del estrato h de la AGEBi, y finamente k para la vivienda. La Unidad Última es la Vivienda y el valor de la variable en ella es Y ihjk que es la suma de los ciudadanos con capacidad de compra en esa vivienda. Es decir es la suma de los Y ihjkc sobre c, los ciudadanos en la vivienda. De modo que el total de la variable indicadora Y ihjkc sobre toda la población, es el número de ciudadanos por estimar, el parámetro Y . Se considera, sin pérdida de generalidad, un caso donde hay N=300 AGEBS , que son las UPM , con muestreo ppt con reemplazo se seleccionan n=20 manzanas (UPMi). La medida de tamaño X i es el número de habitantes de la AGEBi en el censo anterior, de modo que P i es X i / X , donde X es la suma de las X i en las 300 AGEBS . En cada AGEB, en muestra, se forman 3 estratos de manzanas. Se considera que hay M ih=1 , M ih=2 y M ih=3 manzanas (las USM ) en cada estrato; se toma por “mas” solo 118
CONCEPTOS DE MUESTREO una manzana de cada estrato mih= 1, mi = 1+1+1=3. En cada manzana (USM ij) se toman qihj =5 de las Qihj viviendas que tenga la manzana, mediante un muestreo sistemático con inicio aleatorio. Se considera como “mas” para fines de estimación de totales. Es muy importante resaltar que no se requieren conocer ni estimar la varianza entre viviendas dentro de manzanas, ni la de manzanas dentro de estrato y dentro de AGEB. Para construir los estimadores es muy conveniente iniciar con las últimas unidades de muestreo e ir construyendo estimadores de totales sucesivamente a las unidades de muestreo superiores. En este caso un estimador del total de ciudadanos con capacidad de compra en la manzana ihj en muestra es:
ˆihj Y
Qihj
qihj
∑ Y
ihjk
qihj
Qihj
5
k
5
∑ Y
ihjk
k
Con este estimador, pasamos a la estimación del total de ciudadanos con la capacidad, en cada estrato.
ˆhi Y
M hi
M hi ˆ ˆ Y hij Y hi ∑ 1 mhi j mih
Ahora con estos estimadores, obtenemos el valor de Ti, el estimador de Yi, el total de ciudadanos con la capacidad en la AGEBi
ˆi T i Y
3
L
∑Y ˆ ∑Y ˆ ih
ih
h
h
Finalmente el estimador del total en la población es: 20 ˆ Y i 1 ˆ Y ∑ ∑ n i P i 20 i P i
1
n
T i
Si se unen todos los estimadores, en el caso general se tiene:
ˆ Y
X
1
n
L
Mih mih Qihj qihj
Y ∑ ∑ ∑ ∑ n Xi mih qihj
ihjk
i
h
j
k
X 1 M ih Qihj ˆ Y ∑ ∑ ∑ ∑ Y ihjk n
L
i
h
mih qihj
j
k
n X i mih qihj
119
CONCEPTOS DE MUESTREO Los sucesivos factores de expansión se consideran juntos, para formar el factor de expansión para cada valor de Y ihjk . Se tiene que los factores de expansión son: • De vivienda a manzana Qihj / qihj • De manzana a estrato de manzanas M ih / mih • De AGEB a la población X / (nX ) i Ejemplo 2, de esquema B
Solo tres estratos, con diferentes muestreos y submuestreos en cada estrato. Suponga que se tiene: Estrato 1 con N h = 300 UPMs, se toman con ppt , con probabilidad P ih con reemplazo n1 =50, en cada extracción de una UPM , se hace una selección por “mas” de mi =3 USM , en cada una se mide Y 1ij. En el estrato 2 hay 1000 UPMs y también con ppt con reemplazo, con probabilidades P 2i, se toman n2 = 100 UPMs, y en cada una de ellas se seleccionan m2i = 5 USM por ppt con reemplazo, con probabilidades P 2ij, en cada una de ellas se mide su valor Y 2ij. En el estrato 3, hay una sola UPM con 84 USM , las que se estratifican en dos estratos (de USM ), uno con 14 y el otro con 74 USM . Se toma por “mas” una muestra de 2 USM en cada estrato, y en cada una se mide su valor Y 3jj. Se desea estimar el total de la población Y y su varianza. Se plantea que Y = Y 1+ Y 2 +Y 3, entonces hay que obtener los estimadores de cada total y su estimador de varianza en cada estrato. Se aplica el esquema B en estratos 1 y 2. Para el estrato 1, se tiene el total estimado de una UPM en muestra:
ˆ1i T 1i Y
M 1i
3
Y 1 ∑ 3
ij
j
50 1 T 1i ˆ Y 1 ∑ 50 i P 1i 2 50 T 1i ˆ 1 1 ˆ ˆ V (Y 1 ) ∑ − Y 1 50 49 i P 1i
Para el estrato 2 se tiene: 5 Y 1 ˆ2 i T 2 i ∑ 2 ij Y 5 j P 2 i
120
CONCEPTOS DE MUESTREO 100 1 T 2 i ˆ Y 2 ∑ 100 i P 2 i 2 100 1 1 T 2 i ˆ (Y ˆ2 ) V ∑ − Y ˆ2 100 99 i P 2 i
En el estrato 3, no hay submuestreo, se tienen dos estratos de USM , en el primero 2 14 ˆ31 ∑Y 31 j Y 2 j
y en el segundo 2 70 ˆ32 ∑Y 32 j Y 2 j
De manera que
ˆ3 Y ˆ31+ Y ˆ32 Y La varianza de este estimador es la suma de las varianzas en los estratos 2
2 2 Y 31 j Y 32 j ∑ ∑ 2 1 1 1 ˆ (Y ˆ3 ) 14 2 ( 1 − 1 ) 1 ∑ Y 31 j − j + 702 − Y 32 j − j V 2 14 2 J 2 2 2 70 2
2
Finalmente los estimadores para toda la población son:
ˆ Y ˆ1 + Y ˆ2 + Y ˆ3 Y 3
ˆ (Y ˆ ) ∑V ˆ (Yh ) V h
Esquema C
Se efectúa la selección de UPM por ppt con reemplazo, pero si una UPM aparece en muestra k veces, solo se submuestrea una vez y su estimador del total T i , se multiplica por k . Así el estimador del total Y est se obtiene por:
121
CONCEPTOS DE MUESTREO
ˆ Y
1
a
kiT i
∑ n P i
i
donde a es el número de UPM distintas en muestra, y a ≤ n. Su varianza es mayor siempre que en el esquema B, por lo que no se presenta. Para estimar la varianza del estimador se requieren los estimadores de las varianzas de los T i.
122
CONCEPTOS DE MUESTREO 18. Razones, Promedios y Promedios en Dominios en el Muestreo Multietápico
En la sección anterior se obtuvieron los estimadores de totales y de sus varianzas en los esquemas A y B (que son los mas usados). Es necesario plantear estimadores de razones en muestreos polietápicos. Estos estimadores se usan en cuatro situaciones: 1) Se quiere estimar una razón de dos variables en la población, R=Y/X ; 2) Se desea estimar el promedio de Y en las unidades últimas de muestreo; 3) Estimar un promedio de Y en un subconjunto de las unidades últimas que tiene cierta propiedad (en un dominio); y 4) Usar el estimador de una razón, para mejorar la estimación de un total o un promedio de Y . El desarrollo que se presenta es general para los tres primeros casos, es decir estimar R; lo que se debe contemplar es qué variables se definen como la Y y la X medidas en cada unidad última de muestreo. Se tiene : Caso 1. Estimar R. Tanto la Y como la X son dos variables numéricas medidas en cada unidad. Caso 2. Estimar un promedio. La Y es una variable numérica medida en cada unidad última, y la X se hace idénticamente igual a uno, para toda unidad última. De este modo la estimación del total de X en la población, es la estimación del total de unidades últimas que hay en ella. Así, R es el cociente del total de las Y , entre el número de unidades, es decir un promedio. Caso 3. Estimar un promedio en un dominio. Promedio de la variable numérica Y , pero solo en las unidades que tienen A. En este caso se requiere definir una variable indicadora X ijk .. que tome el valor 1 si la unidad ijk ... tiene una propiedad cualquiera A (pertenece a un dominio), y cero si no la tiene. De este modo el estimador del total de esa variable en la población es el número de unidades que tienen la propiedad A (que pertenecen al dominio). Además, se define una nueva variable Y *, que sea el producto de la Y de interés y la indicadora de la propiedad, así Y*ijk.. = Y ijk..( X ijk.. ). Sea Y * el total de los valores de Y*ijk.. en la población, y X el total de los valores de X ijk .. Es claro que el cociente R= Y*/X es la suma de los valores de la Y ijk .. original, pero la suma se efectúa únicamente en las unidades que tienen A; por otro lado X es el número de unidades que tienen A, de modo que R es el promedio de las Y ijk .. originales en el subconjunto de elementos (dominio) de la población que tienen A. En los desarrollos presentados, se emplea una Y ijk .. y una X ijk .., según la definición de ellas se estará en el caso 1, el 2 o el 3. 18.1 Esquema A. Unidades Primarias de Muestreo (UPM ) seleccionadas por “mas“, y cualquier esquema de submuestreo de las USM . Se considera que del proceso de submuestreo de las UPM en muestra, en primera etapa, se obtienen tanto los estimadores de los totales de Y y de X , en las UPM , sean T yi y T xi respectivamente. Además se requiere la forma de estimar la varianza de un estimador de un total en la unidad primaria, es decir la forma de V(Ti) estimado, para cualquier cosa
123
CONCEPTOS DE MUESTREO que sea estimada con T i. El caso común es considerar una nueva variable Y ijk..- RX ijk.. entonces se plantea la estimación de la varianza del estimador del total de esa nueva variable en la UPM i. La forma general del estimador es
Rˆ
ˆ Y
N
n
T ∑ n
ˆ N X n
i
y i
n
∑ T x i
N ( T y N ( T x
) )
.
(18.1)
i
.
El estimador del error cuadrático medio del estimador anterior es : n 2 1 1 1 1 2 ˆ ˆ ˆ ( EC M ( R ) 2 { N − T y − RT x ) + SubM } ∑ ˆ X n N n − 1 i i
SubM
N
i
(18.2)
n
[V ˆ (T − Rˆ T )] ∑ n i
yi
xi
El término SubM representa la contribución al ECM de las unidades secundarias, terciarias, etc., dentro de cada UPM . Es muy común que el primer término, la variación entre totales de las UPM , sea mucho mayor que la parte debida al submuestreo (SubM ). Esto hace que en ocasiones solo se contempla, en la planeación de tamaños de muestra, el número de UPM en muestra, n. Este se determina al ignorar la parte SubM , y despejar n de la expresión:
ˆ ( Rˆ ) δ 1.96( EC M
1 2
)
n 1 2 1 1 1 1 2 ( T y − Rˆ T x ) }2 1.96{ 2 { M i − ∑ ˆ X n N n − 1 i i
i
124
CONCEPTOS DE MUESTREO Por supuesto que se requiere de información previa que dé una idea de la magnitud de la varianza de la variable T yi-RT xi entre UPM . Se puede tener esa idea si se descompone la varianza de la nueva variable en sus componentes Y y X .
{S + Rˆ S − 2 Rˆ ρ S S } 2
2
2
y
x
y
x
2
donde las S son las varianzas de Y y de X respectivamente y ρ es el coeficiente de correlación entre las Y y las X en las UPM . En el término SubM , la suma involucra las varianzas estimadas de los estimadores del total de la nueva variable Tyi-RTxi, en cada UPM . De manera que esos estimadores se deben obtener con las expresiones que resulten del tipo de submuestreo que se tenga en cada una de las UPM en muestra, serán las expresiones empleadas para estimar el total de una variable , Y ijk.. - RX ijk.... con R estimada, en cada UPM i, en muestra. Ejemplo 1. Bietápico Esquema A. “mas” en ambas etapas, estimación de razones.
Por ejemplo si solo hay unidades secundarias y éstas se toman por “mas”, entonces:
(T
yi
− Rˆ T x ) M i ( yi − Rˆ xi ) i
mi
(T − Rˆ T ) yi
xi
M i mi
mi
∑ (Y − Rˆ X ) M ij
ij
∑ (Y − Rˆ X ) ij
ij
j
i
mi
j
y su varianza estimada será: m m 1 1 1 2 ˆ (T y − Rˆ T x ) Mi − ˆ X ij ) − ∑ (Y ij − Rˆ X ij ) ( − V Y R ∑ ij m M j mi j i i i
i
(
2
i
i
1
)
ˆ T y − Rˆ T x Mi 2 V i
i
mi
−
1
{S y2 + Rˆ 2 S x2 − 2 Rˆ ρ S y S x } M i i
i
i
i
De modo que en este caso el término SubM de expresión (18.2) es:
SubM
N n
n
1
i
mi
∑ M i2
−
1 mi
1
∑ (Y ij − Rˆ X ij ) − M i j mi
ˆ ( Y R X ) − ∑ mi
ij
j
ij
2
125
CONCEPTOS DE MUESTREO En caso de que existieran unidades terciarias u otras adicionales, aun suponiendo que las USM se tomaron por “mas”, entonces los valores de Y ij y X ij se deben sustituir por sus correspondientes estimadores de totales en las USM , a partir del submuestreo. Ejemplo 2. Estimadores de promedios en un dominio con estratos en una etapa, con “mas” en cada estrato.
Suponga que se tiene un muestreo de viviendas, en la población de interés. Se tienen en una área urbana, cuatro estratos según niveles socioeconómicos. Las viviendas fueron identificadas en un estudio anterior, de modo que se tiene un marco de muestreo de viviendas en cada estrato. Se trata de un muestreo de una etapa, con estratos y se desea estimar una razón. En este caso se tiene que las N h son respectivamente 451,673, 234 y 1200. En cada estrato se toman por “mas” nh =20 viviendas (mismo tamaño en los 4 estratos). En cada vivienda i en muestra, se midió Y hi el ingreso del jefe de familia. Además se registró si el jefe de familia era inmigrante de los últimos tres años en esa área urbana o no lo era. Se quiere estimar el promedio de ingreso de los inmigrantes, y además un estimador de la varianza del estimador. El promedio por estimarse es el total de la suma de los ingresos de los inmigrantes entre el número de ellos. Como no se conocen esos dos totales, hay que estimarlos y formar el cociente. Es decir se trata de un estimador de razón. En este caso se definen dos nuevas variables.
Yhi YIhi 0
JefeMigrante JefeNoMigr ante
1 JefeMigrante Xhi 0 JefeNoMigr ante De tal manera que el promedio que se quiere conocer es la suma de todos los valores de YI hi en la población, que es el total de ingresos de los emigrantes, entre el total de Xhi, que es el número de emigrantes en la población. El estimador es entonces 451 20 673 20 234 20 1200 20 + + + YI 1 i YI 2 i YI 3 i YI 4i ∑ ∑ ∑ ∑ ˆ ∑ Y I 20 20 20 20 i i i i Rˆ IngMigr Lh 20 20 20 20 ˆ 451 673 234 1200 X ∑h X ˆh 20 ∑i X 1i + 20 ∑i X 2i + 20 ∑i X 3i + 20 ∑i X 4i L
ˆh Y I
El error cuadrático medio es, tomando la expresión del estimador de Yc y su ECM , pero ahora dividiendo entre el estimador de X : L 1 1 2 ˆ 2 2 2 1 ˆ [S yh + R S xh − 2 Rˆ ρ S yh S xh ] ECM ( R ) 2∑ N h − ˆ h X nh N h
126
CONCEPTOS DE MUESTREO nh
ECM ( Rˆ )
1 1 2 ˆ ˆ ˆ ˆ ( − ) V Y I R X N V { ∑ ∑ h h h 2 ˆ ˆ X h X h L
L
∑ (YIhi− Rˆ Xhi) i
nh
}
18.2 Esquema B.
Las UPM se seleccionan mediante un ppt con reemplazo. Cada UPM se submuestrea de manera independiente, el número de veces que quede en muestra. Por supuesto que la medida de tamaño debe tener una buena proporcionalidad con los valores de Y i, y si es posible también de los de X i. Por ejemplo puede ser usada para las probabilidades de selección el número de USM o de UUM , en cada UPM i, con una información previa.
1
n
T y
∑ n P i
ˆ Y ˆ R ˆ X 1
i
i
n
T x
∑ n P i
i
Z y Z x
i
El estimador del error cuadrático medio del estimador de R anterior es:
ˆ ( Rˆ ) EC M
1 1 1 ∑ 2 ˆ X n n − 1 i n
2
T y
2 T x S 1 z ˆ R − ˆ2 P i X n P i i
i
Donde, se aplica la expresión de la varianza de un nuevo promedio estimado, si se considera la variable:
Z i
T y − Rˆ T x i
i
P i
Z y − Rˆ Z x i
i
Entonces, S 2 z es la varianza de esta nueva variable entre las UPM en muestra. Nótese que la media de la nueva variable Z i, es cero, ya que el estimador de R es el cociente de la media de Zxi entre la media de Zxi. Es importante notar de nuevo que para estimar el error cuadrático medio de R, no se requieren los estimadores de las varianzas de Tyi ni de Txi. Esto hace que para el estimador del ECM , no importe cuantas etapas se tenga o la forma general del submuestreo de las UPM .
127
CONCEPTOS DE MUESTREO Estimador de R en muestreo con estratos, varias etapas y con selección de UPM con esquema B.
En este apartado se considera el caso muy general de un muestreo multietápico, con diseños de muestra que pueden ser variables en cada UPM en muestra. Pero suponemos que hay estratos de las UPM y en cada estrato se selecciona la muestra con esquema B. El estimador de R, es:
L
ˆ Y Rˆ ˆ X
∑ Y ˆ h
h L
∑ X ˆ h h
L
1
h
h
nh
T hyi
∑ n ∑ P T
1
h
h
i
nh
hi
T hxi
∑ n ∑ P i
L
∑ Z
hy
h L
∑ Z hx
hi
(18.3)
h
En cada estrato el estimador del total de la Y (o de la X ), es la suma de los promedios de variables Zhyi,
Z h y
1 nh
nh
T hyi
∑ P i
hi
El error cuadrático medio estimado del estimador de R anterior es el siguiente:
T hyi − Rˆ T hxi 1 n T hyi − Rˆ T hxi 1 1 ˆ ˆ EC M ( R ) 2 ∑ ∑i P − n ∑i ˆ n ( n 1 ) P − h X h h hi h hi L
nh
2
h
(18.4)
Nótese, de nuevo que se trata de la varianza de una nueva variable, entre las UPM i en muestra. Esa nueva variable Z*hi es
T hyi − Rˆ T hxi P hi
* ˆ Z hyi − R Z hxi Z hi
de modo que se simplifica conceptualmente a:
128
CONCEPTOS DE MUESTREO L 1 ˆ ( Rˆ ) ∑ 1 V ˆh ( Z hi* ) EC M ˆ 2 h nh X
Estimador de R en muestreo con estratos, varias etapas y con selección de UPM con esquema A.
Se presenta el caso del esquema A, selección por “mas” de las UPM y con un submuestreo arbitrario de las USM , y etapas subsecuentes en cada UPM . Además con las UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al submuestreo, de manera que es una situación muy semejante al caso de una etapa, estimar R con muestreo aleatorio simple con estratos en las etapas. Las expresiones son muy semejantes a las planteadas en el caso de estimar un total basado en una razón. La información esta dada por muestras independientes, de UPMs obtenidas por Muestreo Aleatorio Simple (“mas”) en cada estrato, de tamaño nh y en cada UPM se estiman los totales Y hi y X hi, en cada UPM , sean éstos
ˆ hi ˆhi X Y Donde i= 1,...,n h y h=1,...L. Se conocen los tamaños de los estratos N h. Y con ellos sus ponderadores W h = N h /N . Se pueden forma dos tipos de estimadores que son, el Separado y el Combinado. Separado : nh
L
L
Rˆ s ∑W h Rˆ h ∑W h h
h
∑Y ˆ
hi
L
∑W h
i nh
∑ X ˆ
h
hi
ˆ N hY h
ˆ N X h
h
ˆh Y
L
∑W X ˆ h
h
h
i
Combinado:
N h n ˆ ∑h Y ˆh ∑h n h ∑i Y hi Y ˆ Rˆ c L L L ˆ N h X ˆ ˆ X hi ∑h X h ∑ ∑ nh i h L
L
h
En el separado, el sesgo de los estimadores de la razón en cada estrato, se puede acumular, si hay muchos estratos. 129
CONCEPTOS DE MUESTREO Si las razones en los estratos Rh, difieren mucho de un estrato a otro y los tamaños de muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es preferible. Si los tamaños de las muestras en los estratos son pequeños, o los estratos tienen Rh semejantes o ambas cosas, el estimador combinado es preferible. Los errores cuadráticos medios son los que siguen: L
ECM ( Rˆ s ) ∑
1
W h2
2 N ( ) h 2
ˆh h 1 X
nh
−
1
[S y2 + Rˆ h2 S x2 − 2 Rˆ h ρ h S y S x N h h
h
h
L 1 1 1 2 ˆ 2 2 [S y + Rc S x − 2 Rˆ c ρ S y S x ECM ( Rˆ c ) 2 ∑ ( N h2 ) − ˆ h 1 X nh N h h
h
h
h
]
h
]
Lo que esta en el último paréntesis cuadrado es más fácil de calcular, sí se considera que equivale al computo de la varianza al interior de cada estrato de una nueva variable, que es para el caso del combinado
ˆhi − Rˆ h X ˆ hi Y y para el separado
ˆhi − Rˆc X ˆ hi Y Así para el separado:
[
ˆ y2 + Rˆ h2 S ˆ x2 − 2 ρ ˆ h S ˆ y S ˆx ˆh (Y ˆhi − Rˆ h X ˆ hi ) S V h
1 ˆ ˆ ˆ ∑ (Y hi − Rh X hi ) − nh − 1 i 1 nh
1
nh
h
nh
∑ 11
h
h
2
ˆ hi ) (Y ˆhi − Rˆ h X
Y para el combinado:
2 2 ˆ2 ˆ ˆ y S ˆx ˆ ˆ ˆ ˆ ˆ ˆ S [ V h (Y hi − Rc X hi ) S y + Rc S x − 2 ρ h
1 ˆ ˆ ˆ ( ) Y − R X − ∑ hi c hi n nh − 1 i 1 h
1
nh
h
nh
∑ 1 1
]
h
h
]
2
ˆ hi ) (Y ˆhi − Rˆ c X
130
CONCEPTOS DE MUESTREO
19. Análisis de tablas de contingencia en encuestas complejas
Los principales desarrollos se obtienen del libro de Lehtonen y Pakhinen (1995). En una encuesta, si las pruebas de bondad de ajuste, de independencia o de homogeneidad, se efectúan con las proporciones observadas directamente en la muestra, como si fueseiid , se tienen dos problemas, que invalidan las pruebas. Uno es la falta de representatividad cuando la muestra no es autoponderada y el otro la falta de independencia que principalmente se debe a las correlaciones de los datos al interior de los conglomerados, UPM , USM , etc. Se han diseñado varias maneras para obtener pruebas válidas o por lo menos aproximadamente válidas. 19.1 Pruebas de Bondad de Ajuste
Suponga que se tiene una variable categórica con u mayor o igual a 2 categorías y que se quiere probar la hipótesis que establece Ho:p j=poj , donde j=1,2,.... u. Y además el valor p j
N j N
es la proporción poblacional de elementos que caen en la categoría j. N j es el
total de elementos en la categoría j en la población y N el total de ellos. La hipótesis de nulidad se puede escribir en forma vectorial como Ho : p =p o donde los vectores son de dimensiones u-1, así p=(p1. p2 , p3 ,...pu-1 ) y po=(po1.po2 , po3 ,...,pou-1 ). El vector desconocido de proporciones se estima con los estimadores de totales que se tiene para cada diseño, así sea Y ij=1 si el elemento i-ésimo de la muestra esta en la categoría j ,y 0 si no; entonces n Y n ˆj N 1 ij ˆ ˆ N j j 1,2,...u . y N ∑ de modo que pˆ j ˆ π π N i 1 i 1 i i
∑
Otra manera de estimar a esas proporciones, involucra las llamadas frecuencias observadas corregidas por diseño nˆ j . Para esto se obtienen los pesos o factores de expansión ajustados a que su suma sea n, el tamaño de muestra.
ˆ N
n
1
n
i
i
∑1 π ∑1 W entonces i
i
si se ajustan los pesos a pesos que respeten las
proporciones de expansión pero que sumen a n el tamaño de la muestra, se tiene: n n n * * * W i W i y entonces nˆ j X ijW i y n ∑ W i . Las proporciones estimadas ˆ N i 1 i 1 nˆ son entonces pˆ j j ... j 1,2,...u . En la mayoría de los muestreos polietápicos el
∑
n
tamaño de muestra no es fijo, entonces para obtener las varianzas o ECM de las 131
CONCEPTOS DE MUESTREO proporciones estimadas, se usan las expresiones de varianza de estimadores de razón. Para obtener las covarianzas entre dos estimadores se usan las expresiones de varianza pero se substituyen los cuadrados de desviaciones por producto de desviaciones. Esquema A. Sin estratos y con Unidades Primarias de Muestreo (UPM ) por “mas“, y cualquier esquema de submuestreo de las UPM .
pˆ j
ˆ j N ˆ N
N UPM
nUPM N UPM nUPM
seleccionadas
n
∑ Tyij i n
∑ Txi i
N UPM ( T y N UPM ( T x
) ) .
(19.1)
Donde se tiene que N UPM y nUPM son el número de UPM en la población y en la muestra respectivamente; Tyij es el total estimado de unidades en la categoría j en la UPM i, Txi el total estimado de unidades en la UPM i. El estimador del error cuadrático medio del estimador anterior, por la aproximación en series de Taylor es : n 1 1 1 2 1 2 ˆ ( pˆ j ) 2 { N UPM ( ) − EC M Tyij p Txi − + SubM } (19.2) ˆ ∑ j n n ˆ N 1 − N i UPM UPM UPM
El término SubM representa la contribución al ECM de las unidades secundarias, terciarias, etc., dentro de cada UPM . Es muy común que el primer término, la variación entre totales de las UPM sea mucho mayor que la parte debida al submuestreo (SubM ), por lo que se puede ignorar en la mayoría de los casos. La covarianza entre dos proporciones estimadas, también con la aproximación en series de Taylor es: n 1 1 1 2 1 C oˆv ( pˆ j pˆ j* ) 2 { N UPM − ∑i (Tyij − pˆ jTxi )(Tyij * − pˆ j*Txi )+ SubM } ˆ n N n − 1 N UPM UPM UPM En este último término se obtiene la covarianza entre los totales de las variables Tyij − pˆ j Txi para j y j*. Estimador de p j, p j* , varianzas ( ECM ) y covarianzas, en muestreo con estratos, varias etapas y con selección de UPM con esquema B.
En este apartado se considera el caso muy general de un muestreo multietápico, con diseños de muestra que pueden ser variables en cada UPM en muestra. Pero suponemos que hay estratos de las UPM y en cada estrato se selecciona la muestra con esquema B de Raj, es decir las UPM se toman con ppt con reemplazo y en cada selección (aun en unidades repetidas) se hace un muestreo de USM , UTM , etc. con cualquier diseño, se requieren únicamente estimadores de totales en las UPM . El estimador de p j, es:
132
CONCEPTOS DE MUESTREO L
pˆ j
ˆ j N ˆ N
L
1
nh
∑ N ˆ h ∑ nh ∑ Phi j
h L
∑ N ˆ h h
h T
1
i nh
Thxi
∑ nh ∑ Phi h
L
Thyij
i
∑ Z hyj h L
(19.3)
∑ Z hx h
En cada estrato, se toman nh UPM de muestreo con ppt , y el estimador del total de elementos en el estrato h y en categoría j-ésima, es la suma de los promedios de variables Zhyij , donde las variables son Thyij que es el total de elementos estimado en la UPM i-ésima y que pertenecen a la categoría j, dividido entre Phi que es la probabilidad de selección de la UPM i-ésima en el estrato h. En el denominador es la suma de promedios de las variables Zhxi que es el cociente de Thxi que es el total estimado de elementos en la UPM i-ésima, dividido entre Phi.
Z h y
1 nh
nh
Thyij
i
Phi
∑
El error cuadrático medio estimado del estimador de p j anterior es el siguiente: n Thyij − pˆ j Thxi 1 1 L 1 ˆ EC M ( pˆ j ) 2 ∑ − ∑i ˆ n n Phi nh − ( 1 ) h N h h h
nh
∑ i
Thyij− pˆ j Thxi Phi
2
(19.4)
Nótese, de nuevo que se trata de la varianza de una nueva variable, entre las UPM i en muestra. Esa nueva variable Z*hij es
Thyij − pˆ j Thxi Phi
Zhyij − pˆ j Zhxi Z hij*
de modo que se simplifica conceptualmente a:
1 L 1 ˆ * ˆ EC M ( pˆ j ) 2 ∑ V h ( Z hij ) ˆ N h n h Para la covarianza (analogía con ECM ) de estimadores p j y p j*, se substituyen cuadrados de desviaciones por productos de ellas.
Covˆ( pˆ j , pˆ j* ) nh Thyij − p Thxi ˆ j 1 1 nh Thyij− pˆ j Thxi Thyij * − pˆ j*Thxi 1 nh Thyij *− pˆ j * Thxi 1 L 2 ∑ − − ∑ ∑ Phi ˆ h nh(nh − 1) ∑ Phi nh i Phi nh i Phi N i
133
CONCEPTOS DE MUESTREO Estimadores de p j , p j* , varianzas ( ECM ) y covarianzas, en muestreo con estratos, varias etapas y con selección de UPM con esquema A.
Se presenta el caso del esquema A, selección por “mas” de las UPM y con un submuestreo arbitrario de las USM , y etapas subsecuentes en cada UPM . Además con las UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al submuestreo, de manera que es una situación muy semejante al caso de una etapa, estimar p j con muestreo aleatorio simple con estratos en las etapas. Las expresiones son muy semejantes a las planteadas en el caso de estimar un total basado en una razón. La información está dada por muestras independientes, de UPMs obtenidas por Muestreo Aleatorio Simple (“mas”) en cada estrato, de tamaño nh y en cada UPM se estiman los totales Y hij, total de elementos en la UPM i-ésima y en la categoría j; y X hi, total de elementos en la UPM i-ésima, sean estos
ˆ hi ˆhij X Y Donde i= 1,...,nh. y h=1,...L. Se conocen los tamaños de los estratos N h. Y con ellos sus ponderadores W h = N UPMh /N UPM , donde N UPMh es el número de UPM en estrato h y N UPM el número total de UPM en la población. Se pueden forma dos tipos de estimadores que son, el Separado y el Combinado. Separado : nh
L
L
pˆ js ∑W h pˆ j h ∑W h h
h
∑Y ˆ
hij
L
i nh
∑ X ˆ hi
∑W h h
ˆ N UPM hY hj ˆ X
N UPM h
L
∑ W h h
h
ˆhj Y ˆh X
i
L
∑
L
Combinado :
pˆ j c
∑ N ˆ hj h L
∑ N ˆ h h
h L
∑ h
N UPM h nh N UPM h nh
nh
∑ Y ˆ
hij
i L
∑ X ˆ hi
ˆj N ˆ N
i
En el separado, el sesgo de los estimadores de la razón en cada estrato, se puede acumular, si hay muchos estratos. Si las proporciones en los estratos phj, difieren mucho de un estrato a otro y los tamaños de muestras nh, en cada estrato son razonablemente grandes, el estimador por separado es preferible. Si los tamaños de las muestras en los estratos son pequeños, o los estratos tienen phj semejantes o ambas cosas, el estimador combinado es preferible.
134
CONCEPTOS DE MUESTREO Los errores cuadráticos medios son los que siguen: L 1 W 2 h 2 1 2 2 2 ( ) ECM ( pˆ j s ) N − Sy + p Sx h h − 2 p ˆ ˆ j h ρ h Syhj Sxh UPM jh j 2 h ˆ N n N h h 1 UPM h h
[
∑
]
1 L 1 2 1 2 2 2 [ ECM ( pˆ j c ) 2 ∑ ( N UPM h ) − Sy p Sx + h − 2 p ˆ ˆ j c ρ Syhj Sxh ] hj j c ˆ h 1 N n N UPM h h Lo que está en el último paréntesis cuadrado es más fácil de calcular, sí se considera que equivale al computo de la varianza al interior de cada estrato de una nueva variable, que es para el caso del combinado:
ˆhij − pˆ j X ˆ hi Y h y para el separado.
ˆhij − pˆ j X ˆ hi Y c Así para el separado:
[
ˆ xh − 2 ρ ˆ h S ˆ y hj S ˆxh ˆh (Y ˆhij − pˆ j X ˆ hi ) S ˆ y hj + pˆ j h S V h 2
2
2
ˆ hi ) − 1 (Y ˆhij − pˆ j h X ∑ nh − 1 i1 nh
1
nh
] ˆ hi ) (Y ˆhij − pˆ j h X
nh
∑ 11
2
Y para el combinado:
[
ˆ yhj + pˆ j S ˆ xh − 2 ρ ˆ y hj S ˆxh ˆh (Y ˆhij − pˆ j X ˆ hi ) S V ˆ S c c 2
2
2
] 2
n 1 ˆ ˆ ˆ ˆ ( ) ( ) Y p X Y p X − − − ˆ ˆ ∑ ∑ hij j hi hij j hi c c nh − 1 i 1 nh 11 Para las covarianzas, se sustituyen cuadrados de desviaciones por productos de desviaciones, Así una covarianza entre dos estimadores p j y p j* será entonces, la obtenida al sustituir en el último paréntesis en el ECM , el término al cuadrado por un producto (solo se indica para el combinado).
1
nh
h
ˆhij − pˆ jc X ˆ hi )(Y ˆhij* − pˆ j*c X ˆ hi )] Covˆ[(Y
1
nh
1
nh
∑ { (Y ˆhij − pˆ j c X ˆ hi ) −
nh − 1 i 1
nh
∑ 1 1
1
nh
ˆ hi ) (Y ˆhij* − pˆ j* X ˆ hi ) − (Y ˆhij − pˆ j c X c
nh
∑ 1 1
ˆ hi ) (Y ˆhij* − pˆ j* c X
135
CONCEPTOS DE MUESTREO Estadística de Wald
Con las varianzas y covarianzas estimadas, según esquema B o A de Raj, se construye la matriz V diseño (u-1 X u-1), de varianzas del vector pˆ ( pˆ 1 , pˆ 2 ,... pˆ c− 1 )" Entonces la estadística de Wald, para la hipótesis es 2 " −1 ˆ diseño ( pˆ − po ) χ wald ( pˆ − po ) V (Wald) Si la hipótesis p=po es cierta, la estadística tiene asintóticamente una distribución Χ2 con c-1 grados de libertad. Pueden existir problemas de inestabilidad en la estimación de la matriz, pero si el número de UPM en muestra es grande y el número de celdas c, es pequeño, el estimador es estable. Si el valor de f = n UPM –L es pequeño la estimación de las varianzas y covarianzas es inestable. Donde nUPM es el número de UPM en la muestra y L el número de estratos. Para corregir esta inestabilidad lo que se hace es usar una distribución F , con u-1 y f-u-2 grados de libertad, como sigue: f − u − 2 2 F 1, wald χ wald f (u − 1) Una segunda corrección con distribución F con u-1 y f grados de libertad es F 2, wald
χ wald
2
u −1 Note que si f es pequeño, el valor de P para la F con 1 y f grados de libertad es mayor que el de la Χ2 con un grado de libertad, pero si f crece la diferencia se hace menor.
Estadísticas de Pearson y Ajustes de Rao-Scott
Una expresión que usa la estadística de Pearson, es la que solo corrige el problema de falta de representatividad al usar las frecuencias observadas pero corregidas por factores de expansión. 2 2 u (n n ( p − p ) ˆ j − npo j ) ˆ j oj 2 " −1 (Pearson) χ p ∑ n∑ n( pˆ − po ) P o ( pˆ − p o ) j 1
npoj
poj
j 1
donde P o /n es la matriz c-1, c-1 de varianzas y covarianzas de las proporciones muestrales suponiendo muestreo iid y además que la Ho es cierta. P o =diag( po )- po p´ o ,
Además el operador diag( po ) genera una matriz diagonal con elementos poj. Sin embargo la distribución de esta estadística de prueba no es asintóticamente Χ2, con 2 u-1 gl. La distribución es en realidad una suma ponderada de Χ con 1 gl. Es decir se c −1
tiene una distribución como χ p ≈ ∑ δ j 2 Z j 2 donde las Z j son variables independientes 2
j 1
con distribución normal con media cero y varianza 1. (Z j2 son Χ2 con un gl). Los valores de las δ j son los eigenvalores de la matriz de efectos de diseño generalizada que es: −1
D P o V , donde para simplificar se tiene V V diseño . 136
CONCEPTOS DE MUESTREO Esos eigenvalores se llaman efectos de diseño o DEFF generalizados, y debe notarse que no son los DEFF para cada proporción estimada p j, que serán d j, donde d j
V diseño ( pˆ j )
pˆ iidj (1 − pˆ iidj ) , con pˆ iidj el estimador directo sin ajustar, de la proporción en la n
celda j-ésima. Entonces, si bien la estadística de Pearson corrige por falta de representatividad, ya que usa las proporciones estimadas vía razones con factores de expansión, no corrige por la falta de independencia dentro de UPM , y por esto no tiene distribución asintótica Χ2 con c-1 gl. Entonces se han diseñado varias correcciones para esto. 1ª Corrección, ajuste por DEFF promedio.
Se obtienen los DEFF estimados para cada proporción en cada celda, y se obtiene su
ˆ. 1 ∑ d ˆ j , y entonces la estadística de prueba es : promedio d u
u j 1
ˆ.) χ p (d 2
χ p
2
(
2
Ajuste promedio)
ˆ. d Este ajuste hace que cuando hay efectos de conglomeración, es decir coeficientes de correlación intraconglomerados positivos, los DEFF son mayores que uno y se disminuye el valor de la estadística de prueba. Esto no requiere el cálculo de estimadores de las covarianzas entre estimadores de proporciones, solo de las varianzas. Esta corrección se obtiene también si se calcula un tamaño de muestra efectivo promedio
ne
n
ˆ. d
, y se usa en lugar de n en la expresión de la estadística de Pearson.
2ª Corrección, Rao-Scott de primer orden.
Si la hipótesis de nulidad es cierta, entonces la esperanza de la estadística de Pearson es 2
E ( χ p )
χ 2 p
u −1
∑1 δ
j
de manera que entonces E (
j
δ
) E ( χ u− 1 2 ) u − 1
u −1
Donde δ
∑1 δ j
j
, es decir es la media de los eigenvalores de la matriz de DRF u −1 generalizada. Entonces si se divide la estadística de Pearson entre este promedio, al menos su esperanza si es la de una Χ2 con u-1 gl.
χ p (δ ˆ ) 2
χ p δ ˆ
2
(
1er Ajuste)
137
CONCEPTOS DE MUESTREO Donde δ ˆ es el promedio estimado de los efectos de diseño generalizados. No se requiere estimar todos los eigenvalores, ya que este promedio se puede obtener a partir de los efectos de diseño de las celdas, por medio de la expresión: u p ˆ j ˆ (u − 1)δ ∑ (1 − pˆ j )d ˆ j j 1
poj
El ajuste a la estadística funciona teóricamente cuando los eigenvalores son todos iguales, pero se ha demostrado en la practica que funciona bastante bien si hay poca variación entre los eigenvalores. Otra ventaja de este ajuste es que se puede aplicar si se tienen los datos publicado de las proporciones en las celdas y sus DEFF , sin tener acceso a toda la base de datos de la encuesta, lo que se llama “Análisis secundario”. Este ajuste de Rao-Scott funciona mejor que el ajuste por la media. De nuevo si hay estabilidad en la estimación de varianzas y covarianzas, por pocos grados de libertad, con f = nUPM -L pequeño, se ajustan la estadística Χ2 a llevarlas a F La corrección de F es
2 χ p (δ ˆ ) ˆ F χ p (δ ) ésta tiene distribución asintótica aproximada como una F ˆ (u − 1)δ 2
(
)
central si Ho es cierta con u-1 y f grados de libertad. era
3
Corrección. Ajuste de segundo orden de Rao-Scott.
Si los eigenvalores tiene mucha variación entre ellos, se requiere un mejor ajuste, y este consiste en usar el coeficiente de variación de los eigenvalores. Por supuesto esto si requiere el conocimiento pleno de ellos, lo que implica el de la matriz de DEFF generalizada. Ahora se corrige la media y la varianza de la estadística de Pearson, el ajuste es
χ p (δ ˆ ) 2
χ p (δ ˆ , aˆ 2 ) 2
(1 + aˆ ) 2
(
o
2 Ajuste)
donde el estimador del coeficiente de variación de los eigenvalores es u −1
∑1 δ ˆ
j
2
aˆ
j
((u − 1)δ ˆ 2 )
−1.
Un estimador de la suma de cuadrados de los eigenvalores es u −1
u
u
∑ δ ˆ j 2 tr ( Dˆ 2 ) n 2 ∑ ∑V ˆdiseño ( pˆ j pˆ k ) / poj pok j 1
j 1 k 1
2
La estadística Χ 2º ajuste, tiene una distribución asintótica Χ2 con grados de libertad que se encuentran con el método de Satterthwaite y son
138
CONCEPTOS DE MUESTREO gl 2 o
u −1
1 + aˆ 2
Estadística
. de Neyman
La estadística de Wald supone que la Ho: p=po es cierta y con ese valor obtiene la matriz de varianzas y covarianzas. La estadística de Neyman estima la matriz de varianzas covarianzas con los estimadores simples de las p j en la muestra, como si fuesen iid . 2 2 u (n n ( p − p ) ˆ j − npo j ) ˆ j oj 2 " −1 ˆ ( pˆ − po ) ( de Neyman) χ N ∑ n∑ n( pˆ − po ) P p n p ˆ ˆ j 1 j 1 j j Donde ahora la matriz P/n es las varianzas y covarianzas de las proporciones estimadas sobre la base de esas mismas proporciones,
ˆ diag ( pˆ )− pˆ pˆ " . Si el diseño es con probabilidades iguales y con reemplazo la P estadística de Neyman tiene distribución Χ2 con u-1 gl. Pero con otros diseños de muestra requiere correcciones. Las correcciones a la estadística de Neyman, son las mismas que las que se hicieron en la estadística de Wald. 1.- Corrección por DEFF promedio, dividiendo entre el promedio de los DEFF para las proporciones. 2.- Corrección de 1er orden de Rao-Scott. Se divide entre el promedio de los efectos de diseño generalizados, los eigenvalores de la matriz de DEFF generalizada. 3.- Ajuste a distribución F de la 1era corrección, dividiéndola entre u-1. 4.- Ajuste de 2º orden de Rao-Scott, dividiendo el 1er ajuste entre 1 más el coeficiente de variación de los efectos de diseño generalizados. Análisis de residuos.
Si la hipótesis se rechaza, es de interés encontrar indicios de las celdas que provocan este rechazo, para esto se hace el análisis de los residuos. En el caso de muestras con iid , los residuos estandarizados son ( p= j − poj ) e= j , donde el error estándar del estimador de una proporción es el err =est iid = p= j = correspondiente elemento en la diagonal de la matriz de varianzas covarianzas según iid , ˆ P esto es de . n
Si el diseño no produce datos iid , se requiere estimar el error estándar de las proporciones con el diseño usado, es decir como la raíz cuadrada de la varianza verdadera de cada proporción estimada, así el residuo estandarizado es ( p= j − poj ) e= j estos residuos, si Ho es cierta, se consideran como variables err =est diseño = p= j = aleatorias aproximadamente con distribución normal con media cero y varianza uno, los residuos con valores mayores de 2 son sospechosos de causar el rechazo de la Ho. 139
CONCEPTOS DE MUESTREO Pruebas de Homogeneidad de vectores de proporciones
Los principales desarrollos se obtienen del libro Sarndal,Swensson and Wretman (1991). Si se tienen regiones sin traslape en la población, la homogeneidad se refiere a la igualdad de proporciones en la categorías de una variable categórica con c categorías, en las diferentes regiones. Sea p jk la proporción de casos en la categoría j en la región k , con j=1,2,...c y k=1,2, ..r, donde N jk es el número de elementos en la categoría j en región k , N k es el número de elementos en la región k , entonces p jk =N jk /N k es la proporción de elementos en la región k que están en categoría j de la variable categórica. c
Es claro que
∑1 p
jk
j
p jk p j "k
… ∀k ≠
1 ∀ k . La hipótesis de homogeneidad considera que Ho:
k " . Es decir que la proporción de elementos en la categoría j es la
misma para todas las r regiones, y esto para todas las categorías. Si la hipótesis es cierta se tiene que la proporción común para la categoría j es p+j =N +j /N +, donde N + j
r
∑1 N
jk
k
y N + es el tamaño de toda la población es decir la suma de los tamaños de
las regiones. Si se supone que de cada región se toma una muestra independiente, con cualquier diseño, pueden ser diferentes, con cada muestra se estiman las proporciones, como se vió en la sección anterior, mediante estimadores que toman en cuenta los factores de n ˆ k ∑ 1 , sea la variable indicadora Y j = 1 si el elemento está en la expansión, N k
i 1
π ik
nk
ˆ jk ∑ categoría j de la variable categórica y cero de otro modo, entonces N
Y j
i 1 π ik
y
donde π ik es la probabilidad de inclusión de la unidad i en la muestra de región k . ˆ jk N Entonces el estimador tipo Horvitz-Thompson de las proporciones es pˆ jk . Para ˆ k N fines de expresiones de Χ2, es preferible usar el estimador en términos del tamaño de muestra, es decir otra manera de estimar a esas proporciones, involucra las llamadas frecuencias observadas corregidas por diseño nˆ jk . Para esto se obtienen los pesos o factores de expansión ajustados a que su suma sea nk , el tamaño de muestra de la región k . n n 1 ˆ k ∑ ∑ W ik , entonces si se ajustan los pesos a pesos que respeten las N i 1
π ik
i 1
proporciones de expansión pero que sumen a nk el tamaño de la muestra en región k , se
140
CONCEPTOS DE MUESTREO *
tiene : W ik
n k
ˆ k N
W ik y entonces nˆ jk
n
∑1 Y W ijk
*
ik
n
y nk ∑ W ik * . Las proporciones
i
estimadas son entonces pˆ jk
nˆ jk n k
i 1
... j 1,2,...u . De otro modo
nˆ jk n k pˆ jk . Dentro de cada región se estiman las varianzas y covarianzas de acuerdo al
diseño de las proporciones, se ignora la última dado que
c
∑ pˆ
jk
1 .
c
ˆk ) v kjj* , donde el término v kjj* Se tiene así una matriz c-1 por c-1 V k V diseño ( P representa la covarianza según diseño entre pˆ jk . y.. pˆ j*k ...... j, j* 1,2,...u− 1 Se supone ˆk ) vˆkjj* . que se cuenta con un estimador consistente de esas covarianzas V ˆk V ˆdiseño ( P Se tiene varias opciones para efectuar la prueba, son estadísticas semejantes a las del caso de bondad de ajuste. 1.- Estadística de Wald
Considere el vector de dimensiones (r-1)(c-1) ˆ1 − P ˆr )",...., ( P ˆk − P ˆr )" ,.., ( P ˆr − 1 − P ˆr )" ]" Qˆ [( P La matriz de varianzas y covarianzas de ese vector es la matriz de dimensiones ˆ (Qˆ ) ⊕ r −1 k 1V ˆk + V ˆk ⊗ J , y donde ⊕ (r-1)(c-1) x (r-1)(c-1), que es : V es la suma directa de matrices, es decir considera las matrices V ˆk en las diagonal y ceros fuera de ella. Y J es una matriz de puros unos, y ⊗ = = Qˆ tiene una distribución asintótica normal con media cero y matriz de varianzas estimada por ˆ (Qˆ ) . Para esto se requieren tamaños de muestra grandes. V La estadística de Wald es : −1
ˆ (Qˆ )] Qˆ χ w Qˆ " [V Esta estadística tiene distribución asintótica Χ2 , con (r-1)(c-1) gl. Sin embargo es tedioso obtener la matriz de covarianzas y su inverso, por esto se han diseñado varias aproximaciones. 2
2.- Estadísticas de Pearson modificadas
La estadística de Pearson, que corrige por falta de representatividad pero no por falta de independencia es : 2 r c (n p ˆ + j ) k ˆ kj − n k p 2 χ p ∑ ∑ k 1 j 1
nk pˆ+
j
141
=
CONCEPTOS DE MUESTREO Donde se tiene el promedio ponderado de proporciones en celda j, para las r regiones 1 r pˆ + j ∑ nk pˆ kj . Si todas las muestras son autoponderadas, esta estadística es la usual n
k 1
(la que obtendría cualquier paquete estadístico), es decir la que se obtendría si se construye la tabla de contingencia sin hacer ajustes y obtiene la prueba de Χ2. Sin embargo, en caso autoponderado o no, la distribución de la estadística es asintóticamente como una suma ponderada de Χ2 con 1 gl. 2
χ p ≈
( c −1) ( r − 1)
∑1
2
2
δ j Z j . De nuevo las δ j son los eigenvalores de la matriz de efectos de
j
1 diseño generalizados, que es n( F ⊗ R )V (Qˆ ) , donde el término que multiplica a V(Q) es la matriz de varianzas y covarianzas de los estimadores si se toman como una muestra iid . F diag ( f )− ff " r nk y n ∑ nk . donde f ( f 1 ,..., f k ,..., f r −1 )" con f k n k 1 Además R diag ( P )− PP " , donde P es el vector de proporciones comunes bajo Ho. −
Corrección por promedio de DEFF. Un corrección simple, pero aproximada, es dividir la estadística de Pearson entre el promedio de los DEFF para las proporciones estimadas, lo que equivale a ajustar las frecuencias a que ajusten a los tamaños de muestra efectiva en cada región, 2 χ v kjj 2 p χ md , donde , son los efectos de diseño de las proporciones d kj ˆ d p j (1− p j )
r
estimadas y d
n j
c
∑1 ∑1 d k j
rc
hj
.
Corrección por la media de efectos de diseño generalizados. 1era de Rao-Scott. Si las δ j no varían mucho, una buena aproximación es dividir la estadística de Pearson entre el promedio de ellas. 2 χ p 2 χ m . Para obtener el promedio de los eigenvalores, afortunadamente, no se δ ˆ requiere el conocimiento de cada uno de ellos. δ
r
c
∑1 ∑1 k j
wkj d kj , donde los pesos suman uno y son wkj
(1 − f k )(1 − pk ) , y las d kj (r − 1)(c − 1)
son los efectos de diseño de las proporciones estimadas, definidos arriba. Se reemplazan las varianzas y proporciones en las expresiones anteriores por sus estimadores consistentes.
142
CONCEPTOS DE MUESTREO Se pueden hacer los ajustes para F , si hay pocos grados de libertad en la estimación de varianzas; y también las correcciones de 2º orden de Rao-Scott, de manera semejante a la prueba de bondad de ajuste. Pruebas de Independencia
De nuevo, principalmente tomado del libro de Lethonen y Pahkinen(Op.cit). En este caso se considera que se tiene una sola muestra y que se clasifican los elementos en ella, de acuerdo a dos variables categóricas. Sean p jk , las proporciones poblacionales en celda jk ; con j=1, ...c y k=1...r , las categorías de ambas variables. Es decir p jk
N jk
r
∑1 ∑1 p
y además
N
c
jk
1 . La hipótesis de independencia supone que las
k j
proporciones en las celdas son iguales al producto de proporciones marginales, así, si p + k
c
∑1 p
jk
y p j +
j
r
∑1 p
jk
k
entonces Ho es: p jk p+ k p j + . Para la derivación de las estadísticas de prueba, conviene expresar la hipótesis en términos de diferencias Ho: F jk p jk − p + k p j+ 0 , y además solo considerar k= 1,..r-1 y j=1,..c-1, por el hecho de que las proporciones suman uno. Se forma entonces un vector columna de dimensiones (c-1)(r-1), que es F ( F 11 ,..., F 1,c −1 ,..., F r −1,1 ,..., F r −1,c− 1 )" . Se obtienen estimadores de las proporciones que corrigen por falta de representatividad, ˆ jk N es decir de tipo Horvitz-Thompson, pˆ jk , también se expresan en función de las ˆ N llamadas frecuencias observadas corregidas por diseño nˆ jk , mencionadas antes de modo que pˆ jk
nˆ jk
, éstos son estimadores de razón, por que en muestreos n polietápicos, n no es fijo de antemano. Además se obtiene una maotriz (r-1)(c-1) de ˆdiseño , se obtienen los varianzas y covarianzas para los pˆ jk , j=1...c y k=1, ..r , sea V ˆ jk pˆ jk − pˆ + k pˆ j + ésta es la diferencia entre proporciones observadas y las valores de F esperadas, todas ellas estimadas. Con éstas se obtiene ˆ ( F ˆ11 ,..., F ˆ1,c −1 ,..., F ˆr −1,1 ,..., F ˆr −1,c− 1 )" . F Una matriz de estimadores consistentes de las varianzas de F estimado es:
el
vector
ˆ F H ˆ "V ˆdiseño H ˆ , donde H ˆes la matriz de derivadas parciales de F con respecto a V p jk , evaluadas en pˆ jk .
ˆ jk , Para la estadística de Pearson, se usa una matriz de varianzas y covarianzas para las F que supone cierta la hipótesis en los estimadores, es decir la proporción estimada esperada en celda jk es pˆ jk −esperado pˆ + k pˆ j + . La matriz de covarianzas para el vector pˆ o
143
CONCEPTOS DE MUESTREO ˆo diag ( pˆ o )− pˆ o pˆ "o . De manera que la de proporciones estimadas esperadas es: P matriz de covarianzas del vector de las diferencias observado-esperado estimadas y bajo Ho, es :
ˆoF H ˆ " P ˆo H ˆ. P Para la estadística de Neyman se obtienen las covarianzas del vector de proporciones ˆ diag ( pˆ )− pˆ pˆ " , donde el vector de estimadas, sin suponer cierta la Ho. P dimensiones (r-1)(c-1), contiene pˆ jk
nˆ jk
. Entonces la matriz de covarianzas para el n vector de diferencias observadas-esperadas estimadas es:
ˆ F H ˆ " P ˆ H ˆ. P Estadística de Wald.
Esta estadística usa la matriz de covarianzas de las F , así se tiene: 2 ˆ " (V ˆ F )− 1 F ˆ χ Wald F Esta tiene distribución asintóticamente Χ2 con (c-1)(r-1) gl. En caso de que se tengan pocas UPM dentro de estratos, con f nUPM − L pequeño, conviene hacer la corrección de la distribución F , que es f − ( r − 1)(c − 1) − 1 2 F 1,Wald χ Wald tiene distribución aproximada F con (r-1)(c-1) y f ( r − 1)(c − 1) (f-(r-1)(c-1)-1) gl. Nótese que si f es pequeño, hay una reducción a la estadística Χ2 de Wald. Otra corrección tipo F es F 2,Wald
χ Wald
2
(r − 1)(c − 1)
la que se distribuye asintóticamente
como F con (r-1)(c-1) y f gl. Estadística de Pearson.
Si se usan los estimadores de las proporciones corregidos por factores de expansión y se obtiene con ellos la Χ2 usual, la de Pearson, se tiene: 2 r c ( p ˆ kj − pˆ j + pˆ + k ) 2 χ p n∑ ∑ , que tiene una distribución como suma de Χ2 con k 1 j 1
pˆ j + pˆ+ k
ponderadores dados por los efectos de diseño generalizados. Estadística de Neyman.
Si se usan los estimadores de las proporciones corregidos por factores de expansión, pero en el denominador se usan los observados corregidos en lugar de los esperados, se tiene:
144
CONCEPTOS DE MUESTREO 2
χ N n
r
c
∑1 ∑1
( pˆ
kj
− pˆ j + pˆ + k )2 pˆ jk
k j
, que también tiene una distribución asintótica como
suma ponderada de Χ2. Ajustes a las Estadísticas de Pearson y Neyman.
Para corregir el problema de la falta de independencia en las observaciones por efecto de conglomeración, se hacen ajuste a esas estadísticas. Ajuste por media de DEFF .
Se divide la estadística de prueba entre el promedio de los DEFF para cada una de las proporciones, así por ejemplo 2 χ 2 ˆ ) p , se distribuye asintóticamente como Χ2 con (c-1)(r-1) gl. Donde χ p (d ˆ d
ˆ d
c
r
j
k
∑1 ∑1 d ˆ
jk
rc
ˆdiseño ( pˆ jk ) V ˆ y d jk y donde n jk es el número observado de datos n jk n jk ( )1 − n
n
n en la celda jk , sin ninguna corrección. Primer ajuste de Rao-Scott.
Este ajuste iguala el valor esperado de la estadística de prueba con los gl de la Χ2 asintótica, y funciona cuando los efectos de diseño generalizados no son muy diferentes entre si. 2 χ 2 p χ p (δ ˆ ) , se distribuye asintóticamente como Χ2 con (c-1)(r-1)gl. Donde δ = = δ ˆ
= = =
=
=
= = =
= c
r
= =
=
r
r
j 1
k 1
pˆ jk (1 − pˆ jk ) pˆ jk + pˆ +k d ˆ jk − ∑ (1 − pˆ j + )d ˆ j + − ∑ (1− pˆ +k )d ˆ+ k δ ˆ (c − 1)(r − 1)∑ ∑ j 1 k 1
los DEFF marginales son, por ejemplo: ˆdiseño ( pˆ j + ) V ˆ d j +
(
n j +
)1 −
n
n j +
n
n
145
= = =
CONCEPTOS DE MUESTREO Usualmente es mejor la primera corrección de Rao-Scott que el ajuste por promedio de DEFF . Ambas correcciones se pueden hacer también a la estadística de Neyman. Si hay problemas de inestabilidad debido a pocos grados de libertad en la estimación de covarianzas, la corrección a F es: 2 χ p (δ ˆ ) 2 F χ p (δ ˆ ) , la que tiene asintóticamente una distribución F central , si Ho (r − 1)(c − 1) es cierta , con (r-1)(c-1) y f gl. También se hace la misma corrección para la estadística de Neyman. Segunda Corrección de Rao-Scott.
Para acercar no solo el primer momento de la estadística de prueba a la Χ2 con (c-1)(r1) gl., sino también el segundo momento, se hace la corrección por coeficiente de variación de los efectos de diseño generalizados. Esto implica el conocimiento pleno de la matriz de efectos de diseño generalizados.
χ p (δ ˆ ) 2
χ p (δ ˆ , aˆ 2 ) 2
(1 + aˆ ) 2
δ ˆ
donde δ = tr ( Dˆ )
(c − 1)(r − 1)
y la matriz de efectos de diseño generalizada
estimada es.
ˆ P ˆoF −1V ˆ F D y el coeficiente de variación es 2 ( c −1)( r −1) δ ˆl 2 aˆ ∑ − 1 , donde los δ ˆl son los eigenvalores de la matriz de ( c − 1)( r − 1) l efectos de diseño generalizados. Y la suma de cuadrados de ellos es: ( r −1)( c −1)
∑
ˆ 2). δ ˆl tr ( D 2
l
La estadística corregida por el segundo ajuste tiene distribución asintótica Χ2 con grados de libertad ajustados por Satterthwaite dados por (c − 1)(r − 1) gl 2 ajuste (1 + aˆ 2 ) También se pueden hacer los ajustes a la estadista de Neyman. o
Análisis de residuos.
Si la hipótesis de independencia se rechaza, conviene analizar los residuos para explorar las celdas que provocan el rechazo. El residuo estandarizado para una celda esta dado por ˆ jk F eˆ jk ˆ jk ) err .est ( F 146
CONCEPTOS DE MUESTREO Donde en el denominador está el error estándar de un residuo estimado. Estos se obtienen de las raíces cuadradas de los elementos de la diagonal de la matriz de covarianzas de los estimados de los residuos, dada antes. Inferencia sobre análisis con variables continuas.
Para el caso de modelos lineales y logísticos, así como otras técnicas multivariadas, es importante señalar el tipo de inferencia que se pretende hacer. Por que se pueden distinguir dos tipos básicos, el de poblaciones finitas y el de superpoblación. Modelos en poblaciones finitas. Se definen parámetros poblacionales que pueden ser coeficientes de correlación, coeficientes de correlación parciales o coeficientes de regresión parciales, como funciones de totales desconocidos en la población. Por ejemplo un coeficiente de correlación entre dos variables X y Y se puede definir para toda la población como: N N ( Y )( X ) ∑i 1 i ∑i 1 i N Y i X i − ∑ N N i 1 − Y X N ( Y X ) ∑ i i 1 r i N 2 N 2 2 − X N ( X ) i ∑ X i ∑ N i 1 i 1 2 X − i ∑ i 1 N La regresión entre una Y y variables X 1 ,X 2 , ...,X p , se puede considerar a nivel poblacional como la solución a las ecuaciones normales poblacionales que son
B ( X ´ X )− 1 ( X ´Y ) Donde la matriz ( X ´ X ) es la matriz que tiene las sumas poblacionales de productos entre las X j, quizá con una X o identifica a 1 siempre ( para la ordenada al origen o
intercepto),
N
∑1 X 1
N X ´ X
∑1 X 1
i
∑1 X 1
i N
i
N
∑1 X 3
i
i
N
N
i
i
i
N
i
∑1 X 2
i N
i
i
i
i
i
i
i N
i
i
∑1 X 2 X 3
2 i
∑1 X 3 ∑1 X 1 X 3 ∑1 X 3 X 2 i
i
∑1 X 1 X 2 ∑1 X 1 X 3
i
i N
i N
i
2
∑1 X 2 ∑1 X 1 X 2 i
∑1 X 2
i
i N
N
i N
N
i
i
N
i
∑1 X 3 i
i
2 i
147
CONCEPTOS DE MUESTREO N N
y el vector X ´Y
∑1 X 1 Y i N
i
i
∑1 X 2 Y i N
i
i
∑1 X 3 Y i
i
i
Entonces el problema de estimación, es estimar cada uno de los totales involucrados en las expresiones para r o para B y así obtener estimadores consistentes. Al tomar una muestra probabilística, se estiman los totales, involucrados con los factores de expansión adecuados según el diseño de muestra, los inversos de las probabilidades de selección. Así, n N n N n Y X ˆ ∑ 1 , .., ∑ Y i ˆ ∑ Y i y en general ∑ Y i X ji ˆ ∑ i ji , estas expresiones N i 1
π i
i 1
i 1
π i
i 1
i 1
π i
se sustituyen en las ecuaciones normales y se encuentra la solución para estimar B. Esto equivale a una regresión ponderada, donde los ponderadores son los factores de expansión, así Bˆ
( X ´WX )− 1 ( X ´WY ) ,
donde ahora las sumas son sobre los 1 datos de la muestra y la matriz W es diagonal con elementos dados por W i . Esto π i
corrige por la falta de representatividad y los efectos de conglomeración tiene un impacto muy leve sobre este estimador por lo que se pueden ignorar en la estimación puntual, sin embargo no lo son para estimar las varianzas. Para estimar las varianzas y corregir las pruebas de hipótesis sobre los coeficientes de regresión, se pueden usar dos procedimientos básicos, 1.- Técnicas de remuestreo y 2.- Estimadores de varianzas vía series de Taylor. Comentaremos aquí este último método. Estimadores de Varianzas en general, encuestas complejas.
De Skinner, Holt and Smith “Analysis of Complex Samples”. Wiley, 1989 y también Pierre St-Martin “Statistical Analysis of Complex Survey Data”. Curso impartido durante el Foro Nacional de Estadística Aguascalientes, México, Septiembre de 1993. Considérese sin pérdida de generalidad que se tiene una encuesta estratificada con tres etapas de muestreo, y sea U hdck , un valor asociado a la k -ésima unidad en la c-ésima USM , en la d -ésima UPM y en el estrato h-ésimo. Una estadística lineal es la que se define como la suma de esos valores sobre la muestra, así un parámetro estimado en forma lineal es: θ ˆ
L
l h
mhd nh dc
∑1 ∑ ∑1 ∑1 U
hdck
h
,
d d k
148
CONCEPTOS DE MUESTREO Por ejemplo, si se conoce N , el tamaño de la población, el estimador de la media de los valores de Y hdck , es el anterior con U hdck
Y hdck N π hdck
donde π hdck es la probabilidad de
inclusión del elemento hdck -ésimo. Bajo los supuestos: S1.- La muestras de los diferentes estratos son independientes. S2.- Las l h ( antes nUPM ) UPM se toman dentro de cada estrato con reemplazo. Nota importante, si es sin reemplazo, pero el tamaño de muestra es mucho menor que el número de UPM en la población, entonces el supuesto se cumple con buena aproximación. S3.- l h ≥ 2 Se puede reescribir el estimador lineal anterior, en términos de las UPM , como L
l h
θ ˆ ∑ ∑U hd h 1 d
donde U hd
∑ ∑U
hdck
c
, como para un conjunto de n
k
n n vaiid . Sean g i se tiene : V ∑ g g ∑ V ( g i ) nV ( g i ) , entonces el estimador de la i i
varianza
del
estimador
lineal
es:
ˆ ( ˆ) V θ
L
l l
l h
∑1 (l − 1)∑1 (U
hd
h
l
2
− U h ) ,
donde
d
l h
∑U
hd
U h
d
l h
.
La enorme ventaja de este estimador es que no importa cómo se hace el submuestreo de UPMs, la varianza del estimador es la misma, esto es igual al caso del esquema B de Raj. Si el supuesto S2 ocurre con muestras por “mas” de UPMs y sin reemplazo, se puede hacer una corrección a la expresión de la varianza: 2 L l h l l l ˆ ( ˆ ) ∑ 1 − V θ (U hd − U h ) donde Lh es el total de UPM en estrato h. Si ∑ L ( l ) − 1 h 1 d 1 h l la fracción de muestreo en cada estrato es pequeña, el término en paréntesis cuadrados es casi uno y queda la expresión anterior. h
Varianzas para parámetros no lineales.
Si el parámetro no lineal se puede expresar como una función de parámetros lineales, se extiende el método de linearización de Taylor como sigue: Sea Θ g (θ ) el parámetro y Θˆ g (θ ˆ ) el estimador, donde ahora θ ˆ es un vector de parámetros lineales de dimensión p. Es decir ′ ′ (U 1hd , U 2 hd , U 3hd ,...,U phd )′ . θ ˆ ′ (θ ˆ1 ,θ ˆ2 ,θ ˆ3 ,...,θ ˆ p ) U hd
149
CONCEPTOS DE MUESTREO Y donde por ejemplo U 3hd ∑ ∑U 3hdck c
k
Y hdck
∑ ∑ π 3 c
k
, y g(.) es una función no lineal.
hdck
La idea de la linearización es aproximar a Θˆ , por un estadística lineal. Esto se consigue al usar la aproximación en series de Taylor: p
p
p
j 1
j 1
j 1
ˆ g (θ ˆ ) g (θ ) + ∑ g j (θ )(θ ˆ j − θ ) ∑ g j (θ )θ ˆ j + g (θ ) −∑ g j (θ )θ j Θ ∂ g (θ ) . ∂θ j
Donde g j (θ )
En la última expresión solo el primer término contiene estimadores, el término entre paréntesis cuadrado es una constante; de manera que la varianza del estimador depende de la primera parte nada mas. p p p ~ θ ˆ U y g (θ )θ ˆ g (θ ) U U g (θ ) W , j
∑∑ h
∑1
jhd
j
∑1
j
j
d
j
j
∑∑ h
∑ ∑ ∑1
jhd
d
jhd
∑∑
j
d j
h
h
jhd
d
p
~ U g (θ ) . Esto es, la varianza de una suma de variables donde W ∑ jhd j jhd j 1
~ , entonces se sustituyen los parámetros lineales supuestamente independientes, las W jhd por sus estimadores según diseño, con factores de expansión y se tiene que W jhd
p
∑1 U
jhd
ˆ L g j (θ ˆ ) y entonces: V
L
l h
l l
(Θˆ ) ∑
∑ h 1 (l l − 1) d 1
j
2
(W hd − W h ) .
ˆ Y ˆ ) g (θ ˆ ) , donde se tiene Por ejemplo considere una razón Θˆ g (θ ˆ1 ,θ ˆ2 ) g (Y ˆ , X ˆ X que
′ ′ ˆ , X ˆ ) ∑ ∑ (U 1hd ,U 2 hd ) . θ ˆ ′ (Y h
U 2 hd
X hdck
∑ ∑ π c
k
Y
donde:
U 1hd
d
Y hdck
∑ ∑ π c
. Desde luego con Θ R
hdck
Y X
θ 1 θ 2
k
y
hdck
g (θ 1 ,θ 2 ) g (Y , X ) g (θ ) ,
Las derivadas parciales son respectivamente: p − θ 1 1 g 1 (θ ) y g 2 (θ ) 2 por lo que W jhd ∑ U jhd g j (θ ˆ ) W hd (U 1hd − Rˆ U 2 hd ) y θ 2
θ 2
j 1
esto en la expresión de varianzas produce: L
ˆ L ( Rˆ ) V
l l
l h
∑1 (l − 1)∑1 { (Ty h
l
hd
− Rˆ Tx hd ) −
d
l h
∑ (Ty l 1 h d
Tx 2 U 2 hd Tx hd
1
− Rˆ Txhd ) }
2
hd
, donde
X hdck
∑ ∑ π c
k
hdck
150
CONCEPTOS DE MUESTREO U 1hd Ty hd
Y hdck
∑ ∑ π c
k
hdck
X hdck
es decir Tx ∑ ∑ h
y entonces Tx es el estimador del total de X en la población,
∑ ∑ π
d
c
k
.
hdck
Regresión lineal simple.
Si se tiene como parámetro un coeficiente de regresión lineal entre una Y y una X , variables que si se midieran en todas la unidades de la población, el parámetro se define L
∑ ∑ ∑ ∑ (Y
− Y )( X hcdk − X )
hcdk
como: B
h
d
c
, en términos de parámetros lineales se
k
L
∑ ∑ ∑ ∑ ( X
hcdk
h
d
c
k
puede establecer que B θ 2
L
∑ ∑ ∑ ∑ ( X
− X )
2
θ 1 θ 2
.
L
Donde θ 1 ∑ ∑ ∑ ∑ (Y hcdk − Y )( X hcdk − X ) h
d
c
y
k
− X )2 . Estos se estiman en dos pasos, primero se estiman las
hcdk
h
d
c
k
ˆ y X ˆ y con ellas se definen dos variables asociadas respectivas medias poblacionales Y (Y − Y ˆ )( X hdck − X ˆ ) y a cada unidad de muestreo, estas son: U 1hdck hdck π hcdk
( X
2
hdck
U 2 hdck
ˆ) − X
,
π hhdck
L 1 ˆ θ 1 ∑ ∑ ∑ ∑ h
d
c
k
π hdck
entonces
se
estiman
los
parámetros
lineales
L ˆ ˆ ˆ (Y hcdk − Y )( X hcdk − X ) y θ 2 ∑ ∑ ∑ ∑ 1 ( X hcdk − X ˆ )2 , con h
d
c
k
π hdck
esta definición ahora se tiene que B se estima con un estimador de razón y su ECM , es 1 (Y hdck − Y ˆ )( X hdck − X ˆ ) y también el correspondiente. Sean U 1hd ∑ ∑ c
∑∑
U 2 hd
c
k
1 π hdck
π hdck
k
2
( X
ˆ hdck − X ) , entonces se tiene que W hd
L
ˆ L ( Bˆ ) ∑ expresión, V
l l
l h
∑ h 1 (l l − 1) d 1
(U 1
hd
− Bˆ U 2 hd ) θ ˆ2
y con esta
2
(W hd − W h ) .
Diferencia de dos Razones.
Considere ahora que el parámetro de interés es una diferencia de razones. Pueden ser considerando 4 totales de variables Y 1, Y 2, Y 3 y Y 4, o que algunas o todas las variables sean a su vez variables compuestas, por ejemplo una diferencia de dos coeficientes de regresión. Entonces se tiene Θ
θ 1 θ 2
−
θ 3 θ 4
R1 − R2 . Se definen las cuatro variables
151
CONCEPTOS DE MUESTREO convenientes, U 1hdck , U 2hdck , U 3hdck , y U 4hdck , asociadas a cada elemento de muestreo y que incluya los factores de expansión, es decir el inverso de las probabilidades de selección de cada elemento. Con ellos se obtiene los estimadores ponderados de los 4 parámetros
θ ˆ1
lineales:
∑ ∑U 1
hd
h
θ ˆ4
∑∑ h
∑ ∑ U 2
θ ˆ2
,
d
h
ˆ U 4 hd , con ellos se obtiene el estimador Θ
d
Se definen ahora dos variables nuevas W 1hd
(U 1
hd
hd
∑ ∑ U 3
θ ˆ3
,
d
h
θ ˆ1
−
θ ˆ2
θ ˆ3
θ ˆ4
− Rˆ1U 2 hd ) θ ˆ2
hd
y
d
Rˆ1 − Rˆ 2 .
y W 2 hd
(U 3
hd
− Rˆ 2U 4 hd ) θ ˆ4
Con ellas se tiene que W hd W 1hd − W 2 hd y la varianza de la diferencia estimada es: 2
θ ˆ1 θ ˆ3 L l l l ˆ V L (W hd − W h ) . − ∑ ∑ ˆ ˆ θ θ ( l ) − 1 h 1 d 1 4 l 2 El proceso de linearización para el caso de regresión lineal produce como se había señalado, que el vector de coeficientes de regresión se estima con: h
−1
ˆπ t ˆπ donde si X es el vector de variables independientes Bˆ T ˆ ), entonces T π
X´hdck =(X1hdck , X2hdck ,..., Xqhdck n
X hdck Y hdck
∑
t ˆπ
π hdck
muestra
n
X hdck X ′hdck
nuestra
π hdck
∑
y
y la matriz de varianzas y covarianzas del vector de los
coeficientes de regresión estimados es
ˆ ( Bˆ ) T ˆπ −1Σˆ T ˆπ − 1 y donde la matriz Σ es la matriz qxq con elementos dados por V n
n
i
j
U ihdck U jhdck
∑ ∑ ∆ π
hdck π hdck
donde ∆
(
)
π hdck ,h′d ′c′k ′ − π hdck ,π h′d ′c′k ′ π hdck ,h′d ′c′k ′
y con
′ Bˆ , i , j 1,...q . U ihdck X ihdck Y hdck − X hdck Los elementos de la matriz Σ , son los estimadores Horvitz-Thompson de las varianzas y covarianzas de U ihdck con U jhdck . Si se conoce el diseño y sus factores de expansión se pueden usar expresiones de esquemas A y B de Raj, o en el caso de que se tenga n<
∑
∑
l h
W ihd
U ihdck
∑ ∑ π
c
k
hdck
U jhdck
k
π hdck
, W jhd ∑ ∑ c
l h
∑W
∑W
ihd
y con W ih
d
l h
jhd
y W jh
d
l h
.
152
CONCEPTOS DE MUESTREO Uso de Esquemas A y B de Raj. El supuesto de que las UPM se
obtienen en cada estrato por muestreo con iguales probabilidades de selección y con reemplazo, es poco realista. Entonces las expresiones de errores cuadráticos para los parámetros complejos como funciones de parámetros lineales son una aproximación que funciona bien en la medida que se use “mas” en cada estrato y que nh<
Otro enfoque, adicional a los de linearización y de remuestreo, para la varianza de estimadores en los modelos lineales consiste en multiplicar los estimadores de los errores estándar de los coeficientes de regresión por la raíz cuadrada del DEFF de la media de la variable dependiente. Esto es un método conservador ya que los errores estándar que resultan son sobreestimaciones de los reales.
153
1
Estimadores de Razones y sus Errores Cuadráticos Medios. Planteamiento general El planteamiento general consiste en considerar a una nueva variable Ghijk..que es Y hijk ... − RX hijk ... asociada a la Unidad de muestreo hijk. .. Entonces, para obtener un estimador del ECM del estimador de R, se plantea la estimación de la varianza del estimador del total de esa nueva variable G hijk..en la población. La forma general del estimador es
ˆ
ˆ Y Rˆ = ˆ . X
.
El estimador del error cuadrático medio del estimador anterior es :
ˆ (Gˆ ) V ˆ ( Rˆ ) = EC M ˆ2 X Donde
Gˆ Es el total estimado para Ghijk.. la nueva
variable Y hijk ...
− Rˆ X hijk ...
en toda la población.
La
varianza de Gˆ , se encuentra según sea el diseño, aplicando las expresiones para la varianza de un total.
2
Caso de ”mas” unietápico. ˆ= Y
N
n
Y ∑ n i
i =1
ˆ = X
y
N
n
X ∑ n
i
i =1
ˆ Y Rˆ = ˆ X
n ∑ (Y i − Rˆ X i ) n N Gˆ = ∑ (Y i − Rˆ X i ) = N i =1 n i =1 n n
∑(Y − Rˆ X )
ˆ) 1 ˆ(G V ˆ ˆ ˆ( N i=1 EC M ( R) = 2 = 2 V ˆ ˆ X X
i
i
n
1 2 1 1 1 n ) = 2 N ( − ) (Y i − Rˆ X i − 0)2 ˆ n N n −1 i=1 X
∑
3
Caso de Estratos unietápico con “mas”
ˆ= Y
L
L
∑ Y ˆ =∑ N y h
h =1
h
ˆ = X
h
h =1
Gˆ =
∑
Gˆ h =
L
∑
h =1
L
∑ X ˆ =∑ N x h
h h
h =1 nh
L
L
N h {
∑ (Y
hi
h =1
− Rˆ X hi )
i =1
nh
h =1
}
ˆ Y Rˆ = ˆ X nh
ECM ( Rˆ ) =
1 ˆ2 X
∑ (Y
hi
L
∑ h
ˆ ( N h V
nh
− Rˆ X hi
i =1
nh
)=
1 ˆ2 X
L
∑ N V ˆ { 2 h
h
∑ (Y
hi
− Rˆ X hi )
i
nh
} 2
n ˆ ( Y R X − ∑ hi hi n L 1 1 1 1 ) } ∑ Y hi − Rˆ X hi − i =1 ECM ( Rˆ ) = 2 ∑ N h2 {( ( − ) ˆ h nh N h nh − 1 i =1 nh X h
h
4
Caso de esquema B unietápico
Las UPM se seleccionan mediante un ppt con reemplazo. Cada UPM se submuestrea de manera independiente, el número de veces que quede en muestra. Por supuesto que la medida de tamaño debe tener una buena proporcionalidad con los valores de Y i , y si es posible también de los de X i . Por supuesto que es muy conveniente que la medida de tamaño sea casi proporcional con X i y con Yi, los totales en las UPMi. Por ejemplo puede ser usada para las probabilidades de selección el número de USM o de UUM , en cada UPM i , con una información previa.
1
n
T y
∑ ˆ Z y Y n i P i Rˆ = = n = ˆ 1 T x Z x X ∑ n i P i i
i
Gˆ =
1
n
T Gi
= Z ∑ n P
G
i
i
donde TGi es el estimador del
total de Gijk.. la nueva variable Y ijk ... UPMi.
− Rˆ X ijk ...
en la
El estimador del error cuadrático medio del estimador de R anterior es:
5
ˆ ( Rˆ ) = EC M
1 1 ˆ (Gˆ )] = [ [ V V ˆ ( Z G ) ] 2 2 ˆ ˆ X X
1 ˆ ˆ EC M ( R ) = 2 ˆ X
1 1 T G ∑ − 0 n n − 1 i P i n
2
i
2
2 T T S 1 1 1 1 z y x ˆ ˆ ˆ EC M ( R ) = 2 ∑ − R = 2 ˆ n n − 1 i P i ˆ X P i X n n
i
i
G
Donde, se aplica la expresión de la varianza de un nuevo promedio estimado, si se considera la variable:
Z G i =
T yi − Rˆ T xi P i
= Z y − Rˆ Z x i
i
Nótese que la media de la nueva variable Z Gi , es cero, ya que el estimador de R es el cociente de la media de Z yi entre la media de Z xi .
6
Estimador de R en muestreo con estratos, varias etapas y con selección de UPM con esquema B. En este apartado se considera el caso muy general de un muestreo multietápico, con diseños de muestra que pueden ser variables en cada UPM en muestra. Pero suponemos que hay estratos de las UPM y en cada estrato se selecciona la muestra con esquema B. El estimador de R , es: L
L
ˆ Y Rˆ = = ˆ X
∑ Y ˆ
h
h L
∑ X ˆ h
=
1
nh
T hyi
∑ n ∑ P h
h
T
1
i
nh
L
=
hi
T hxi
∑ n ∑ P
h
h
h
i
∑ Z
hy
h L
∑ Z
hx
h
hi
En cada estrato el estimador del total de la Y (o de la X ), es la suma de los promedios de variables
Z h y =
Gˆ =
1 nh
nh
T hyi
∑ P i
L
=
hi
nh
L
∑ Gˆ =∑ Z h
h =1
1
h =1
G h y
Z hyi ,
nh
∑ Z
hyi
i
L
=∑ h =1
1 nh
nh
T hyi − Rˆ X hxi
i
P hi
∑
7
El error cuadrático medio estimado del estimador de R anterior es el siguiente: 1 1 ˆ ( Rˆ ) = EC M 2 ˆ h nh (nh −1) X L
∑
nh
T hyi − RˆT hxi
i
P hi
∑
−
1 nh
nh
T hyi − RˆT hxi
∑ i
P hi
2
s
Nótese, de nuevo que se trata de la varianza de Z construidas con los totales estimados de la nueva variable Ghijk..., en las UPM i en muestra. Se genera la variable Z Ghi que es:
T hyi − Rˆ T hxi P hi
=
T Ghi P hi
= Z Ghi
de modo que el ECM se simplifica conceptualmente a:
1 L 1 ˆ ( Rˆ ) = EC M V ˆh ( Z Ghi ) 2 ∑ ˆ h nh X
8
Estimador de R en muestreo con estratos, varias etapas y con selección de UPM con esquema A. Se presenta el caso del esquema A, selección por “mas” de las UPM y con un submuestreo arbitrario de las USM , y etapas subsecuentes en cada UPM . Además con las UPM en estratos. Se presenta el caso en el que se ignora la variabilidad debida al submuestreo, de manera que es una situación muy semejante al caso de una etapa, estimar R con muestreo aleatorio simple con estratos en las etapas. Las expresiones son muy semejantes a las planteadas en el caso de estimar un total basado en una razón. La información esta dada por muestras independientes, de UPMs obtenidas por Muestreo Aleatorio Simple (“mas”) en cada estrato, de tamaño nh y en cada UPM se estiman los totales Y hi y X hi , Ghi en cada UPM , sean éstos
Y ˆhi
ˆ
ˆ
, X hi y Ghi Donde i= 1,...,nh y h=1,...L. Se conocen los tamaños de los estratos N h. Y con ellos sus ponderadores W h = N h /N . Se considera solo el estimador combinado, para que tengan sentido las medias.
9
L
L
Rˆ =
∑ Y ˆ
h
h L
∑ X ˆ
∑ =
h
h
h L
∑
N h nh N h nh
h
nh
∑ Y ˆ
hi
i nh
∑ X ˆ
Y ˆ = ˆ X
hi
i
n ˆ ∑ G hi L L Gˆ = ∑ Gˆ h = ∑ N h i n h h h h
donde
Gˆ hi
es
el
estimador , según submuestreo , del total de G hijk.., la nueva variable
Y hijk ... − Rˆ X hijk ... en
las UPMhi en
muestra El error cuadrático medio del estimador de R es:
ˆ (Gˆ ) V ˆ ( Rˆ ) = EC M ˆ2 X Si se ignora la contribución al ECM de las USM dentro de las UPM, y las UTM dentro de las USM, etc. Se tiene que : n ˆ ∑ Ghi L L V ˆ (Gˆ ) = V ˆ { ∑ Gˆ h } = ∑ N 2 hV ˆ i nh h h h
10
n ˆ L G ∑ hi L 1 1 2 = N 2 ˆ − V ˆ (Gˆ ) = ∑ N 2 hV ˆ i ( ) S hi ∑ h G nh n N h h h h donde h
ˆˆ 2 = S G hi
1 ˆ ˆ ˆ ˆ ˆ ˆ ∑ (Y hi − Rc X hi ) − ∑ (Y hi − Rc X hi ) nh − 1 i =1 nh 1=1 1
nh
nh
2