2013
Análisis de Encuestas con Diseño Complejo Ministerio de Desarrollo Social
Javiera Vásquez Núñez 16/12/2013
Tabla de contenido Capítulo 1: ¿Qué es el diseño complejo? ........................................................................ 3 Introducción ...................................................................................................................... 3 Clasificación de los diseños muestrales ........................................................................ 3 Planes de muestreo ...................................................................................................... 3 Inferencia en base a los datos de la encuesta ....................................................... 4 Población objetivo y población de muestreo ............................................................. 4 Muestreo Aleatorio Simple (SRS): un modelo simple para inferencia basada en diseño ................................................................................................................................. 4 Relevancia de SRS en el análisis de datos de muestras complejas ...................... 5 Los fundamentos del SRS ............................................................................................. 5 Efecto diseño de muestras complejas .......................................................................... 6 Muestras complejas: agrupación y estratificación ..................................................... 8 Muestreo con agrupaciones ...................................................................................... 9 Estratificación .............................................................................................................. 11 Ejemplo: SRS, agrupación y estratificación............................................................. 13 Los efectos conjuntos de la estratificación y agrupación en el diseño muestral ....................................................................................................................................... 19 Ponderación en el análisis de los datos ...................................................................... 22 Ponderación por la probabilidad de selección .................................................... 23 Factor por ajuste por no respuesta .......................................................................... 23 Factor de ajuste por post-estratificación ................................................................ 25 Diseño muestral multietápico ....................................................................................... 26 Primera etapa de muestreo ...................................................................................... 27 Segunda etapa de muestreo ................................................................................... 27 Tercera y cuarta etapa de muestreo ...................................................................... 27 Capítulo 2: Preparación para el análisis de datos con muestras complejas ........... 29 Introducción .................................................................................................................... 29 Análisis de los ponderadores ........................................................................................ 29 Identificación de la variable de ponderación correcta para el análisis ........... 30 Determinación de la escala y distribución de los factores de expansión ......... 30 Sensibilidad de las estimaciones a los factores de expansión ............................ 31 1
Como enfrentar las observaciones sin dato .............................................................. 34 Potencial sesgo por ignorar las observaciones sin dato ....................................... 39 Explorando las tasas y patrón de datos faltantes ................................................. 39 Capítulo 3: Análisis descriptivo de variables continuas................................................ 41 Capítulo 4: Análisis descriptivo de variables categóricas ........................................... 51 Capítulo 5: Modelo de regresión lineal .......................................................................... 72 Capítulo 6: Modelo de variable dependiente binaria ................................................. 81 Capítulo 7: Modelo Multinomiales, ordinales y variables de conteo ......................... 82 Capítulo 8: Técnicas de análisis de datos complejos.... ¡Error! Marcador no definido. Capítulo 9: Imputación múltiple ...................................................................................... 83 Modelos de imputación de datos ............................................................................... 83 Imputación, creación de las variables imputadas ................................................... 83 Inferencia y análisis con imputaciones ....................................................................... 83 Referencias ......................................................................................................................... 84
2
Capítulo 1: ¿Qué es el diseño complejo? Introducción El primer paso en el análisis aplicado de datos de encuestas consiste en definir la pregunta de interés o la pregunta de investigación que se busca responder con los datos provenientes de la encuesta. El siguiente paso es estudiar y entender el diseño muestral que se utilizó en la encuesta para obtener las unidades muéstrales a partir de una población objetivo. En este capítulo se explicarán los diseños de muestras complejas, los cuales son bastante utilizados en la práctica. Se identificaran las características claves del diseño que pueden tener importantes implicancias en el análisis de los datos.
Clasificación de los diseños muestrales Hansen, Madow, y Tepping (1983) establecen que el diseño muestral incluye dos componentes: el plan de muestreo y el método para realizar la inferencia a partir de los datos generados por el plan de muestreo. Cuadro 1.1 Clasificación de los diseños muestrales Plan de muestreo Método de inferencia Basada en el diseño Basada en el modelo Muestra Probabilística A B Muestra Dependiente del C D Modelo La gran mayoría de los datos de encuestas provienen de diseños muestrales correspondientes a la celda A. Planes de muestreo Planes de muestreo probabilístico: cada miembro de la población tiene una probabilidad conocida y distinta de cero de ser incluido en la muestra. Un diseño muestral probabilístico puede incluir estratificación y agrupaciones (cluster) de la población antes de la selección. Plan de muestreo dependiente del modelo (Valliant et al., 2000): este tipo de muestreo asume que las variables de interés de la investigación siguen una distribución de probabilidad conocida, y así se optimiza la elección de la muestra 3
de acuerdo a esta distribución, para así maximizar la precisión de la estimación de los estadísticos de interés. Inferencia en base a los datos de la encuesta La inferencia estadística realizada a partir de los datos de una encuesta puede ser “basados en el diseño” o “basados en el modelo”. Lo natural es parear el plan de muestreo con el método de inferencia, por lo cual la mayoría de los diseños muestrales se ubican en la diagonal del Cuadro 1.1. Sin embargo, tampoco es extraño observar que en algunos análisis se utilice inferencia basada en modelo con datos provenientes de una muestra probabilística, este análisis se conoce como análisis no paramétrico, ya que la distribución de probabilidad que dio origen a los datos muestrales es desconocida.
Población objetivo y población de muestreo Las encuestas con muestra probabilística están diseñadas para representar una población objetivo, la población objetivo en el diseño de una encuesta es una población finita que puede ir desde 100 elementos poblacionales en el caso de una encuesta muy específica, o hasta millones de elementos poblacionales en las encuestas a nivel nacional. En contraste con la población objetivo, la población de muestreo es definida como la población que es realmente elegible para formar parte de la muestra bajo el diseño muestral. Pueden existir factores políticos, geográficos, sociales, etc., que restringen la capacidad de identificar y acceder a algunos elementos de la población objetivo.
Muestreo Aleatorio Simple (SRS): un modelo simple para inferencia basada en diseño El muestreo aleatorio simple con reemplazo (SRSWR) es el plan de muestreo más básico, seguido de manera cercada en simplicidad por el muestreo aleatorio simple sin reemplazo (SRSWOR), en el documento nos referiremos simplemente a Muestreo Aleatorio Simple o Simple Random Sample (SRS). A pesar de su simplicidad, el SRS no es muy utilizado en la práctica, es utilizado para seleccionar una muestra en localidades poblacionales pequeñas, o cuando se selecciona una muestra de un listado de número de teléfonos, direcciones, personas, colegios, etc. Aún en casos donde se puede aplicar SRS los muestristas prefieren introducir una estratificación simple para mejorar la eficiencia de las 4
estimaciones. Adicionalmente, si se selecciona una muestra aleatoria simple, pero los factores de expansión necesitan compensar por la no respuesta o aplicar ajustes por postestratificación, los datos tendrán características complejas que no se pueden ignorar en la estimación y la inferencia. Relevancia de SRS en el análisis de datos de muestras complejas ¿Por qué es importante estudiar el SRS para entender muestras de diseño complejo?
SRS genera muestras que aproximan de manera más cercana los supuestos definidos en la teoría básica para la estimación e inferencia que se utilizan en el análisis estándar de los softwares estadísticos más utilizados como Stata, SAS, y SPSS. Este supuesto se refiere a que las observaciones son independientes e idénticamente distribuidas. La simplicidad teórica de SRS entrega una base teórica para la estimación e inferencia basada en el diseño, lo que permite hacer un puente para diseños más complicados como el de las muestras complejas. SRS puede ser utilizado como una línea base para evaluar la eficiencia relativa de otros diseños muestrales más complejos.
Los fundamentos del SRS En el muestreo aleatorio simple cada elemento de la población tiene igual probabilidad de selección:
Adicionalmente la probabilidad de selección de cada uno de los elementos es independiente de la selección de los otros elementos. Asumamos que el objetivo del diseño muestral es estimar la media de la característica en la población: ̅
∑
Bajo SRS un estimador insesgado de la media poblacional, es la media muestral: ̅
∑
5
El punto importante de notar es que existe un parámetro poblacional de interés, ̅ , que es estimado a través de una muestra por ̅. El estimador muestral, ̅, está sujeto a variabilidad muestral la que se denota por ̅ . Otra medida de variabilidad es la desviación estándar o
̅
√
̅ .
El estimador muestral de la desviación estándar es:
̅
√
̅
√
√(
̅
)
Donde: ∑
El término (
̅
) corresponde a la corrección de muestras finitas (fpc)1, el cual se
aplica sólo si la selección de elementos es sin reemplazo, y en general se asume igual a 1 cuando . Si el tamaño de muestra es grande, bajo el método de Neyman (1934) sobre inferencia basada en el diseño, el intervalo de confianza al 95% para la media poblacional, ̅ , se puede construir de la siguiente manera: ̅
̅
Efecto diseño de muestras complejas Tomando como punto de partida los errores estándar de un muetreo aleatorio simple (SRS), la estratificación, agrupación (clustering), y la ponderación (weighting) tienen influencia sobre el tamaño de los errores estándar de los estadísticos muestrales. En la Figura 1.1 la curva representa los errores estándar del estimador muestral de una proporción en un diseño muestral SRS como una función del tamaño de la muestra, . Por otra parte tenemos que para cualquier tamaño muestral, una El fpc refleja la reducción esperada en la varianza muestral de un estadístico por realizar un muestreo sin reemplazo. 1
6
estratificación de la muestra genera una disminución en los errores estándar del estimador de la proporción. La agrupación de los elementos muestrales y diseños que requieren ponderadores para una estimación insesgada, generalmente llevaran a estimaciones con mayor error estándar que SRS. Figura 1.1 Efectos de diseños muestrales complejos en los errores estándar
Fuente: Heeringa, Steven, Brady T. West, and Patricia A. Berglund. 2010. Applied survey data analysis. Boca Raton : Taylor & Francis.
El efecto diseño se define como el efecto que tienen los diseños complejos como estratificación, agrupación y ponderación sobre los errores estándar, comparado con los errores estándar obtenidos en un diseño muestral SRS. El efecto diseño se mide a través del siguiente ratio (Kish, 1965):
( ̂)
( ̂)
( ̂) ( ̂)
( ̂)
El efecto diseño lo podemos estimar a partir de los datos muestrales disponibles de la siguiente manera:
( ̂)
( ̂)
( ̂) ( ̂)
( ̂) 7
Dado un valor para el efecto diseño podemos estimar la varianza de un diseño complejo a partir de la varianza de un SRS: ( ̂)
( ̂)
√
( ̂)
A pesar de que la mayoría de los softwares estadísticos hoy en día cuentan con módulos para el análisis de muestras con diseños complejos, algunas bases de datos son publicadas sin las variables de estratificación y agrupación que son requeridas para este análisis. Sin embargo, los usuarios de las bases de datos deberían tener al menos acceso a las tablas con el efecto diseño generalizado computado para algunas variables claves por el administrador de la base de datos. De esta forma, se puede obtener el error estándar y varianza bajo los supuestos de SRS y luego aplicar el efecto diseño para obtener el error estándar bajo el diseño complejo. Entonces, sabemos que un diseño complejo va a tener una varianza distinta, generalmente mayor, a la varianza bajo un muestreo aleatorio simple. La siguiente pregunta que podemos hacernos, es cuál debería ser el tamaño de muestra necesario para que con un diseño complejo alcancemos la misma eficiencia que un muestreo aleatorio simple, esto se denomina el tamaño muestral efectivo:
̂ Donde
es el tamaño de muestra efectivo, o el número de observaciones bajo
un diseño SRS requerido para lograr la precisión que tiene la muestra bajo el diseño muestral complejo. Y es el tamaño de muestra utilizado o seleccionado en el diseño de muestra complejo.
Muestras complejas: agrupación y estratificación La gran mayoría de los diseños muestrales utilizados en la práctica no corresponden a un SRS, por el contrario la mayoría de ellos incluye estratificación, agrupación, y con probabilidad distinta de selección. El diseño muestral complejo se utiliza para optimizar la razón entre la varianza y el costo, o para lograr la precisión necesaria en grupos objetivos de análisis de la población. Existen cuatro aspectos claves que permiten identificar correctamente las características del diseño muestral, lo cual es de suma importancia para lograr un análisis posterior correcto de los datos. Estos cuatro aspectos claves son: 8
1- ¿La muestra fue seleccionada en una etapa o en múltiples etapas? 2- ¿Se realizó agrupación de los elementos en una o más de las etapas de muestreo? 3- ¿Se realizó estratificación de los elementos en una o más de las etapas de muestreo? 4- ¿Los elementos fueron seleccionados con igual probabilidad? Así, existen por los menos 16 tipos de diseños muestrales, sin embargo, en la práctica los que realmente se utilizan son menos. Uno de los diseños más utilizados en encuestas presenciales de hogares es el muestreo multietápico con agrupaciones, estratificación y no proporcional. Muestreo con agrupaciones El muestreo con agrupaciones (clustered sampling) es una característica común en las muestras con diseño complejo. Los estadísticos utilizan agrupación de la muestra por diversas razones:
La agrupación geográfica de los elementos en una encuesta de hogares reduce los costos de entrevista amortizando los costos de traslado. Los elementos de la muestra pueden que no estén identificados de manera individual en el marco muestral pero pueden ser ligados a una agrupación de unidades (por ejemplo, votantes en una circunscripción, estudiantes en colegios o universidades, etc.)
Así, mientras la agrupación de elementos puede reducir los costos de una encuesta o simplificar la logística, en términos de análisis se debe tener presente que la selección de elementos agrupados afectará la estimación de las varianzas, y el desarrollo de la inferencia con los datos provenientes de la encuesta. En la gran mayoría de los planes de muestreo en los que se incorpora agrupación de elementos se obtienen estimaciones de los errores estándar que son mayores a los que se obtendría bajo un diseño SRS de igual tamaño muestral; además, se requieren métodos especiales para la estimación correcta de los errores estándar en este contexto. En estos casos no es posible utilizar la fórmula de estimación de la varianza basada en un SRS, que es lo que utilizan de manera estándar los softwares estadísticos, ya que esta se basa en los supuestos de independencia de las observaciones, pero cuando se utiliza muestreo de agrupaciones, las observaciones al interior de cada cluster generalmente estarán correlacionadas (los estudiantes en una sala de clase, o los hogares dentro de un vecindario).
9
La elección del estimador de la varianza apropiado requiere que se refleje de manera apropiada el diseño de la muestra en base a agrupaciones en el cálculo de los errores estándar, esta elección depende de la respuesta a las siguientes preguntas: 1. 2. 3. 4.
¿Todas las agrupaciones son de igual tamaño? ¿La muestra se encuentra estratificada? ¿La muestra incluye múltiples etapas de selección? ¿Las unidades fueron seleccionadas con probabilidades distintas?
Afortunadamente, hoy en día la mayoría de los softwares estadísticos permiten definir características de diseño de muestras complejas en el análisis, para lo cual el analista necesita disponer de las variables de diseño en la base de datos. Así, el software escogerá la formula correcta para el computo de los errores estándar basado en el diseño. El incremento de los errores estándar que se genera al implementar un diseño muestral con agrupaciones de elementos, ya sea en una o múltiples etapas, se debe que existen correlaciones entre las observaciones al interior de una agrupación. Es natural pensar que los niños de un mismo curso, o las personas que viven en un mismo vecindario, tengan algún grado de correlación entre sus características. Cuando estas similitudes entre los individuos pertenecientes a un grupo (cluster) están presente el monto de “información estadística” contenido en una muestra con agrupaciones de tamaño es menor que si la muestra se hubiera seleccionado de manera independiente por un SRS con el mismo tamaño muestral. Así, la agrupación de elementos incrementa los errores estándar en comparación con un diseño de SRS y del mismo tamaño muestral. Kish (1965) define la correlación intra-clase para cuantificar el nivel de homogeneidad que existe dentro de las agrupaciones muestrales (clusters). Cuando el objetivo principal de una encuesta es estimar proporciones o medias de características de la población, se puede utilizar el siguiente modelo para aproximar el efecto diseño atribuible a la selección de una muestra con agrupaciones: ( ̂) Donde es la correlación intra-clase para la característica de interés, y tamaño de las agrupaciones.
10
es el
El valor de es especifico a la característica de la población que se está analizando y al tamaño de los clusters. De acuerdo a Kish et al. (1976) los valores de en general se encuentran entre 0.0 y 0.2, aunque en la mayoría de los casos se encuentra entre 0.005 y 0.100. Kish (1965) sugiere un estimador de of homogeneity ( ):
denominado tasa de homogeneidad o rate
̅
̅
̅
Donde ̅ es el tamaño promedio por agrupación. Estratificación Un estrato (strata) es una agrupación homogénea de los elementos de la población, estos grupos no se traslapan entre ellos, es decir, cada elemento pertenece a un solo estrato. En un diseño muestral multi-etápico se pueden utilizar diferentes tipos de estratificación en cada una de las etapas del diseño. La estratificación se puede realizar sobre los elementos de muestreo o sobre agrupaciones de elementos. La estratificación tiene los siguientes objetivos:
En comparación con SRS, las muestras estratificadas que utilizan una distribución proporcional u óptima de la muestra en los estratos, tienen menor error estándar. La estratificación le entrega al muestrista una forma de distribuir de manera no proporcional la muestra en sub-poblaciones. Así se pueden sobre muestrear algunos grupos particulares de forma tal que estos grupos tengan una muestra suficiente para realizar análisis. La estratificación de una muestra probabilística puede facilitar el uso de diferentes métodos o procedimientos en los estratos.
Todo diseño muestral con estratificación involucra los siguientes cuatro pasos en el proceso de selección y análisis: 1- Formar los estratos ( ) los que contienen elementos (o clusters). 2- En cada estrato se selecciona de manera independiente una muestra de clusters o elementos.
11
3- Los estadísticos de interés se computan para cada estrato de manera separada, y luego son ponderados para obtener la estimación total de la población. 4- La varianza muestral de los estadísticos de interés se computan para cada estrato de manera separada, y luego son ponderados para obtener la varianza muestral de la estimación total de la población. Dado que un muestreo estratificado selecciona muestras independientes de cada uno de los estratos, cualquier varianza atribuible a la diferencia entre estratos es eliminada por la varianza muestral de la estimación. En efecto, el objetivo de la estratificación es aumentar la precisión de las estimaciones mediante un diseño que forme estratos que son homogéneos al interior del estrato, pero heterogéneos entre los estratos. Veamos como la estratificación reduce la varianza de las estimaciones, para esto comencemos considerando una muestra estratificada donde la muestra de cada estrato fue seleccionada mediante un SRS, el tamaño de la muestra es:
∑
Donde el tamaño del estrato es proporcional, es decir, se utiliza una distribución proporcional de la muestra, donde la muestra de cada estrato es igual a:
La distribución proporcional asegura que cada elemento de la población tiene igual probabilidad de ser incluido en la muestra:
Ahora comparemos la varianza de la media muestral para una muestra estratificada versus una muestra aleatoria simple: ̅
(̅
12
)
∑
̅
̅
La muestra aleatoria simple de tamaño incluye en la varianza de tanto la varianza al interior de los estratos (within) como la varianza entre estratos (between), sin embargo la muestra estratificada ha eliminado la varianza between, por lo cual este tipo de diseño estratificado presenta una varianza menor en sus estimaciones que una muestra aleatoria simple, con el mismo tamaño muestral. Podemos notar que la reducción esperada en la varianza de una muestra estratificada depende de las diferencias que haya entre el promedio muestral de cada estrato y el promedio muestral total, por lo cual para lograr explotar el aumento de precisión de una estratificación, se deben definir estratos con alta heterogeneidad entre ellos. Ejemplo: SRS, agrupación y estratificación Para ilustrar las diferencias entre los distintos diseños muestrales presentados utilizaremos los datos presentados en la Tabla 1.1. Esta base de datos corresponde a una muestra de 32 observaciones ( ) extraida de una población grande, por lo cual es pequeño, y el factor de corrección de muestras finitas (fpc) puede ser ignorado. La variable es la nota que cada persona entrevistada le pone a la fortaleza de la economía del país, en una escala de 0 a 100, donde 0 significa una economía débil y 100 que la economía es fuerte. La base de datos se encuentra en formato STATA con el nombre tabla1_1.dta:
13
Como ya se había mencionado, las observaciones fueron extraídas de una población grande con una media poblacional ̅ y una varianza poblacional . Primero ignoremos los estratos y cluster, y supongamos que la muestra que observada fue extraída a partir de un muestreo aleatorio simple, en este caso las estimaciones de la media, error estándar e intervalo de confianza son calculados de la siguiente forma: ∑
̅ ̅
∑ √
̅
√ ̅
̅
̅
Podemos realizar los cálculos en Excel o cualquier otro software, incluso en STATA:
14
Tabla 1.1 Base de datos para la comparación de diseños muestrales Case N° Estrato Cluster Y Weight 1 1 1 52.8 1 2 1 1 32.5 2 3 1 1 56.6 2 4 1 1 47.0 1 5 1 2 37.3 1 6 1 2 57.0 1 7 1 2 54.2 2 8 1 2 71.5 2 9 2 3 27.7 1 10 2 3 42.3 2 11 2 3 32.2 2 12 2 3 35.4 1 13 2 4 48.8 1 14 2 4 66.8 1 15 2 4 55.8 2 16 2 4 37.5 2 17 3 5 49.4 2 18 3 5 14.9 1 19 3 5 37.3 1 20 3 5 41.0 2 21 3 6 45.9 2 22 3 6 39.9 2 23 3 6 33.5 1 24 3 6 54.9 1 25 4 7 26.4 2 26 4 7 31.6 2 27 4 7 32.9 1 28 4 7 11.1 1 29 4 8 30.7 2 30 4 8 33.9 1 31 4 8 37.7 1 32 4 8 28.1 2 Así podemos obtener, la estimación de la media muestral y la desviación estándar: ̅
∑
̅
√
15
Y el intervalo de confianza para la media poblacional es:
[
̅
]
En STATA podemos obtener exactamente el mismo resultado utilizando el comando ci, el cual se basa en que la muestra fue extraída de un muestreo aleatorio simple:
Ahora si la muestra fue extraída utilizando agrupaciones (cluster) o estratificación, este comando no puede ser utilizado para obtener la media muestral, error estándar e intervalo de confianza. STATA posee la opción de trabajar con muestras con diseño complejo, y así utilizar las formas apropiadas para el cálculo de error estándar en base al diseño muestral. Los comando svy de STATA son utilizados para el cálculo de estadísticos y estimación de regresiones en muestras complejas. Para utilizar estos comandos primero debemos definir el tipo de muestra mediante el comando svyset. La sintaxis del comando para una muestra con una etapa de selección es: svyset [psu] [weight] [, strata(varname) fpc(varname)]
Donde psu es la unidad primaria de muestreo, y fpc es el factor de corrección por muestras finitas.
16
Entonces, volvamos a la Tabla 1.1, y en vez de asumir que la muestra fue obtenida de un SRS, supongamos que la muestra de 32 observaciones fue obtenida seleccionando 8 agrupaciones con 4 elementos cada uno. Cada agrupación con igual probabilidad de selección. Entonces primero definiremos la muestra de agrupaciones en STATA:
Luego podemos obtener la media muestral, error estándar e intervalo de confianza de la siguiente manera:
Podemos notar que la media muestral es idéntica a la obtenida bajo un SRS, pero el error estándar estimado es mayor, se tiene menor precisión en las estimaciones. El aumento relativo del error estándar en la muestra con agrupaciones con respecto a SRS, y la correlación inter-clase pueden ser estimados de la siguiente forma: ̅
√
̅ ̅
̅
17
Ahora supongamos que la misma muestra en vez de provenir de un diseño con agrupaciones, viene de un diseño con estratificación, la muestra de 32 observaciones fue seleccionada de cuatro estratos de igual población cada uno, de manera tal que . En STATA podemos obtener la estimación de la media, error estándar e intervalo de confianza, de la siguiente manera:
La estimación de la media es exactamente igual, sin embargo, producto de la estratificación el error estándar disminuye con respecto al SRS. El ratio entre los errores estándar es: ̅
√
̅ ̅
̅
El efecto diseño es ̅ . La muestra estratificada tiene la precisión que obtendría una muestra aleatoria simple de poco más de 44 observaciones:
̅
18
Los efectos conjuntos de la estratificación y agrupación en el diseño muestral Volvamos a los datos de la Tabla 1.1, ahora tratemos esta muestra como una muestra estratificada con h=1,…,4, y al interior de cada estrato se seleccionaron dos cluster de tamaño 4 seleccionados con igual probabilidad. A continuación se presenta el cálculo de la media muestral, el error estándar e intervalo de confianza bajo este diseño complejo:
Nuevamente, la media muestral es exactamente la misma a la obtenida bajo el supuesto de un SRS o bajo un supuesto de diseño con estratificación o agrupación. Pero, el error estándar es mayor al del SRS pero menor al de una muestra en la que sólo se hace agrupación. Ejercicio: complete la siguiente tabla: Estimador ̅ SRS ̅ Agrupación ̅ Estratificación ̅ Agrupación y Estratificación
̅
̅ 40.77 40.77 40.77 40.77
2.41 3.66 2.04 2.76
19
√ 1.00 1.51 0.85
̅
̅ 1.00
32
0.72
44.4
Las siguientes figuras muestran de manera gráfico los planes de muestreo recién revidados: Figura 1.2
Figura 1.3
20
Figura 1.4
Figura 1.5
21
Figura 1.6
Ponderación en el análisis de los datos Cuando se utilizan muestras probabilísticas es común encontrar que la probabilidad de selección de los individuos en la muestra difieren entre ellas. El ponderador (weight) es el número de elementos de la población que cada observación de la muestra representa. Así, una observación seleccionada con probabilidad representa 10 individuos en la población, y una persona seleccionada con probabilidad representa 20 elementos en la población. En efecto, el ponderador de cada observación corresponde al inverso de la probabilidad de selección:
Y la suma de estos ponderadores, es igual al tamaño de la población. Generalmente, el ponderador final correspondiente a cada observación corresponde al producto entre el ponderador de la selección ( ), el ajuste por no respuesta ( , y el factor de post-estratificación ( :
22
De la siguiente manera podemos obtener la estimación de la media muestral, error estándar e intervalo de confianza, considerando la ponderación de la muestra:
Ponderación por la probabilidad de selección El factor de expansión de selección, , se introduce en el análisis para considerar la probabilidad con que la observación fue seleccionada. Algunas razones comunes por las cuales las probabilidades de selección entre las observaciones pueden ser distintas son:
Cuando se realiza un muestreo no proporcional dentro de los estratos para logran una distribución óptima de la muestra. Cuando se realiza un muestreo no proporcional dentro de los estratos o un grupo de ellos con el objetivo de aumentar el tamaño muestral o la precisión del análisis en cierto dominio de la población bajo estudio. Cuando se selecciona una unidad de análisis dentro de una muestra de clusters, como por ejemplo, cuando se selecciona a una persona del hogar a ser entrevistada.
Factor por ajuste por no respuesta Para poder compensar por la no respuesta de las unidades en la encuesta, lo que usualmente se realiza es computar un factor que ajuste por la no respuesta. Este 23
factor se puede obtener mediante la estimación de la probabilidad de respuesta (response propensity), es decir, condicional en la selección de la muestra, se estima la probabilidad de que el individuo colabore en el estudio. Una vez computada la propensión de respuesta, mediante la multiplicación del factor original del selección de la muestra por el inverso de la propensión de respuesta modelada, se obtiene un nuevo factor de expansión, que si el modelo utilizado es correcto, nos lleva a estimaciones insesgadas (o casi insesgadas) de las estadísticas de la población utilizando los datos muestrales. Existen dos metodologías para poder computar la propensión de respuesta, los que se proceden a describir a continuación. Weighting Class Approach Se asignan todos los elementos de la muestra original (entrevistados y no entrevistados) en diferentes celdas creadas a partir de variables categóricas que pueden ser buenos predictores o discriminadores de la tasa de respuesta, por ejemplo, tramos de edad, género, región, estrato, etc.). Las observaciones que originalmente pertenecían a la muestra, pero que resultaron ser no elegibles se excluyen. Se asume que la propensión de respuesta es exactamente la misma para todas las observaciones en una celda, y esta propensión se estima a través de la tasa de respuesta empírica observada en la celda, y el factor de ajuste por no respuesta se obtiene a través del inverso de la tasa de respuesta de la celda:
Con Propensity Cell Adjustment Approach Este método es igual al anterior, es decir, el factor de ajuste por no respuesta corresponde al inverso de la tasa de respuesta en la celda, sin embargo, en este método cada observación es asignada a una celda en base al valor estimado de cada observación de la probabilidad de respuesta, la cual se obtiene mediante la estimación de un modelo logístico: ̂
| ̂
24
̂
Una vez computado la propensión de respuesta de cada observación, se construyen quintiles o deciles utilizando esta propensión para definir las celdas. Así, el factor de ajuste por no respuesta es igual a:
Con respuesta.
, corresponde a las celdas construidas mediante la propensión de
Factor de ajuste por post-estratificación Los ajustes por no respuesta recién vistos sólo utilizan la información disponible tanto para las personas que responden como para las que no responden, muchas veces esta información es limitada ya que depende de lo que esté disponible en el marco muestral. Otra técnica de ponderación que normalmente se utiliza para mejor las estimaciones obtenidas a partir de la muestra, es la post-estratificación. Para realizar la post-estratificación primero se deben formar post-estratos . Los criterios utilizado para forma estos estratos son: 1- Variables como género, edad y región para las cuáles se tienen estimaciones precisas de los totales en fuentes externas de información. 2- Variables que estén altamente correlacionadas con las variables claves de la encuesta. 3- Las variables deben ser buenos predictores de la no cobertura del marco muestral. Para asegurar que la post-estratificación sea eficiente generalmente se requiere que cada celda tenga al menos 25 observaciones muestrales. El factor de ajuste de post-estratificación se computa de la siguiente forma:
̂
∑
25
Diseño muestral multietápico La gran mayoría de las encuestas de uso público se basan en un diseño muestral por área con múltiples etapas de selección. La siguiente figura describe como sería un diseño muestral que involucra varias etapas de selección: Figura 1.6 Diseño Muestral con Múltiples Etapas de Selección
La selección del individuo a ser entrevistado involucra cuatro etapas de selección: 1- La primera etapa de selección corresponde a los condados (podemos pensar en comunas de Chile) 2- En una segunda etapa se seleccionan segmentos (o manzanas), pequeños conglomerados o agrupaciones geográficas de viviendas. 3- En una tercera etapa se seleccionan hogares (o viviendas) dentro de cada segmento 4- Y se termina con una selección aleatoria de una persona dentro de los miembros del hogar.
26
Primera etapa de muestreo En un diseño muestral multietápico la Unidad Primaria de Muestreo (PSU) son grandes grupos geográficos contiguos, por ejemplo, condados en Estados Unidos o comunas en Chile. Así, la unidad primeria de muestreo corresponde al primer nivel de agrupación de las observaciones. Estas unidades deben ser lo suficientemente pequeñas como para lograr costos eficientes de traslado entre las unidades de selección de la segunda etapa. Cada PSU es asignada a un estrato que se pueden basar en las regiones del país, zona urbana o rural, tamaño de la PSU, características de la población, etc. Segunda etapa de muestreo Las unidades de muestreo de segunda etapa (SSU) normalmente sonde denominados segmentos, los segmentos son manzanas o uniones de manzanas contiguas, de manera tal que estos segmentos tengan una cantidad mínima (normalmente entre 50-100) viviendas ocupadas. Al interior de cada PSU las SSU pueden ser estratificadas. Al interior de cada PSU, la probabilidad de seleccionar una SSU se obtienen de forma proporcional al conteo de viviendas ocupadas según el censo en el segmento. La cantidad de SSU seleccionadas en cada PSU es determinando por el muestrista dependiendo de la optimización de los costos, y dependiendo del tamaño total de la muestra. Típicamente en Estados Unidos entre 6 a 24 SSU se seleccionan en cada PSU. Tercera y cuarta etapa de muestreo Antes de la tercera etapa de selección, es decir, la selección de los hogares, el equipo de trabajo de campo debe visitar cada SSU (segmento) y levantar un listado actualizado de las viviendas y hogares en cada segmento. Así, en la tercera etapa se seleccionan los hogares de este listado de acuerdo a la probabilidad de muestreo previamente determinada (Kish 1965):
Donde es la tasa de muestreo de los hogares en este diseño multietápico, es la medida del tamaño de la población en la PSU seleccionada , es la 27
medida del tamaño de la población en el estrato , es el número de PSU en el estrato , es el número de segmentos en la PSU , es la medida del tamaño de hogares en la SSU, y es una constante especifica del estrato:
Así, la tasa de muestreo de los hogares en la tercera etapa de selección en el listado de hogares pertenecientes a la SSU en la PSU es:
Esta tasa de muestreo se computa para cada SSU, y esta tasa de muestreo se utiliza para seleccionar mediante un SRS los hogares dentro del segmento. Una vez seleccionado el hogar se hace una entrevista corta a algún adulto habilitado para responder para poder determinar mediante esta entrevista los individuos del hogar que son elegibles. Se hace un listado de los miembros del hogar que son elegibles y se selecciona uno de ellos de manera aleatoria.
28
Capítulo 2: Preparación para el análisis de datos con muestras complejas Introducción En este capítulo se entrega una guía para el analista de la encuesta con una serie de pasos que son importantes para preparar el análisis con encuestas con diseño complejo. Los pasos descritos en este capítulo son lo que tienen que ser considerados después de los dos pasos fundamentales del análisis de datos: 1- Definición del problema de investigación y sus objetivos 2- Entender el diseño muestral de la encuesta Ejercicio: Leer el documento técnico “Metodología del Diseño Muestral y Factores de expansión” de la Encuesta Casen 2011, y realice un breve resumen con los aspectos fundamentales del diseño muestral utilizado en esta encuesta.
Análisis de los ponderadores Tal como se presentó en el capítulo anterior, el factor de expansión final entregado junto con la base de datos es generalmente igual al producto del factor de selección ( ), el factor de ajuste por no respuesta ( ), y el factor de ajuste por post- estratificación ( ). La institución a cargo de producir la base de datos, es la responsable de elaborar el factor de expansión para cada una de las observaciones. El factor de expansión asignado a cada entrevistado de la encuesta es una medida del número de personas de la población que este caso muestral representa, o la fracción relativa de la población que la observación representa. Cuando los factores de expansión son utilizados en el análisis de los datos de la encuesta, lo que se hace es expandir cada contribución de la observación muestral para reflejar su participación en la población objetivo. El objetivo de esta sección es eliminar cualquier error que se pueda estar presente en los factores de expansión entregador junto con la base de datos. Los pasos claves para la verificación y familiarización con los ponderadores o factores de expansión son los siguientes: 29
1- Verificar el nombre de la variable con el factor de expansión apropiado para el análisis 2- Revisar la escala y la distribución del factor de expansión 3- Evaluar el impacto del factor de expansión en las variables claves de la encuesta. Identificación de la variable de ponderación correcta para el análisis El usuario de los datos debe recurrir a la documentación de la encuesta para identificar correctamente el nombre de la variable que contiene los ponderadores. Desafortunadamente, no existe una forma convencional de nombrar a los factores de expansión, por lo cual hay que ser bastante cuidadoso en identificar la variable que los contiene. Dependiendo de las variables que se quieran analizar, puede existir más de un factor de expansión entregado en la base de datos.
Ejercicio: Leer el documento técnico “Metodología del Diseño Muestral y Factores de expansión” de la Encuesta Casen 2011 y en conjunto con la base de datos, identifique las variables que contienen los factores de expansión, haga una breve descripción de cada uno de ellos.
Determinación de la escala y distribución de los factores de expansión Mirar la distribución del factor de expansión que será utilizado en el análisis es un paso crítico en la preparación del análisis con la base de datos. La distribución de esta variable nos entrega información sobre: -
La escala de los factores de expansión La variabilidad y asimetría en la distribución de los ponderadores en las observaciones Valores extremos en el factor de expansión Posibles observaciones sin dato en la variable del ponderador
La escala de los ponderadores es importante para la interpretación de la estimación de los totales. La varianza y la distribución de los factores de expansión pueden tener influencia en la pérdida de precisión de las estimaciones. Valores extremos en los ponderadores, combinados con valores extremos en la variable de interés, puede producir inestabilidad en las estimaciones y los errores estándar. 30
Los sin dato o valores cero en la variable del factor de expansión pueden indicar un error en el proceso de construcción de la base de datos o una característica especial de la base de datos. El siguiente cuadro presenta las estadísticas descriptivas del factor de expansión regional de la encuesta Casen 2011, y del factor de expansión de corte transversal de la encuesta ELPI 2012.
Cuadro 2.1 Estadísticas descriptivas factor de expansión Casen 2011 y ELPI 2012 Casen 2011 (expr_r2) ELPI 2012 (fexp_enc0) n 200,302 16,033 Suma 16,962,515 1,457,398 Media 84.7 90.9 Desviación Estándar 167.0 57.5 Mínimo 3 44.4 Máximo 8868 1034.2 1% 5 49.3 5% 10 52.8 25% 21 61.6 50% 44 68.2 75% 94 84.5 95% 259 199.7 99% 624 287.6
Sensibilidad de las estimaciones a los factores de expansión El tercer paso recomendable para el investigador, especialmente cuando es la primera vez que trabaja con la base de datos, es estudiar como el aplicar los factores de expansión en el análisis afecta las estimaciones y los errores estándar de algunas variables claves. Veamos el siguiente ejemplo utilizando las variables edad, esc y yopraj (ingreso de la ocupación principal) de la encuesta casen 2011. Primero consideremos la estimación no ponderada de las medias de estas variables:
31
Las estimaciones no ponderadas de las medias de estas variables, nos indican que la edad promedio es 34.6, la escolaridad promedio 10.1, y el salario promedio $403,887. Ahora, obtendremos las mismas estimaciones pero utilizando los ponderadores, para lo cual primero definimos en Stata el diseño muestral complejo de la encuesta Casen 2011:
Y luego obtenemos las estimaciones de la media de cada una de las variables:
32
El siguiente cuadro muestra el resumen de la comparación de las estimaciones con y sin factor de expansión.
33
Cuadro 2.2 Estadísticas descriptivas ponderadas y no ponderadas con Casen 2011 Sin ponderar Ponderada Variable: edad Media 34.6 34.8 Error Estándar .0495501 .206401 Intervalo de confianza [34.5;34.7] [34.4;35.2] Variables: esc Media 10.1 10.5 Error Estándar .0106547 .0512709 Intervalo de confianza [10.04;10.08] [10.4;10.6] Variable: yopraj Media 403,887 438,004 Error Estándar 2,156.1 10,107.5 Intervalo de confianza [399,661; 408,113] [418,176; 457,831] Podemos notar que la muestra sin ponderar tiende a subestimar las medias muestrales de las tres variables, y también los errores estándar.
Modelo de cálculo del error muestral El siguiente paso en preparar los datos para el análisis, es identificar, entender y verificar el modelo de cálculo de error muestral, que la institución a cargo de la producción de la base de datos a desarrollado para la base de datos. La información sobre el modelo de cálculo del error muestral usualmente se puede encontrar en la documentación técnica de la base de datos bajo el título de cálculo de error muestral o estimación de varianza. El modelo de cálculo del error muestral es una aproximación o el “modelo” para el diseño complejo de la muestra, que permite en la práctica la estimación de las varianza para un estadístico muestral. Estos modelos son necesarios, ya que muchas veces el diseño muestral complejo para una encuesta, en cuanto al costo-eficiencia y la implementabilidad, puede entregar problemas para la estimación de las varianzas. Algunas características del diseño muestral que dificultan la metodología para obtener de manera directa la estimación de la varianza son: -
Muestreo en múltipples etapas Muestreo de unidades sin remplazo en cada etapa de la selección de la muestra Muestreo de una PSU a partir de un estrato no auto-representativo de la primera etapa 34
-
Clusters de la primera etapa muy pequeños que no son óptimos para el análisis de subclases.
La institución a cargo de los datos entonces debe ser la responsable de crear un modelo de cálculo de error muestral que conserve la mayor cantidad de información esencial sobre el diseño muestral complejo original, para en lo posible eliminar las problemas analíticos que el diseño original puede plantear para la estimación de la varianza. Códigos de estrato y cluster en datos con diseño complejo La especificación del modelo de cálculo de error muestral para un diseño complejo de muestra conlleva a la creación una variable de estrato de error muestral y otra de cluster de error muestral. Los códigos de error muestral identifican el estrato y cluster al cuál la persona entrevistada pertenece, aproximando lo mejor posible el diseño muestral original pero también conforme con los requerimientos de los métodos de estimación de varianza en diseño complejo. Estos códigos aproximan los estratos y cluster a los cuáles las personas entrevistadas hubieran sido asignadas originalmente en base al diseño muestral complejo original, no coinciden con los códigos de estrato y cluster originales. Las variables de cluster y estrato de error muestral son fundamentales para los usuarios de datos que utilizan el método de linealización de serie de Taylor para la estimación de la varianza La combinación de estratos en la construcción de un modelo de error muestral consiste en la combinación de PSU de dos o más estratos diferentes para formar un solo estrato con un cluster de error muestral grande. (Ver Figura 2.1). La técnica de combinar estratos para la estimación de la varianza se utiliza típicamente por dos razones: 1- El diseño muestral involucra un gran número de estratos en la primera etapa y pequeño número de observaciones por PSU, lo que puede llevar a problemas en la estimación de la varianza, especialmente cuando se analizan sub-clases. 2- La institución a cargo de la base de datos quiere agrupar las PSU para esconder los cluster originales como un plan de protección de la información revelada.
35
La agrupación aleatoria de clusters combina múltiples clusters para un estrato del diseño para crear dos o más clusters para la estimación del error muestral. Figura 2.1 Ejemplo de combinación de estratos
Figura 2.2 Ejemplo de agrupación aleatoria
36
La agrupación aleatoria de clusters se utiliza cuando existe un número grande de PSU en el diseño dentro de un estrato y se desea simplificar el cálculo de la varianza para este estrato o para minimizar el riesgo de que se revele la codificación original de los clusters y estratos utilizados en el diseño. Esta técnica se utiliza normalmente para crear cluster en el modelo de cálculo de error estándar al interior de estratos de primera etapa que son auto-representativos. La condensación de estratos también es una técnica utilizada en los modelos de cálculo de error estándar, técnica que se utiliza cuando se selecciona una sola PSU en cada estrato de la primera etapa. Así, se juntan los estratos juntos para formar un solo pseudo-estrato con múltiples unidades primarias de muestreo. Figura 2.3 Ejemplo de condensación de estratos
Así, identificar en la base de datos las variables de cluster y estratos para el modelo de cálculo de error muestral, los que también son denominados pseudocluster y pseudo-strato, en una etapa fundamental en la preparación para el análisis de datos con muestras complejas. Una vez que estas variables han sido identificadas, es útil hacer una tabulación de estas variables para tener una idea del tamaño de la muestra en cada uno de los clusters y estratos del modelo de cálculo de error muestral. Ejercicio: Lea la sección 4 del documento “Metodología del Diseño Muestral y Factores de expansión” e identifique en la base de datos las variables de estrato y cluster del modelo de cálculo de error muestral. Luego indique a Stata el formato del diseño complejo. Luego utilice el comando svydes para obtener la descipción de estas variables.
37
. . .
38
Como enfrentar las observaciones sin dato Lo primero que se debe reconocer es que ninguna base de datos está libre de tener problemas con variables sin dato para algunas observaciones. En esta sección nos enfocaremos en estudiar los efectos que tiene el ignorar las observaciones sin dato en el análisis, y se describirá un método para investigar las tasas y patrones de sin dato en las variables de análisis. Los métodos para realizar imputación de datos en caso de observaciones faltantes en las variables de interés serán estudiados en el capítulo 9. Potencial sesgo por ignorar las observaciones sin dato Muchos analistas simplemente ignoran el problema de observaciones faltantes en las variables de interés. Si es que estamos en el caso en que el porcentaje sin dato es bajo (menor al 1-2% de los casos), no existirán problemas importantes de no considerar este problema. En términos generales, el sesgo que se produce por la no respuesta de ciertas observaciones, se puede escribir de la siguiente manera: ̅
̅
̅
̅
̅
Donde ̅ es el promedio poblacional, ̅ es el promedio poblacional de los que responden la encuesta, ̅ es el promedio poblacional de los que no responden la encuesta, y es la proporción esperada de personas que no responden en una muestra. Así la magnitud del sesgo depende tanto de la proporción de no respuesta en la muestra como de la diferencias en las media poblacionales entre los que responden y los que no responden. Explorando las tasas y patrón de datos faltantes Comando tiene un comando llamado mvpatterns que muestra el patrón de datos faltantes en una serie de variables que se utilizaran para el análisis
39
Una vez identificado el problema de datos faltantes y su gravedad se debe tomar la decisión de aplicar algún método de imputación.
Checklist final para los usuarios de los datos 1- Revisar la documentación de la base de datos entregada por la institución a cargo de la producción de la base de datos, enfocándose principalmente en las secciones sobre la construcción de los factores de expansión y sobre la estimación del error estándar. 2- Identificar la variable correcta correspondiente al factor de expansión, teniendo en cuenta que en una misma base de datos puede venir más de una variable de factor de expansión, los que corresponden a diferentes niveles de análisis. Realizar un análisis de las estadísticas descriptivas y la distribución del factor de expansión. Seleccionar un conjunto de variables claves de la base de datos y comparar las estadísticas descriptivas de estas variables con y sin ponderar. 3- Identificar las variables en las bases de datos que contienen los códigos de estratos y cluster del modelo de cálculo de errores estándar, o los psuedoestratos y pseudo-clusters. Examinar la cantidad de clusters seleccionados en cada estrato y revisar en particular si existe algún cluster con un tamaño muestral reducido. 4- Crear una base de datos que sólo contenga las variables de interés (incluyendo las variables con el factor de expansión y la codificación de estratos y cluster del modelo de cálculo de error estándar). Examinar las variables de forma univariada y multivariada para identificar potenciales problemas de missing data.
40
Capítulo 3: Análisis descriptivo de variables continuas La estimación de los totales, promedios, varianzas y percentiles para las variables de una encuesta generalmente será el primer paso en un plan de análisis, y posiblemente el primer paso exploratorio para lograr un análisis multivariado de los datos disponibles en la base de datos. En este capítulo se estudiará cómo realizar un análisis descriptivo de las variables continuas disponibles en la base de datos.
Algunas consideraciones en el análisis con muestras complejas Estimaciones ponderadas El análisis descriptivo tanto de las variables continuas como discretas tienen como objetivo caracterizar la distribución de las variables sobre la población total bajo estudio. Si los elementos de la población tienen diferentes probabilidades de ser incluidas en la muestra, una estimación insesgada de la distribución poblacional requiere la ponderación de los datos muestrales. Dependiendo de la distribución que tengan los ponderadores y como estos se correlacionan con las variables muestrales de interés, las estimaciones muestrales no ponderadas pueden entregar una representación bastante sesgada de la verdadera distribución poblacional. Efecto diseño en las estadísticas descriptivas La estimación de estadísticas descriptivas a partir de una muestra con diseño muestral complejo pueden estar sujetas a un efecto diseño substancial, debido a la estratificación, agrupación y ponderación asociado al diseño muestral. Empíricamente se ha demostrado de manera consistente que los efectos diseño de muestras complejas son mayores en las estimaciones ponderadas de la media poblacional y del total, menores para las estimaciones de medias y proporciones de sub-poblaciones, y sustancialmente menor en la estimación de los coeficientes de regresión y otras estadísticas que son función de dos o más variables. Tipos de variables Las respuestas a las preguntas de una encuesta pueden ser codificadas o recolectadas de diferentes maneras: -
Elecciones binarias (Si/No) 41
-
Categorías nominales (Concertación, Alianza o Independinte) Escalas ordinales (1=Excelente, 2=Muy bien, 3=bien, 4=regular, 5=mal) Cuenta ordinal (años de educación, semanas de desempleo) Variables completamente continuas (peso, talla, presión arterial) Variables continuas agrupadas (intervalos de ingresos) Variables semi-continuas o censuradas (nivel de ahorro o invesión)
Estadísticas simples para variables continuas Gráficos Un requerimiento clave para el análisis de datos en muestras con diseños complejos a través de gráficos, es que el software permita la incorporación de factores de expansión. Stata es uno de los paquetes estadísticos que permite incorporar los ponderadores muestrales en la construcción de gráficos de estadísticas descriptivas. Dependiendo del tipo de gráfico Stata permite distintas opciones de factores de expansión. El Gráfico 3.1 muestra el histograma de los años de escolaridad, donde se ha ponderador por el factor de expansión.
histogram esc [fweight = expr_r2], discrete percent
0
10
Percent
20
30
Gráfico 3.1 Histograma años de escolaridad
0
5
10 años de escolaridad
42
15
20
Y el Gráfico 3.2 muestra el boxplot de los años de escolaridad, separando por género, donde se ha utilizado el factor de expansión.
graph box esc [pweight = expr_r2], over(sexo)
Gráfico 3.2 Boxplot años de escolaridad por género
Estimación de cantidad total Utilizando los datos de la encuesta Casen 2011 se puede obtener una estimación de la cantidad total de personas que se encuentran trabajando. Para esto primero generamos una variable dicotómica que toma valor 1 si la persona se encuentra trabajando y 0 si es que no:
43
También debemos considerar que las preguntas de ocupación no se realizan a toda la muestra, sino sólo a las personas de 12 años o más, por lo tanto debemos considerar esta sub-población en el análisis.
Luego definimos en Stata el diseño complejo, y utilizamos el comando svy: total para obtener la estimación del total:
El resultado nos indica que se han estudiado 165,759 observaciones, la estimación del total de ocupados es 6,917,890, con un error estándar de 191,532. Con un 95% de seguridad la estimación del total de ocupados se encuentra entre 6,542,169 y 44
7,293,611. Con el comando estat effects podemos obtener el efecto diseño, que en este caso es igual a 10.3. La estimación de los totales también se puede computar para subpoblaciones de interés, a continuación, se estima la población total de ocupados por género. Los resultados nos muestra que la estimación del total de ocupados hombres es 4,117,731, y la estimación del total de mujeres ocupadas es 2,800,159. Podemos notar que al hacer sub-poblaciones el efecto diseño disminuye sustancialmente.
Promedio de variables continuas y binarias Para obtener la estimación del promedio de una variable continua, como el ingreso, debemos utilizar el comando svy: mean. A continuación se muestra la estimación del ingreso de la ocupación principal a partir de la Casen 2011, para la estimación se utilizan 76,401 observaciones que representan una población de 45
6,701,675. El promedio de salario estimado es de $438,004 con un error estándar de 10,107.5. El efecto diseño de esta variable es 4.22.
También podemos computar el salario promedio para sub-poblaciones, por ejemplo, estimar el salario promedio por categoría ocupacional. La siguiente información, nos permite ver las diferencias en el salario promedio estimado por categoría ocupacional, y a su vez se puede calcular el efecto diseño para cada uno de las sub-poblaciones.
46
47
Cuando la variable es binaria, como por ejemplo, la variable que identifica a los individuos como ocupados y no ocupados, podemos estimar la proporción de la población en cada una de las categorías:
Podemos realizar el análisis, por tramos de edad, y estudiar la proporción de ocupados para los distintos tramos de edad, primero generamos una variable categórica con los tramos de edad:
48
49
Relación entre dos variables continuas Para analizar la relación entre dos variables se pueden utilizar las siguientes metodologías: 1234-
Un gráfico de dispersión Coeficiente de correlación Estimación del ratio entre las dos variables Regresión lineal simple
Todas estas metodologías pueden ser aplicadas en STATA a excepción de la estimación del coeficiente de correlación, ya que el software con vienen con la programación del cálculo de la correlación en diseños complejos, sin embargo, la correlación se puede obtener de manera equivalente con una regresión simple, lo que será revisado en el capítulo 5. 50
Gráfico de dispersión El gráfico de dispersión permite estudiar la relación entre dos variables continuas, para poder aplicar los factores de expansión es recomendable hacerlo sobre la recta del ajuste lineal, por ejemplo: twoway (scatter yopraj esc) (lfit yopraj esc [pweight = expr_r2])
Gráfico 3.3 Gráfico de dispersión salario y años de escolaridad
51
Ratio entre dos variables continuas Suponga que estamos interesados en estimar el ratio entre el ingreso de la ocupación principal y el ingreso total. Esto lo podemos hacer mediante los siguientes comandos:
Estadísticas descriptivas para sub-poblaciones Ya revisamos que cuando la variable de interés no es aplicable a toda la población, debemos utilizar la opción subpop() para indicar que estamos realizando un análisis sobre una sub-población. También vimos que con la opción over() podemos también realizar una análisis de sub-poblaciones según alguna variable categórica especificada en esta opción. Pero también podemos utilizar la opción subpop() para especificar algún grupo de interés que estemos interesados estudiar.
52
53
Test de diferencias de medias Una vez que hemos obtenido la estimación de los errores estándar utilizando el diseño complejo de la muestra, podemos utilizar esta información para la realización de un test de diferencia de medias entre dos sub-poblaciones. Por ejemplo,
54
55
Ejercicio: Utilizando la encuesta Casen 2011 escoga una variable continia (o semicontua) como variable de análisis. Además escoga alguna variable categórica (o binaria) a través de la cuál le interesa hacer un análisis de sub-poblaciones 1234-
Realice un histograma de la variable continua Realice un box plot de la variable Obtenga una estimación de la media muestral y del efecto diseño Obtenga una estimación de la media muestral para las subpoblaciones. 5- Testee la diferencia de medias para subpoblaciones de su interés
56
Ejercicio: Utilizando la encuesta Casen 2011 escoga una variable binaria como variable de análisis. Además escoga alguna variable categórica (o binaria) a través de la cuál le interesa hacer un análisis de sub-poblaciones 1- Obtenga una estimación de la proporción y del efecto diseño 2- Obtenga una estimación de la proporción para las subpoblaciones.
57
Capítulo 4: Análisis descriptivo de variables categóricas Tabulaciones cruzadas y tablas de contingencia Cuando se realiza un análisis que involucra dos variables categóricas la forma más común de analizar las variables es mediante una tabulación cruzada entre ambas variables o una de contingencia. Las tablas de contingencia no están limitadas a sólo dos variables, también se puede incluir una tercera variable. Considere la siguiente tabla cruzada, a modelo de ejemplo: Tabla 4.1 Tabulación cruzada de dos variables: frecuencias muestrales
Bajo el supuesto de muestreo aleatorio simple (SRS), se puede utilizar directamente la información de la tabla, las frecuencias no ponderadas, para estimar cualquier estadístico de interés, como lo es por ejemplo la siguiente proporción:
|
O para realizar un test sobre la relación entre las dos variables categóricas, como un test de Pearson chi-2. Sin embargo, como los individuos pueden ser seleccionados de la población con distintas probabilidades, las estadísticas computadas en base a las frecuencias no ponderadas pueden ser sesgadas con respecto a las verdaderas propiedades de la población. Por lo tanto es necesario pasar de la los números no ponderados a las frecuencias ponderadas, tal como se muestra en la Tabla 4.2.
58
Tabla 4.2 Tabulación cruzada de dos variables: frecuencias muestrales ponderadas
La frecuencia ponderada (o el conteo poblacional) en la celda (0,1) es igual a:
̂
∑∑ ∑
Y la proporción ponderada estimada es:
̂
̂ |
̂
Análisis univariado de variables categóricas Estimación de proporciones en variables binarias La estimación de una proporción poblacional , se puede realizar en Stata mediante tres comandos habilitados en el módulo de análisis de encuestas con diseño complejo: -
svy: prop svy: tab svy: mean
Suponga que estamos interesados en estudiar la cobertura de la educación preescolar, para lo cual utilizaremos como medida de cobertura la proporción de niños que asiste a un establecimiento educacional del total de niños menores de 6 años de edad (edad pre-escolar).
59
Primero utilicemos el comando de proporción:
Podemos ver que obtenemos exactamente la misma estimación de la cobertura de educación pre-escolar, un 44.1% de los niños menores de 6 años asiste a un establecimiento educacional. También podemos estimar esta proporción con una tabulación simple:
60
De manera alternativa, podemos generar una variable binaria que tome valor 1 si el niño asiste a un establecimiento educacional y cero si es que no asiste, luego el promedio de esta variable dicotómica equivale a la proporción:
61
Todos estos comandos llevan a los mismos resultados en cuanto a la estimación de la proporción de niños menores de 6 años que asisten a un establecimiento educacional. Sin embargo, con el comandos svy: tab se puede producir una pequeña diferencia en el intervalo de confianza, ya que este comando utiliza una transformación logística para el cálculo del intervalo de confianza. Estimación de proporciones en una variable categórica (multinomial) Suponga que estamos interesados en obtener una estimación de la proporción de los ocupados en las distintas categorías ocupacional. En términos generales, la proporción estimada en cada categoría es igual a: ̂ ̂ ̂
Podemos utilizar los comandos svy: tab y svy: proportion para las estimaciones de las proporciones, sus errores estándar e intervalos de confianza.
62
63
Gráficos para una variable categórica Para representar gráficamente las proporciones de una variable categórica, podemos utilizar Pie chart o Bar chart. Para esto primero generaremos variables binarias que representen cada una de las categorías, esto lo podemos hacer con el siguiente comando:
64
Luego podemos hacer el gráfico de torta, a través del siguiente comando: graph pie o15_1 - o15_9 [pweight = expr_r2], legend(order(1 "Empleador" 2 "Cuenta propia" 3 "Empl. Sector Público" 4 "Empl. Emp. Públicas" 5 "Empl. Sector Privado" 6 "Serv. Domestico p.adentro" 7 "Serv. Domestico p. afuera" 8 "FFAA y del orden" 9 "fam. no rem"))
O también podemos hacer un gráfico de barras utilizando el siguiente comando:
bar (mean) o15_1 (mean) o15_2 (mean) o15_3 (mean) o15_4 (mean) o15_5 (mean) o15_6 (mean) o15_7 (mean) o15_8 (mean) o15_9, legend(order(1 "Empleador" 2 "Cuenta propia" 3 "Empl. Sector Público" 4 "Empl. Emp. Públicas" 5 "Empl. Sector Privado" 6 "Serv. Domestico p.adentro" 7 "Serv. Domestico p. afuera" 8 "FFAA y del orden" 9 "fam. no rem"))
65
Cuenta propia Empl. Emp. Públicas Serv. Domestico p.adentro FFAA y del orden
0
.2
.4
.6
Empleador Empl. Sector Público Empl. Sector Privado Serv. Domestico p. afuera fam. no rem
Empleador Empl. Sector Público Empl. Sector Privado Serv. Domestico p. afuera fam. no rem
66
Cuenta propia Empl. Emp. Públicas Serv. Domestico p.adentro FFAA y del orden
Análisis bivariado de variables categóricas Estimación de la proporción total, horizontal y vertical La siguiente tabla resume como obtener las estimaciones de las diferentes proporciones que se pueden obtener al relacionar dos variables categóricas: Tabla 4.3 Estimación de proporciones entre dos variables categóricas
67
Por ejemplo, si queremos estimar la proporción de mujeres que no trabaja:
Los resultados nos muestran que la proporción de mujeres que no trabaja es igual al 33.25%, con un intervalo de confianza de 32.8% - 33.7%. Le parte de debajo de la tabla nos indica que lo que se está calculando son las proporciones de las celdas, y que se está utilizando el método de linealización para el cálculo de los errores estándar. También presenta los resultados del test Pearson, el cuál revisaremos con más detalle a continuación. Por otra parte, podemos mediante la misma tabla calcular la proporción de los ocupados que son mujeres, es decir, condicional en estar ocupado (columna ocupado=1) cuál es la proporción de mujeres. Los resultados muestran que un 40.5% de los ocupados son mujeres, con un intervalo de confianza de 39.7% 41.2%.
68
Test de diferencias en las proporciones de subpoblaciones La misma tabla anterior que nos permitía estimar la proporción de los ocupados que son mujeres, se puede obtener con el comando svy: prop. Luego a partir de la información de este tabla de resultados se puede utilizar el comando lincom para testear por ejemplo, la hipótesis de que el porcentaje de ocupados mujeres es igual a porcentaje de los no ocupados hombres.
69
Test de independencia de filas y columnas Bajo un muestreo aleatorio simple, dos variables categóricas son independientes entre ellas si se cumple la siguiente condición: ̂ Así, bajo un muestreo aleatorio simple el test de independencia entre las variables categóricas, conocido como el test chi-2 o el test de Pearson, tiene el siguiente estadístico: ∑∑ 70
̂
̂
Sin embargo, bajo una muestra con diseño complejo este estadístico se debe corregir por factor de efecto diseño generalizado, el estadístico corregido tiene una distribución F. Al hacer una tabulación para la estimación de proporciones mediante el comando svy: tab, se presenta por defecto el test de Pearson de independencia entre las variables categóricas, la hipótesis nula es que las variables son independientes. Por ejemplo, la siguiente tabla muestra la proporción de ocupados, por tramos de edad, pero adicionalmente al final de la tabla se presenta el estadístico F sobre el test de independencia ajustado por diseño complejo, del cual se puede concluir que se rechaza la hipótesis nula de independencia entre el estatus de ocupación y el tramo de edad.
71
Capítulo 5: Modelo de regresión lineal Introducción El análisis de regresión es el estudio de la relación entre variables: una variable dependiente y una o más variables independientes o variables explicativas. El supuesto que hay detrás de un modelo de regresión es que las variables explicativas tienen un efecto causal sobre la variable dependiente, y por lo tanto lo que estamos interesados en estimar es el efecto marginal que tiene cada variable explicativa sobre la variable dependiente, pero manteniendo todo lo demás constante. La relación entre la variable dependiente y las variables explicativas, en un modelo de regresión lineal se expresa de la siguiente forma:
Donde es la variable dependiente, es la variable explicativa, y es lo que se denomina el término de error del modelo, este error captura los efectos aleatorios no observables que tienen efecto sobre la variable dependiente. Este error se asume con una distribución normal, media cero, varianza contante, y sin autocorrelación. Así, bajo este modelo de regresión lineal, se estima el valor esperado de condicional en como una función lineal de . | Y en particular es de especial interés estimar cuál es el efecto marginal que tiene | , lo que en este modelo de regresión lineal está representado por : sobre |
Por lo tanto, lo fundamental es encontrar un estimador de los parámetros poblacionales y los que se conocen como los coeficientes de regresión. El método más ampliamente utilizado, y el cuál tiene propiedades deseables bajo ciertos supuestos, es el método o estimador de Mínimos Cuadrados Ordinarios (MCO).
72
El Estimador de Mínimos Cuadrados Ordinarios El método de mínimos cuadrados ordinarios escoge un estimador de los coeficientes poblacionales a partir de datos muestrales, de forma tal de minimizar los errores del modelo. Figura 3.1 Estimación de la recta de regresión
Para que esta estimación sea insesgada y eficiente (menor varianza posible), y para poder realizar inferencia a partir de los coeficientes estimados, se requieren los siguientes supuestos: 1- El modelo para | es lineal en los parámetros 2- Especificación correcta del modelo 3- El término de error tiene valor esperado igual a cero, condicional en alg{un | valor de la(as) variable(s) eplicativa(s), es decir, . 4- La varianza del término de error es constante e igual a . 5- Los errores (y por lo tanto la variable dependiente) se asumen independientes e idénticamente distribuidos con media cero y varianza constante, y además se asume en el caso de las variables dependientes continuas que la distribución es normal. 73
6- Las variables explicativas son exógenas, es decir, no existe correlación entre el error del modelo y la(as) variable(s) explicativa(s): .
Cuatro pasos en el análisis de regresión lineal Paso1: especificación del modelo Los datos prevenientes de una encuesta son datos observados (no datos experimentales). El proceso desde que se comienza por el primer modelo hasta que va refinando y lograr un modelo definitivo para obtener los resultados, es un proceso iterativo donde se repiten varias veces estos cuatro pasos. Al comienzo de cada uno de estos pasos iterativos, es importante que el analista vuelva un paso atrás y haga los cálculos básicos y evalúe críticamente la interpretación científica y la plausibilidad del modelo. El modelo es postulado inicialmente se basa en el conocimiento sobre la materia y las investigaciones empíricas relacionadas. El punto de partido, y clave, es la definición de la variable dependiente y una o más variables explicativas, definidas estas variables explicativas de claves se deben incorporar algunas otras variables que sirvan como control, es decir, aunque no son variables específicas de interés son variables que se espera que igual tengan un efecto sobre la variable dependiente. Por ejemplo, si un epidemiólogo está interesado en estimar el efecto de la obesidad sobre la presión arterial, también va a incluir variables como género, edad y raza, aunque estas no sean de su interés específico. Estadísticas descriptivas simples, y gráficos que relacionen la variable dependiente con algunas otras variables disponibles en la base de datos, pueden ser útiles para identificar las variables que deben ser testeadas en el modelo. En la mayoría de las bases de datos, sin embargo, vienen una gran cantidad de variables, y puede ser un gran desafío identificar todas aquellas que puedan tener un efecto o relación con la variable dependiente. Stata dispone del comando stepwise que dentro de un modelo con muchas variables explicativas deja solo aquellas estadísticamente significativas. Paso 2: estimación de los parámetros del modelo La estimación del modelo de regresión lineal se realiza utilizando el método de mínimos cuadrados ordinarios, esta estimación se hace en Stata mediante el comando regress. Si bien el modelo de regresión lineal y el estimador de mínimos cuadrados ordinarios son estadísticamente bastante elegantes, los 74
supuestos que hay detrás difícilmente se cumplen en la práctica. Usualmente las técnicas de transformación de la variable dependiente, y la estimación robusta de los errores estándar son utilizadas para evitar los problemas que se generan por la invalidez de los supuestos. Cuando la muestra con la que se está estimando el modelo proviene de un diseño complejo, la metodología para la estimación de los coeficientes así como la estimación de sus errores estándar se ve alterada. Los datos de una muestra con diseño complejo no tienen probabilidades idénticamente distribuidas, así los ponderadores de la muestra deben ser utilizados para obtener estimaciones insesgadas de los parámetros de regresión poblacionales. Al incorporar los ponderadores a la regresión lineal lo que se hace es una regresión mínimos cuadrados ordinarios ponderada. En el caso de Stata si se hace una regresión con el factor de expansión pweights, el software hará la estimación ponderada de los coeficientes y el cálculo correcto de los errores estándar robustos. Es muy importante interpretar de manera correcta los parámetros estimados del modelo. Por ejemplo, suponga el siguiente modelo de una variable explicativa:
Una vez obtenidos los estimadores ̂ y ̂ , y por lo tanto el valor estimado de la media poblacional de la variable de interés: ̂
|
̂
̂
Debemos concentrarnos en interpretar correctamente ̂ . Para eso notemos que si evaluamos el modelo en algún puntual de , , el valor predicho según el modelo del valor esperado de la variable dependiente es: ̂
̂
|
̂
Ahora el valor predicho del valor esperado de la variable dependiente cuando evaluamos en es: ̂
̂
|
̂
Por lo tanto, ̂
̂
̂
|
75
|
Es decir, como cambia el valor esperado de la variable dependiente cuando la variable explicativa aumenta marginalmente en una unidad es lo que el coeficiente ̂ esta estimando. Paso 3: evaluación del modelo Las medidas de bondad de ajuste, indica que tan cerca están los datos al modelo especificado y estimado. La medida de bondad de ajuste utilizada en el modelo de regresión es el R2 y el R2 ajustado, el que indica que proporción de la varianza de la variable dependiente está siendo explicada por las variables independientes. El proceso para obtener las medidas de bondad de ajuste en estimaciones con muestras complejas no cambia sustancialmente, solo requiere la ponderación en el cálculo de la medida de bondad de ajuste. También es importante evaluar la normalidad de los errores, y la presencia de outliers o datos influyentes. Paso 4: inferencia sobre los coeficientes del modelo Una vez estimado el modelo, podemos realizar inferencia sobre uno o más de los coeficientes poblacionales, utilizando la estimación basada en la muestra con diseño complejo y sus respectivos errores estándar. Cuando se realiza un test de una sola restricción, este se hace mediante un estadístico t. Suponga que se quiere testear la hipótesis nula de que el coeficiente poblacional es igual a 0.5. El estadístico t que nos permite evaluar la hipótesis nula es: ̂ ̂ Sin embargo, una consideración adicional hay que tener cuando se trabaja con una muestra con diseño complejo, los grados de libertad de la distribución t deben ser ajustados para reflejar la reducción en los grados de libertad que se produce por la estimación del error estándar con diseño complejo, los grados de libertan en este contexto son iguales a la cantidad de cluster menos la cantidad de estratos. Una vez definidos los grados de libertad apropiados de la distribución t en un contexto de diseño complejo, teniendo la estimación del error estándar y los
76
coeficientes también con estas consideraciones, es posible también calcular un intervalo de confianza para el coeficiente poblacional: ̂
̂
Veamos el siguiente ejemplo, utilizando los datos de la Encuesta Casen 2011 estimaremos un modelo de regresión lineal, donde la variable dependiente será el monto que las personas reciben de subsidio del estado, y esto lo relacionaremos con los años de escolaridad de la persona, el tamaño del hogar, la edad de la persona, y además controlaremos con el género de la persona y si vive en zona urbana o rural. Primero, realicemos una regresión simple considerando solo la edad de la persona como variables explicativa. Recordemos que el comando para hacer una estimación de un modelo de regresión lineal por MCO en Stata es regress.
Sin embargo, en la regresión anterior no se ha considerado que la muestra de la encuesta Casen 2011 se basa en un diseño muestral complejo, por lo tanto la estimación del coeficiente, su error estándar y su intervalo de confianza se verá afectado por el diseño. La utilización de los factores de expansión directamente en el comando de regresión, permiten incorporar los ponderadores en la obtención del estimador del coeficiente. Podemos notar que sin la utilización de los factores de expansión, se estimaba que el efecto marginal de un año más de edad sobre el valor esperado del monto de ingreso percibido como subsidio del estado es $617. Sin embargo, cuando las ponderaciones de la muestra son consideradas en la estimación, la estimación de este efecto marginal disminuye a $596, esta última estimación representa una estimación insesgada del efecto marginal poblacional de la edad sobre el monto del subsidio percibido. También podemos notar un aumento sustancial en los errores estándar estimados para los coeficientes estimados. 77
Pero la inclusión de los factores de expansión no es suficiente para que los errores estándar y los intervalos de confianza sean estimados de manera precisa considerando que además la muestra es de conglomerados con estratificación. Para esto tenemos que utilizar el comando svy: regress.
Podemos notar que con respecto a la estimación que sólo utiliza los factores de expansión, el valor estimado para el coeficiente es exactamente el mismo, pero si se producen cambios en la estimación del error estándar, por lo tanto en el intervalo de confianza. Así, es fundamental que cuando se trabaja con una muestra con diseño complejo, que no sólo considera ponderaciones diferentes para las observaciones muestrales, sino que además el diseño comprende agrupaciones y estratificaciones de las unidades muestrales, la regresión sea 78
realizada bajo esta especificación de la muestra, ya que si bien no afectará la estimación del coeficiente, podría afectar la inferencia sobre este coeficiente, y con seguridad afecta el cálculo del intervalo de confianza. A continuación presentamos la estimación del modelo con todas las variables explicativas antes mencionadas:
Podeos notar que la única variable que no es estadísticamente significativa es el tamaño del hogar. La bondad de ajuste del modelo indica que un 21.1% de la varianza en el monto de subsidio puede ser explicado por estas variables. La estimación nos muestra que por cada año adicional de edad el monto de subsidio se incrementa en 563 pesos, y por cada año adicional de escolaridad disminuye en 1531 pesos. También se obtiene que en promedio las mujeres reciben 2871 pesos más de subsidio que los hombres, y que las personas de zona rural reciben en promedio 3908 pesos más de subsidio que las personas que viven en zona urbana. ¿Qué modelo deberíamos estimar si queremos testear la hipótesis de que las personas de más edad de obtienen mayores subsidio pero esta relación es diferente entre las personas que viven en la zona urbana y la zona rural? Para estimar y testear el efecto marginal de la edad sobre el monto recibido de subsidio diferenciado por zona, debemos incorporar al modelo anterior una variable interactiva (multiplicación) entre edad y zona:
79
Podemos notar que esta interacción es estadísticamente significativa. De este modelo se obtiene que para las personas que viven en la zona urbana, un año más de edad aumenta en promedio en 514 el monto recibido de subsidio, sin embargo, en las personas que viven en zona rural este efecto marginal es 253 pesos mayor, es decir es de 767. La diferencia es estadísticamente significativa, ya que la interacción que mide la diferencia en los efectos marginales es estadísticamente significativa.
80
Capítulo 6: Modelo de variable dependiente binaria
81
Capítulo 7: Modelo Multinomiales, ordinales y variables de conteo
82
Capítulo 8: Imputación múltiple Modelos de imputación de datos Imputación, creación de las variables imputadas Inferencia y análisis con imputaciones
83
Referencias
84