Centro de Microdatos
Análisis de Datos Magister en Políticas Públicas Javiera Vásquez
2011
Introducción La mayoría de las decisiones en economía y políticas públicas dependerá de cuán bien podamos entender, las relaciones entre las variables que nos rodean. Al momento de diseñar una política pública se debe tener una pregunta concreta en términos cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas cuantitativas , y adicionalmente, debemos tener clara cuál es la causalidad de la relación entre las
variables. Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:
¿El cuidado prenatal lleva a tener hijos más saludables?
La Reforma Previsional, ¿mejoró ¿mejoró la calidad de vida de los adultos mayores?
EL programa de Subsidio a la Contratación de Trabajadores Jóvenes, ¿incrementará la formalización del trabajo juvenil?
¿Hay discriminación por género en el mercado laboral?¿Hay discriminación por apariencia física en el mercado laboral?
¿Cuál es el impacto de las restricciones a los fumadores sobre el hábito de fumar?
¿Qué impacto ha tenido el programa Chile Crece Contigo?
¿Existe mayor vulnerabilidad económica en los hogares monoparentales? monoparentales?
¿Cómo afecta la disponibilidad de salas cunas a la tasa de participación femenina?
Para que los datos nos entreguen respuestas concretas y útiles a estas preguntas debemos aprender a trabajar con ellos, para esto es importante adquirir práctica en organizar la información y presentarla de manera informativa, entender la aleatoriedad y cuando lo que encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos pueden ser usados para interpretar la información empírica.
Datos Experimentales versus No Experimentales El escenario ideal para estimar el efecto de un tratamiento o de una política es hacer cambios experimentales (controlados) sobre una variable y observar los cambios en la variable de interés. Además para tener una base de comparación necesitamos un grupo de control. Esto es lo que generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de tratamiento y un grupo de control con características similares, y sólo a los del grupo de tratamiento tratamiento se le entrega la droga y a los del grupo de control un placebo, luego podemos analizar simplemente simplemente comparando ambos grupos cuales son los efectos de la droga. En políticas públicas la asignación aleatoria de un tratamiento o política es algo bastante más complejo, ya que una política es diseñada para la población o un grupo de ellas y a veces no es ético darle prioridad aleatoria a un grupo versus otro. Además implementar un experimento en
Introducción La mayoría de las decisiones en economía y políticas públicas dependerá de cuán bien podamos entender, las relaciones entre las variables que nos rodean. Al momento de diseñar una política pública se debe tener una pregunta concreta en términos cuantitativos sobre la o las variables que queremos afectar, y que instrumentos disponemos para afectar estas variables, es decir, necesitamos dar respuestas cuantitativas a preguntas cuantitativas , y adicionalmente, debemos tener clara cuál es la causalidad de la relación entre las
variables. Por ejemplo, podemos querer dar respuesta a las siguientes preguntas:
¿El cuidado prenatal lleva a tener hijos más saludables?
La Reforma Previsional, ¿mejoró ¿mejoró la calidad de vida de los adultos mayores?
EL programa de Subsidio a la Contratación de Trabajadores Jóvenes, ¿incrementará la formalización del trabajo juvenil?
¿Hay discriminación por género en el mercado laboral?¿Hay discriminación por apariencia física en el mercado laboral?
¿Cuál es el impacto de las restricciones a los fumadores sobre el hábito de fumar?
¿Qué impacto ha tenido el programa Chile Crece Contigo?
¿Existe mayor vulnerabilidad económica en los hogares monoparentales? monoparentales?
¿Cómo afecta la disponibilidad de salas cunas a la tasa de participación femenina?
Para que los datos nos entreguen respuestas concretas y útiles a estas preguntas debemos aprender a trabajar con ellos, para esto es importante adquirir práctica en organizar la información y presentarla de manera informativa, entender la aleatoriedad y cuando lo que encontramos puede ser producto del azar, entender los conceptos de probabilidad y como estos pueden ser usados para interpretar la información empírica.
Datos Experimentales versus No Experimentales El escenario ideal para estimar el efecto de un tratamiento o de una política es hacer cambios experimentales (controlados) sobre una variable y observar los cambios en la variable de interés. Además para tener una base de comparación necesitamos un grupo de control. Esto es lo que generalmente se hace en medicina para probar nuevas drogas y sus efectos, se tiene un grupo de tratamiento y un grupo de control con características similares, y sólo a los del grupo de tratamiento tratamiento se le entrega la droga y a los del grupo de control un placebo, luego podemos analizar simplemente simplemente comparando ambos grupos cuales son los efectos de la droga. En políticas públicas la asignación aleatoria de un tratamiento o política es algo bastante más complejo, ya que una política es diseñada para la población o un grupo de ellas y a veces no es ético darle prioridad aleatoria a un grupo versus otro. Además implementar un experimento en
políticas públicas es mucho más costoso porque requiere la implementación del programa propiamente tal a una escala menor. De esta forma, en la mayoría de los casos que estudiemos no disponemos de Datos Experimentales sino de Datos Observados o No Experimentales. Cuando los datos son de naturaleza experimental, experimental, el efecto causal de la política (o tratamiento) tratamiento) se puede obtener tomando la diferencia de promedios de la variable de resultados entre el grupo de tratamiento y control, por ejemplo, tomando el peso al nacer promedio de bebes de madres con cuidado prenatal y restándole el peso al nacer promedio de bebes de madres sin cuidado prenatal. Sin embargo, si los datos no son experimentales debemos utilizar técnicas econométricas para estimar el efecto causal, estas herramientas se preocupan de aislar el efecto que otras variables, distintas al tratamiento, pueden tener sobre el resultado (outcome).
Tipos de Datos Los datos que disponemos para trabajar pueden tener tres formatos: corte transversal, Series de Tiempo, y Datos de Panel (o Longitudinales). Longitudinales).
Corte Transversal Los datos de corte transversal se caracterizan caracterizan por recopilar información información para varias unidades en un momento del tiempo, las unidades pueden ser individuos, hogares, comunas, colegios, empresas, regiones, etc. Un ejemplo de datos de corte transversal en Chile es la Encuesta CASEN. La Figura 1 muestra un ejemplo de una base de corte transversal de países, que muestra la tasa de mortalidad, expectativa expectativa de vida, y otras variables para el año 2005.
Figura 1 Datos de tipo Corte Transversal
Series de Tiempo Las series de tiempo representan observaciones para una sola unidad en varios momentos del tiempo, la frecuencia de los datos puede ser diaria, semanal, trimestral, anual, etc. Por ejemplo, del Banco Central de Chile podemos obtener las series de tiempo del Producto Interno Bruto (PIB), Indice de Precios al Consumidor (IPC), fuerza de trabajo, ocupados, etc. Ver Figura 2. Figura 2 Datos de tipo Serie de Tiempo
Datos de Panel o Longitudinales Los datos longitudinales corresponden a observaciones de varias unidades en distintos momentos momentos del tiempo, por ejemplo puedo tener los puntajes en SIMCE, PSU, número de alumnos, número de profesores, para varios colegios entre los años 2000 y 2008. La ventaja de los datos de panel es que observamos la mima unidad en diferentes momentos del tiempo lo que nos permite estudiar la dinámica en el comportamiento de diversas variables.
La Figura 3 muestra un ejemplo de datos de panel, con observaciones de varios países entre el año 2004 y 2009. Figura 3 Datos de tipo Datos de Panel
Una primera inspección de los datos Lo primero que debe hacer todo investigador que trabaja con una base de datos, ya sea de creación propia o externa, antes de aplicar modelos estadísticos, es inspeccionar y explorar los datos de modo correcto. ¿Qué debemos tener presente cuando inspeccionamos los datos?
A qué nivel de agregación queremos trabajar y presentar los datos: individuos, hogar, comunas, regiones, etc.
Qué tipo de gráfico me permite mostrar de manera clara y ordenada los resultados, incluso es relevante fijarse en las escalas de los ejes de los gráficos que los haga comparable entre ellos, y relevantes para el análisis.
Selección correcta de la información que se mostrará, no siempre es preferible más a menos, no es recomendable presentar muchos datos ni gráficos, sino saber elegir los correctos.
Para revisar algunos conceptos relacionados con la inspección de los datos utilizaremos la Encuesta
CASEN
2009
(http://www.mideplan.gob.cl/casen/index.html ),
específicamente
trataremos de producir estadísticas descriptivas y gráficos en STATA que nos permitan analizar la situación de los ingresos, pobreza, y desigualdad en Chile. Para nuestro primer análisis utilizaremos como medida el ingreso autónomo per-cápita del hogar1, el que puede ser generado a partir de la información disponible en la encuesta:
use casen2009.dta, clear egen hogarid=group(segmento folio) g s=1 if pco1!=14 replace s=0 if pco1==14 egen n=sum(s), by(hogarid) gen yauthpc=yauthaj/n
1
El Ingreso Autómomo se define como aquel por concepto de sueldos y salarios, ganancias pro venientes del trabajo independiente, autoprovisión de bienes producidos por el hogar, bonificaciones, gratificaciones, rentas, intereses, así como jubilaciones, pensiones, montepíos y transferencias entre privados.
Distribución Empírica La distribución empírica de una variable nos muestra que tan frecuente es que la variable tome un valor dentro de cierto intervalo. Gráficamente la distribución empírica de la variable se puede ver a través de un histograma . histogram yauthpc if yauthpc<1000000, percent fcolor(purple)
ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita del hogar) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2009)
Gráfico 1
Ingreso Autónomo per-capita del hogar Distribución Empírica 5 1
0 1
5
0
0
200000
400000
600000
800000
1000000
Ingreso Autónomo per-cápita del hogar Fuente: Elaboración propia en base a Encuesta CASEN 2009
Un histograma nos muestra una serie de rectángulos, el ancho de estos rectángulos representa un intervalo de la variable para la cual estamos construyendo el histograma, en este caso ingreso, y la altura representa la proporción de las observaciones que caen dentro de este intervalo. En este ejemplo, STATA automáticamente escoge rectángulos con ancho 18849.16 para de esta forma generar 53 rectángulos de igual ancho:
Sin embargo, se puede elegir de que ancho se quieren los rectángulos o en cuántos rectángulos dividir el rango completo en el cual se mueve la variable de interés, teniendo en cuanta que
mientras más anchos sean los rectángulos o menor cantidad más tosco será el histograma, y mientras más angostos sean los rectángulos (mayor cantidad) más fina será la distribución de la variable que podemos analizar con el histograma.
histogram yauthpc if yauthpc<1000000, width(50000) percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita del hogar) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2009)
Gráfico 2
Ingreso Autónomo per-capita del hogar Distribución Empírica 0 3
0 2
0 1
0
0
200000
400000
600000
800000
1000000
Ingreso Autónomo per-cápita del hogar Fuente: Elaboración propia en base a Encuesta CASEN 2009
En este gráfico le pedimos a STATA que tome rectángulos de ancho 50,000 para hacer el histograma, por lo cual utiliza 20 barras para cubrir todo el rango de valores que toma la variable de interés. Por otra parte, podemos indicar que haga un histograma con 100 rectángulos, los que automáticamente quedarán con ancho 10000:
histogram yauthpc if yauthpc<1000000, bin(100) percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita del hogar) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2009)
Gráfico 3
Ingreso Autónomo per-capita del hogar Distribución Empírica 8
6
4
2
0
0
200000
400000
600000
800000
1000000
Ingreso Autónomo per-cápita del hogar Fuente: Elaboración propia en base a Encuesta CASEN 2009
El histograma nos permite analizar la distribución de la variable que estamos estudiando, en particular en el caso de ingreso autónomo per-cápita observamos que:
Alrededor de un 20% de las personas (con ingresos per-cápita menor a 1 millón de pesos) tienen ingresos per-cápita menores a $200 mil pesos.
A pesar de que la mayoría de los individuos se encuentras a la izquierda de la distribución, existe una cola larga a la derecha.
Estimación Kernel de la Distribución Empírica Como se mencionaba mientras más angosto son los rectángulos en el histograma más fina es la estimación de la distribución de la variable que puede ser realizada, el caso extremo es cuando estos rectángulos se reducen a un solo punto2, esta estimación de la función de densidad (distribución) es conocida como Kernel. El siguiente gráfico nos muestra la estimación de la función de densidad del ingreso autónomo per-cápita, lo que nos permite apreciar de manera más suave y continua la distribución de las observaciones en el rango en el cual se mueve el ingreso autónomo per-cápita. kdensity yauthpc if yauthpc<1000000, ytitle(Densidad) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita del hogar) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2009)
Gráfico 4
Ingreso Autónomo per-capita del hogar Distribución Empírica
0
0
200000 400000 600000 800000 Ingreso Autónomo per-cápita del hogar
1000000
Fuente: Elaboración propia en base a Encuesta CASEN 2009
Si bien la distribución empírica de la variable nos permite caracterizar bastante bien la variable, es difícil utilizar esta distribución para comparar dos o más variables, para hacer comparación 2
La estimación de densidad Kernel consiste a justar una distribución normal en cada punto observado de datos, luego se une (suma ponderada) cada una de estas distribuciones normales.
necesitamos tener indicadores concretos que de alguna forma resuman lo que podemos ver gráficamente con el histograma o kernel. Algunos de estos indicadores son las medidas de tendencia central y las medidas de dispersión.
Medidas de Tendencia Central Las medidas de tendencia central, tal como lo dice su nombre hablan del punto medio de la distribución. Una medida de tendencia central es la media aritmética (o promedio), la que representa el punto de equilibrio de la distribución:
Por ejemplo, el promedio entre los números 1 y 9 es 5, ya que de esta manera se equilibra la distribución de ellos, la distancia (en valor absoluto) entre 1 y 5 es la misma que la distancia entre 9 y 5. Veamos otro ejemplo, supongamos los siguientes números: 1, 2, 3, 4, y 5. La media aritmética de estos números es 3, ya que de esta manera equilibramos la distribución de estos números. Notemos la segunda columna de la Tabla 1, la diferencia (en valor absoluto) entre 1 y la media (3) es 2, entre 2 y la media es 1, y entre 3 y la media es cero, estos tres valores son menores o iguales a la media, y la suma de su distancia con respecto a la media es 3. Por otra parte, los valores que están sobre la media, tienen una diferencia de 1 con respecto a la media y 2 con respecto a la media, lo que también suma 3. De esta forma, vemos que la media es el número que logra equilibrar la distribución de los números observados. Tabla 1 Ejemplo media aritmética
Números 1 2 3 4 5
Diferencia absoluta con respecto a la media
Suma antes y después de la media
2 1 0 1 2
3 3
La Tabla 2 nos muestra otro ejemplo, en este caso tenemos 8 números cuya media aritmética es 26.75. Sólo dos de los ocho números están sobre la media aritmética y los restantes seis están bajo la media, podemos ver que la suma de la diferencia absoluta de cada uno de los números que
están bajo la media con respecto a la media es exactamente igual a la suma de las diferencias absolutas de los números que están sobre la media. Tabla 2 Ejemplo media aritmética
Números 10 11 12 13 13 15 40 100
Diferencia absoluta con respecto a la media
Suma antes y después de la media
16.75 15.75 14.75 13.75 13.75 11.75 13.25 73.25
86.5 86.5
Veamos un caso aún más extremo, la Tabla 3 nos muestra un listado de 12 números, los primeros 11 números son bastante pequeños (menores o iguales a 1), pero el último número es un número bastante grande, lo que hace que para equilibrar estos números el promedio va a ser un número bastante más grande que los primeros 11 números, en efecto el promedio de estos 12 números es 8.79, y 11 de los 12 números están bajo el promedio, mientras que 1 sólo está sobre el promedio. Tabla 3 Ejemplo media aritmética
Números 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 100
Diferencia absoluta con respecto a la media
Suma antes y después de la media
8.79 8.69 8.59 8.49 8.39 8.29 8.19 8.09 7.99 7.89 7.79 91.21
91.21 91.21
Esto nos muestra algo importante que hay que tener presente cuando uno utiliza la media como una medida de tendencia central, esta medida es bastante sensible a valores extremos en la distribución de números. En el caso del ingreso autónomo per-cápita de la encuesta CASEN 2009, la media de esta variable es $130,992.7:
De las 244,511 observaciones, 162,504 (66.5%) están bajo la media y 82,007 (33.5%) están sobre la media. Otra medida de tendencia central es la mediana, la que corresponde al valor de la variable en la mitad de la distribución, es decir, si ordenamos las observaciones de menor a mayor valor de la variable, la mediana es el valor de la observación que está justo en la mitad, dejando la misma cantidad de observaciones a la derecha y a la izquierda de la mediana. La mediana es una medida de tendencia central más robusta que la media, en el sentido que no es afectada por valores extremos. En el ejemplo de la Tabla 1 tenemos 5 números, donde el número 3 corresponde al que está justo en la mitad de estos 5 números, de esta forma la mediana es 3. En el ejemplo, de la Tabla 2 tenemos 8 números, no existe un único número que este en la mitad, en este caso tenemos que considerar los números en la posición 4 y 5 para calcular la mediana, como ambos números son iguales a 13, la mediana de estos números es 13. Finalmente, en la Tabla 3 tenemos 12 números, nuevamente al ser un número par no existe un único número en la mitad, tenemos que considerar los números en la posición 6 y 7 para calcular la mediana, la que corresponde al promedio de estos dos números, 0.55. La mediana del ingreso autónomo per-cápita es $93,361.7, bastante menor a la media ya que esta medida no es sensible a los valores extremos, ingresos elevados. La mediana corresponde al percentil 50 y podemos calcular este valor en STATA a través del comando summarize con la opción detail.
Adicionalmente el gráfico 5 muestra el histograma del ingreso autónomo per-cápita y los valores de la media y mediana. histogram yauthpc if yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita del hogar) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2006) xline(130993, lcolor(cranberry)) xline(93362, lcolor(black))
Gráfico 5
Ingreso Autónomo per-capita del hogar Distribución Empírica 5 1
0 1
5
0
0
200000
400000
600000
800000
Ingreso Autónomo per-cápita del hogar Fuente: Elaboración propia en base a Encuesta CASEN 2006
1000000
Simetría de una distribución Se dice que una distribución es simétrica con respecto a la media3 si existe el mismo número de valores a la derecha de la media que a la izquierda de la media, esto significa que el lado derecho de la distribución es un espejo del lado izquierdo de la distribución. Por ejemplo, la siguiente variable es simétrica en torno a su media que es igual a 3 Gráfico 6 Histograma de variable simétrica en torno a la media 4 .
3 .
2 .
1 .
0
-3
-2
-1
0
1
2
3
4
5
6
7
8
9
Para saber de manera más objetiva si la variable es simétrica o no, y no simplemente utilizando la inspección gráfica, podemos calcular el coeficiente de asimetría. Si este coeficiente es igual a cero se dice que la variable tiene una distribución simétrica en torno a la media, en este ejemplo el coeficiente de asimetría es -0.0054. Si el coeficiente de asimetría es positivo la variable tiene una distribución que concentra más observaciones a lado izquierdo de la distribución (bajo la media), por el contrario si el coeficiente de asimetría es negativo hay más observaciones en el lado derecho de la distribución (sobre la media).
3
La simetría se puede definir también con respecto a la mediana o cualquier otro punto de interés, por ejemplo, el punto más alto de la distribución.
El coeficiente de asimetría forma parte de los indicadores del comando summarize, detail de STATA. En el caso del ingreso autónomo per-cápita gráficamente notábamos que era una variable asimétrica ya que tiene mayor cantidad de observaciones al lado izquierdo, en particular el coeficiente de asimetría de esta variable es 2.65. Figura 4 Asimetría positiva y negativa
Cuando la variable tiene un coeficiente de asimetría positivo o negativo, se dice que la variable es sesgada.
En el caso de variables muy asimétricas como el ingreso, la transformación logarítmica de la variable puede lograr que la distribución sea algo más simétrica. Se debe tener presente el logaritmo de 0 no existe, por lo cual las observaciones que reportaban ingreso autónomo igual a cero quedarán con missing value en la variable transformada. El Gráfico 7 nos muestra que sucede con el ingreso autónomo per-cápita al aplicar logaritmo. g lyauthpc=ln(yauthpc) (8829 missing values generate) histogram yauthpc if yauthpc>0 & yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Ingreso Autónomo per-capita) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2006) saving(nivel, replace) histogram lyauthpc if yauthpc<1000000, percent fcolor(purple) ytitle(Porcentaje) xtitle(Ingreso Autónomo per-cápita del hogar) title(Logaritmo Ingreso Autónomo per-capita) subtitle(Distribución Empírica) note(Fuente: Elaboración propia en base a Encuesta CASEN 2006) saving(log, replace) graph combine nivel.gph log.gph
Gráfico 7
Ingreso Autónomo per-capita
Logaritmo Ingreso Autónomo per-capita
Distribución Empírica
Distribución Empírica
5 1
0 1
8
0 1 e j a t n e c r o P
6
4 5
2
0
0
0
200000 400000 600000 800000 1000000 Ingreso Autónomo per-cápita del hogar
Fuente: Elaboración propia en base a Encuesta CASEN 2006
4
6 8 10 12 14 Ingreso Autónomo per-cápita del hogar
Fuente: Elaboración propia en base a Encuesta CASEN 2006
El coeficiente de asimetría de la variable en logaritmo es bastante más pequeño:
Medidas de dispersión Tal como dice su nombre las medidas de dispersión tienen que ver con que tan dispersas están las observaciones, o que tan concentradas están. Una medida de dispersión es la varianza (2): Varianza poblacional:
Varianza muestral:
La varianza corresponde el promedio de las desviaciones al cuadrado de cada observación con respecto a la media de la variable. Notemos que nos interesan las desviaciones, razón por la cual se toma el valor al cuadrado, generando siempre un valor positivo, pero al estar al cuadrado la medida de dispersión le da más peso a las observaciones más distantes en el promedio. Otra consecuencia de que se midan las desviaciones al cuadrado es que la medida quedara expresada en el cuadrado de la unidad en la que medida la variable, lo cual dificulta bastante la interpretación. Por esta razón usualmente se utiliza la desviación estándar que consiste en tomar raíz cuadrada de la varianza, por lo cual la medida de dispersión queda expresada en la misma unidad de la variable estudiada. Desviación estándar muestral:
La desviación estándar del ingreso autónomo per-cápita es de $130,662. El siguiente gráfico nos muestra variables generadas aleatoriamente con distribución normal con media 1, pero diferentes varianzas (desviaciones estándar).
clear set obs 10000 matrix matrix matrix matrix
desv1=1 desv2=sqrt(2) desv3=sqrt(3) desv4=2
drawnorm drawnorm drawnorm drawnorm
var1, var2, var3, var4,
m(1) m(1) m(1) m(1)
sd(desv1) sd(desv2) sd(desv3) sd(desv4)
histogram var1, percent fcolor(purple) xtitle(media=1 varianza=1) replace) histogram var2, percent fcolor(purple) xtitle(media=1 varianza=2) replace) histogram var3, percent fcolor(purple) xtitle(media=1 varianza=3) replace) histogram var4, percent fcolor(purple) xtitle(media=1 varianza=4) replace) graph combine var1.gph var2.gph var3.gph var4.gph, xcommon
saving(var1, saving(var2, saving(var3, saving(var4,
Gráfico 8
8
8
6
6 t n e c r e P
4
2
4
2
0
0
-10
-5
0 5 media=1 varianza=1
10
8
-10
-5 0 5 media=1 varianza=2
10
-10
-5 0 5 media=1 varianza=4
10
8
6
6 t n e c r e P
4
2
4
2
0
0
-10
-5
0 5 media=1 varianza=3
10
Otra medida de dispersión utilizada es el rango inter-cuartil, el que se define como la distancia en unidades de la variable entre el percentil 75 y el percentil 25:
El rango inter-cuartil del ingreso autónomo per-cápita es $107,185 lo que indica que la diferencia en ingreso autónomo entre la persona que está en el 75% de mayores ingresos y la persona que está en el 25% de menos ingresos es $107,185. El problema de estas tres medidas de dispersión; varianza, desviación estándar, y rango intercuartil; es que están en la escala de la variable que estamos midiendo su dispersión, por lo cual no nos permite comparar variables con diferentes escalas, no es una medida estandarizada. Una medida de dispersión estandarizada y que nos permite comparar variables de distinta naturaleza es el coeficiente de variación (cv):
Por ejemplo, el coeficiente de variación del ingreso autónomo es casi igual a uno, indicando que la desviación estándar es igual a la media de la variable, sin embargo, al aplicar la transformación logarítmica de la variable la dispersión de reduce bastante la desviación estándar de la variable transformada es igual a 0.08 veces la media. Un gráfico que nos permite ver de manera simultánea la dispersión de la variable como su tendencia central es el Box plot. graph box yauthpc if yauthpc>0 & yauthpc<1000000
Gráfico 9
0
La línea dentro de la caja corresponde a la mediana de la variable (medida de tendencia central), la parte superior de la caja representa el percentil 75 y la parte baja de la caja el percentil 25, por lo cual la altura de la caja representa el rango inter-cuartil (medida de dispersión). La línea que esta por sobre la caja define la cantidad de valores extremos en la variable, todas las observaciones sobre esta línea son valores extremos o outliers. Esta línea se está definida por el percentil 75 más 1.5 veces el rango inter-cuartil, de manera equivalente la línea que está bajo la casa corresponde al percentil 25 menos 1.5 veces el rango inter-cuartil.
Medidas de desigualdad Para definir si una persona es indigente, pobre no indigente, o no pobre se utiliza la línea de indigencia y pobreza definida según el consumo de una canasta básica por MIDEPLAN. Para el año 2009 se tienen los siguientes valores de línea de indigencia y pobreza: Tabla 4
Línea de indigencia Urbana 32,067 Rural 24,710 Línea de pobreza Urbana Rural
64,134 43,242
Para definir si un individuo tiene un ingreso bajo o sobre la línea de pobreza o indigencia, se calcula su ingreso per-cápita del hogar, tomando el ingreso total del hogar y dividiéndolo por el número de personas en el hogar, excluyendo el servicio doméstico. Los ingresos totales del hogar se pueden dividir en:
Ingreso autónomo del hogar o Ingresos laborales o Otras fuentes de ingresos (rentas, pensiones, etc.)
Ingresos por subsidios monetarios
Alquiler imputado
Dos medidas de desigualdad ampliamente utilizadas son la razón entre el último y primer quintil, y la razón entre el último y primer decil. A continuación tomaremos las diferentes medidas de ingreso para analizar las medidas de tendencia central, dispersión, y desigualdad. **Ingreso total per-cápita g ingpc=ytothaj/n ***Ingreso del trabajo del hogar**** g ytrab= ytrabhaj replace ytrab=. if ytrab==0 ***Ingreso Autonomo ditisntos del trabajo, del hogar*** g yaut2=yauthaj-ytrab replace yaut2=. if yaut2==0 ***Ingresos de subsidios del hogar*** g ysub=ysubhaj replace ysub=. if ysub==0 ***Alquiler imputado*** g alq=yaimhaj replace alq=. if alq==0
***Ingreso Autonomo Percapita del hogar*** g yaupc=yauthaj/n replace yaupc=. if yaupc==.
xtile xtile xtile xtile xtile xtile
quintil_trab=ytrab [w=expr] if o==1, nq(5) quintil_au2=yaut2 [w=expr] if o==1, nq(5) quintil_sub=ysub [w=expr] if o==1, nq(5) quintil_alq=alq [w=expr] if o==1, nq(5) quintil_aupc=yaupc [w=expr] if o==1, nq(5) quintil_totpc=ingpc [w=expr] if o==1, nq(5)
xtile xtile xtile xtile xtile xtile
decil_trab=ytrab [w=expr] if o==1, nq(10) decil_au2=yaut2 [w=expr] if o==1, nq(10) decil_sub=ysub [w=expr] if o==1, nq(10) decil_alq=alq [w=expr] if o==1, nq(10) decil_aupc=yaupc [w=expr] if o==1, nq(10) decil_totpc=ingpc [w=expr] if o==1, nq(10)
matrix MED=J(6,12,0) matrix colnames MED=Promedio DesvEstandar P25 P75 Quintil1 Quintil5 Decil1 Decil10 CV IQR D10/D1 Q5/Q1 matrix rownames MED=Trabajo otros_autonomos subsidios alquiler autonomo_pc total_pc sum ytrab [w=expr] if o==1, detail matrix MED[1,1]=r(mean) matrix MED[1,2]=r(sd) matrix MED[1,3]=r(p25) matrix MED[1,4]=r(p75) sum ytrab [w=expr] if o==1 & quintil_trab==1 matrix MED[1,5]=r(mean) sum ytrab [w=expr] if o==1 & quintil_trab==5 matrix MED[1,6]=r(mean) sum ytrab [w=expr] if o==1 & decil_trab==1 matrix MED[1,7]=r(mean) sum ytrab [w=expr] if o==1 & decil_trab==10 matrix MED[1,8]=r(mean) sum yaut2 [w=expr] if o==1, detail matrix MED[2,1]=r(mean) matrix MED[2,2]=r(sd) matrix MED[2,3]=r(p25) matrix MED[2,4]=r(p75)
sum yaut2 [w=expr] if o==1 & quintil_au2==1 matrix MED[2,5]=r(mean) sum yaut2 [w=expr] if o==1 & quintil_au2==5 matrix MED[2,6]=r(mean) sum yaut2 [w=expr] if o==1 & decil_au2==1 matrix MED[2,7]=r(mean) sum yaut2 [w=expr] if o==1 & decil_au2==10 matrix MED[2,8]=r(mean) sum ysub [w=expr] if o==1, detail matrix MED[3,1]=r(mean) matrix MED[3,2]=r(sd) matrix MED[3,3]=r(p25) matrix MED[3,4]=r(p75) sum ysub [w=expr] if o==1 & quintil_sub==1 matrix MED[3,5]=r(mean) sum ysub [w=expr] if o==1 & quintil_sub==5 matrix MED[3,6]=r(mean) sum ysub [w=expr] if o==1 & decil_sub==1 matrix MED[3,7]=r(mean) sum ysub [w=expr] if o==1 & decil_sub==10 matrix MED[3,8]=r(mean)
sum alq [w=expr] if o==1, detail matrix MED[4,1]=r(mean) matrix MED[4,2]=r(sd) matrix MED[4,3]=r(p25) matrix MED[4,4]=r(p75) sum alq [w=expr] if o==1 & quintil_alq==1 matrix MED[4,5]=r(mean) sum alq [w=expr] if o==1 & quintil_alq==5 matrix MED[4,6]=r(mean) sum alq [w=expr] if o==1 & decil_alq==1 matrix MED[4,7]=r(mean) sum alq [w=expr] if o==1 & decil_alq==10 matrix MED[4,8]=r(mean)
sum yaupc [w=expr] if o==1, detail matrix MED[5,1]=r(mean) matrix MED[5,2]=r(sd) matrix MED[5,3]=r(p25) matrix MED[5,4]=r(p75) sum yaupc [w=expr] if o==1 & quintil_aupc==1 matrix MED[5,5]=r(mean) sum yaupc [w=expr] if o==1 & quintil_aupc==5 matrix MED[5,6]=r(mean) sum yaupc [w=expr] if o==1 & decil_aupc==1 matrix MED[5,7]=r(mean) sum yaupc [w=expr] if o==1 & decil_aupc==10 matrix MED[5,8]=r(mean) sum ingpc [w=expr] if o==1, detail matrix MED[6,1]=r(mean) matrix MED[6,2]=r(sd) matrix MED[6,3]=r(p25) matrix MED[6,4]=r(p75) sum ingpc [w=expr] if o==1 & quintil_totpc==1 matrix MED[6,5]=r(mean) sum ingpc [w=expr] if o==1 & quintil_totpc==5 matrix MED[6,6]=r(mean) sum ingpc [w=expr] if o==1 & decil_totpc==1 matrix MED[6,7]=r(mean) sum ingpc [w=expr] if o==1 & decil_totpc==10 matrix MED[6,8]=r(mean) local i=1 while `i'<=6 { matrix matrix matrix matrix
MED[`i',9]=MED[`i',2]/MED[`i',1] MED[`i',10]=MED[`i',4]-MED[`i',3] MED[`i',11]=MED[`i',8]/MED[`i',7] MED[`i',12]=MED[`i',6]/MED[`i',5]
local i=`i'+1 }
La razón de deciles y quintiles nos permiten estudiar la distribución o desigualdad en las distintas medidas de ingresos propuestas. Por ejemplo, se tiene que los hogares del decil más alto obtienen ingresos del trabajo que son en promedio más de 37 veces los ingresos de las personas del decil más bajo. Esto puede ser de alguna manera compensado (al menos en términos relativos) con los subsidios, ya que la razón entre el Decil 90 y Decil 10 de subsidios monetarios es 45.5. Con respecto a la razón de quintiles, las personas que están en el 20% de mayores ingresos del trabajo tienen ingresos por este ítem promedio que son 16.2 veces los ingresos de trabajo de las personas que están en el 20% inferior. En términos de ingreso autónomo per-cápita la desigualdad de ingresos nos muestra que las personas del decil más alto tienen un ingreso 78.7 veces el ingreso de las personas del decil más bajo. En términos de quintiles la razón (desigualdad) es menor, nos muestra que las personas en el quintil más acomodado tiene un ingreso autónomo 24 veces el ingreso del primer quintil. Pero si nos concentramos en el ingreso total del hogar, el cual corresponde a los ingresos autónomos más los subsidios monetarios y alquiler imputado, se tiene que la razón de deciles es poco menos de la mitad de la misma medida para el ingreso autónomo, y la razón de quintiles es 15.8. Otras dos medidas de desigualdad son la curva de Lorenz y el coeficiente de Gini. La Curva de Lorenz mide el porcentaje acumulado del ingreso (o de la variable que estemos analizando) en
manos del porcentaje acumulado de la población. La Figura 5 nos muestra la Curva de Lorenz en rojo, en el eje horizontal nos va mostrando la proporción de la población que va desde cero a 1, y en el eje vertical la proporción del ingreso. Por ejemplo, esta curva nos muestra que un 60% de la población acumula cerca del 30% de los ingresos. Mientras mayor curvatura tenga la curva de
lorenz mayor es la desigualdad, y mientras más recta sea la curva menor es la desigualdad, en el extremo no existe desigualdad en la línea negra (45°). Figura 5
lorenz yaupc
Gráfico 10
Esta medida de desigualdad es gráfica y dificulta la comparación con otras variables. El coeficiente de Gini es un indicador más objetivo que se obtiene a partir de la Curva de Lorenz, el Gini es un número que está entre 0 y 1, en donde 0 corresponde a perfecta igualdad y 1 corresponde a perfecta desigualdad. El Coeficiente de Gini se obtiene de dividir el área que hay entre la línea de perfecta igualdad y la Curva de Lorenz (a), y el área total bajo la línea de perfecta igualdad (a+b). Figura 6 Coeficiente de Gini
Para obtener el coeficiente de GINI del ingreso autónomo per-cápita podemos utilizar el comando
inequal de STATA: inequal yaupc
El coefiente del Gini del ingreso autónomo per-cápita es 0.513 o 51.3%.
La interpretación del coeficiente de GINI es la siguiente, si tomo dos familias o personas al azar, la diferencia en ingresos autónomos per-cápita de estas dos personas como proporción del ingreso promedio:
Es el doble del coeficiente de GINI, es decir, en este caso 102.6%. Todos los indicadores que hemos presentados: medidas de tendencia central, medidas de dispersión, y medidas de desigualdad, lo hemos mostrando pensando en el análisis de una sola variable. Sin embargo, en muchos casos nos interesará hacer comparaciones entre estadísticos de diferentes variables o para diferentes grupos, por ejemplo, podríamos comparar los ingresos promedios entre hombre y mujeres. Una forma de compararlos sería simplemente tomar la diferencia entre el ingreso promedio de los hombres y el ingreso promedio de las mujeres, esto nos entregará un número. Pero no sabremos si decir si ese número es grande o pequeño, o afirmar que realmente la diferencia existe, para esto necesitamos determinar si el valor encontrado es estadísticamente diferente de cero. A continuación comenzaremos a desarrollar el marco conceptual que más adelante nos permitirá responder esta pregunta.
Teoría de Distribución de Probabilidades A continuación vamos a presentar y desarrollar una serie de conceptos relacionado con la Teoría de Probabilidades, la que más adelante nos permitiría rechazar o no hipótesis desde el punto de vista estadístico.
Variable Aleatoria Definición Una variable aleatoria es aquella variable cuyos resultados posibles se obtienen del azar, es decir, de manera experimental.
Existen variables aleatorias discretas, es decir, que sólo pueden tomar valores contables, y existen variables aleatorias continuas donde la variable puede tomar cualquier número del infinito de números posibles.
Probabilidad de un evento Se entiende por probabilidad como la posibilidad de que ocurra un resultado o un evento determinado. Un evento es uno de los posibles resultados de hacer algo. Por ejemplo, al lanzar una moneda tenemos dos posibles eventos: que salga cara o que salga sello. Luego, la probabilidad de que al lanzar una moneda esta caiga en cara es ½ o 0.5. Una probabilidad siempre estará entre 0 y 1, donde 0 significa que no existe ninguna posibilidad de que el evento ocurra, y 1 existe seguridad de que el evento ocurra. En la teoría de probabilidad, la actividad que origina los diferentes eventos se conoce como experimento. Al conjunto de todos los resultados posibles de un experimento se le llama espacio muestral del experimento. En el experimento lanzar una moneda el espacio muestral es:
Consideremos ahora el experimento de lanzar una moneda cuatro veces, para cada lanzamiento de la moneda tenemos dos posibles resultados (cara o sello), por lo cual el espacio muestral de este experimento tendrá 16 eventos posibles:
1° moneda
2° moneda
3° moneda
4° moneda
Cara
Cara
Cara
Cara Sello
Sello
Cara Sello
Sello
Cara
Cara Sello
Sello
Cara Sello
Sello
Cara
Cara
Cara Sello
Sello
Cara Sello
Sello
Cara
Cara Sello
Sello
Cara Sello
De esta forma, el experimento lanzar 4 monedas tiene 16 posibles eventos que forman el espacio muestral del experimento, y la probabilidad de cada uno de los eventos es 1/16 o 0.0625. Número 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
Evento
Probabilidad
CCCC CCCS CCSC CCSS CSCC CSCS CSSC CSSS SCCC SCCS SCSC SCSS SSCC SSCS SSSC SSSS
1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625 1/16 =0.0625
Otra pregunta que nos podemos hacer con respecto al experimento de lanzar 4 monedas es la cantidad de caras que salen, esta variable la denotaremos por X, y se tiene que: X 0 1 2 3 4
N° de casos
Probabilidad
1 4 6 4 1
1/16=0.0625 ¼=0.25 3/8=0.375 ¼=0.25 1/16=0.0625
Esta variable aleatoria puede tomar cinco valores diferentes, por lo cual es una variable aleatoria discreta, las probabilidades de cada uno de los posibles valores de esta variable son todos positivos y menores a 1, y la suma de ellos es igual a 1.
Función de Distribución de Probabilidad
Definición La Función de Distribución de Probabilidad nos señala para cada uno de los resultados posibles de la variable aleatoria cual es su probabilidad
La Función de Distribución de Probabilidad tiene dos características importantes:
La probabilidad de un resultado en particular está entre 0 y 1:
La suma de las probabilidades de todos los eventos es 1:
histogram X, discrete fraction fcolor(purple) lcolor(black) ytitle(Pr(X=x)) xtitle(Número de caras en el lanzamiento de cuatro monedas)
Gráfico 11 Distribución de Probabilidad X
Definición La Función de Distribución de Frecuencias nos señala para cada uno de los resultados posibles de la variable aleatoria la cantidad de casos que tienen ese resultado.
histogram X, discrete freq fcolor(purple) lcolor(black) ytitle(frecuencias) xtitle(Número de caras en el lanzamiento de cuatro monedas)
Gráfico 12 Distribución de Frecuencias X
Una tabulación de una entrada de la variable X nos muestra la distribución de frecuencia, distribución de probabilidades (en porcentaje), y distribución de probabilidad acumulada:
En este caso la variable aleatoria es discreta, por lo cual esta función que relacionada cada evento posible de la variable con sus probabilidades está definida, sin embargo, cuando trabajamos con variables aleatorias continuas no es posible definir esta función de distribución de probabilidad, ya que existen infinitos valores posibles para X. Para variables aleatorias continuas se define la función de densidad de probabilidad. Definición La Función de Densidad de Probabilidad (pdf) es tal que el área bajo esta función entre dos puntos es igual a la probabilidad de que la variable aleatoria este entre dos puntos
Es importante tener presente que el valor asociado a la función de densidad en un punto no representa la probabilidad de que la variable aleatoria tome ese valor, ya que la función de densidad está definida para entregar probabilidades integrando por áreas. De esta forma, se tiene que la probabilidad de que una variable aleatoria continua Z tome valores entre a y b estará dada por:
Donde f(z) es la función de densidad. Además se cumple que:
Definición La Función de Probabilidad Acumulada (cdf) indica la probabilidad de que una variable aleatoria tome un valor menor o igual a cierto umbral específico
Por ejemplo, podemos preguntarnos cuál es la probabilidad de que la variable aleatoria Z sea menor a:
Una función de densidad bastante utilizada por sus particularidades es la función de densidad normal:
Esta función de densidad tiene dos parámetros que definen su media ( ) y su desviación estándar (), y se denota
. Esta función de densidad tiene la particularidad de ser simétrica
(coeficiente de asimetría es cero), y mesocurtica (coeficiente de curtosis es igual a 3). Por ejemplo, mediante el siguiente comando de STATA podemos generar variables aleatorias con una función de densidad normal, para lo cual debemos escoger sus dos parámetros: media y desviación estándar: matrix m=(0,1,2,2) matrix sd=(1,1,1,sqrt(2)) drawnorm w x y z, n(50000) means(m) sds(sd)
Hemos generado 4 variables aleatorias independientes entre ellas, w tiene media 0 y desviación estándar 1, x tiene media 1 y desviación estándar 1, y tiene media 2 y desviación estándar 1, y z tiene media dos y varianza 2. El Gráfico 13 nos muestra la función de densidad de w, la cual la obtuvimos a través del comando
normalden()de STATA. Este comando genera una variable que corresponde a aplicar la función de densidad normal con media cero y desviación estándar 1 a la variable indicada entre paréntesis, en este caso w. Es decir, g densidadw=normalden(w) twoway (scatter densidadw w)
Gráfico 13
Función de densidad normal: media 0 y desviación estándar 1
También podemos obtener y graficar la función de densidad de probabilidad acumulada de esta variable: g cdensidadw=normal(w) twoway (scatter cdensidadw w, mcolor(purple))
Gráfico 14 Función de densidad normal acumulada: media 0 y desviación estándar 1
Ambos gráficos los obtuvimos asumiendo que la variable w fue generada a partir de una función de densidad normal con media cero y varianza 1, sin embargo, en la práctica sólo se nos entregará un vector de datos sin saber cuál fue el proceso que generó esos datos. Por lo cual en la práctica debemos estimar empíricamente cual es la función de densidad de los datos, ya sea a través de un histograma o a través de una estimación kernel (suavización del histograma).
histogram w, title(media=0; varianza=1) histogram x, title(media=1; varianza=1) histogram y, title(media=2; varianza=1) histogram z, title(media=2; varianza=2) graph combine g1 g2 g3 g4, xcom ycom
name(g1, name(g2, name(g3, name(g4,
replace) replace) replace) replace)
Gráfico 15 Histograma, aproximación muestral de la función de densidad
kdensity w, title(media=0; kdensity x, title(media=1; kdensity y, title(media=2; kdensity z, title(media=2; graph combine g5 g6 g7 g8,
varianza=1) varianza=1) varianza=1) varianza=2) xcom ycom
name(g5, name(g6, name(g7, name(g8,
replace) replace) replace) replace)
Gráfico 16 Kernel, aproximación muestral de la función de densidad
Media y Varianza A partir de la función de distribución de probabilidad o la función de densidad de probabilidad de una variable aleatoria se pueden obtener algebraicamente los momentos de una variable, especialmente, la media y la varianza. Estos parámetros son análogos a la media y varianza muestral de una distribución empírica.
Media La media de una variable aleatoria de conoce como valor esperado o esperanza, y de denota por E(x).
Variable aleatoria discreta
Variable aleatoria continua
Varianza La varianza de una variable aleatoria de denota por V(X), y se define de la siguiente manera: Variable aleatoria discreta
Variable aleatoria continua
Nuevamente, estos conceptos son más bien teóricos o poblacionales, ya que suponen conocer la función de probabilidad o densidad que dio origen a los valores observados de la variable aleatoria. Por esta razón, la E(X) y V(X) se conocen como momentos poblacionales (verdaderos). Pero en la práctica desconocemos la función de densidad o la función de probabilidad, y sólo podremos obtener aproximaciones muestrales de estos momentos.
Media muestral La media muestral se define de la siguiente manera:
Es análoga a la definición de E(x) o media poblacional, pero cada xi tiene igual probabilidad de ocurrencia, 1/N.
Varianza muestral La varianza muestral se define de la siguiente manera:
Aplicación: Lotería de New Jersey
Para este ejercicio se utilizarán los datos de la Lotería de New Jersey, específicamente el juego Pick 3, en este juego se saca tres veces seguidas una bola numerada de 0 a 9, y se realiza un sorteo en la mañana y otro en la tarde. En la siguiente página pueden descargar los datos históricos del juego desde 1975: http://www.state.nj.us/lottery/data/pick3.dat El objetivo de este ejercicio es mostrar que el resultado del azar, lo que hemos denominado variable aleatoria, es sólo UNO de los resultados posibles que podría tomar dicha variable. Es decir, lo que observamos es una de las posibles realizaciones de la variable aleatoria según la distribución de probabilidad que la variable tiene asociada. De esta forma, debemos establecer un criterio para poder decidir cuando la variable aleatoria tiene un comportamiento estadístico apropiado según su distribución de probabilidad o cuando no. Nos concentraremos para comenzar en la lotería del año 1975, la siguiente figura muestra la base de datos que se obtiene de descargar la información de la página y traspasarla a STATA mediante los siguientes comandos: insheet using "pick3.dat", delimiter("%") rename v1 año rename v2 mes rename v3 dia rename v4 jornada drop v5 rename v6 n1 rename v7 n2 rename v8 n3 drop v9-v13 keep if año==1975 save "loteria75.dta", replace
Figura 7 Base de Datos Pick 3 (1975)
Cada número del sorteo (n1, n2, n3) corresponden a eventos independientes uno del otro: sacar una bola de entre 10 bolas numeradas de 0 a 9, por lo cual podemos generar una sola variable aleatoria. egen id=group(año mes dia jornada) reshape long n, i(id) j(digito)
Lo primero que hacemos es generar un identificar cada uno de los sorteos, variable id, luego ordenamos la base de datos de manera tal que las variables n1, n2, y n3 se agrupen hacia abajo en una sola columna llamada n, esto se hace a través del comando reshape long. Figura 8 Base de datos ordenada Pick 3 (1975)
La siguiente tabla nos muestra la distribución de frecuencias y de probabilidad de cada uno de los números de 0 a 9 que pueden ser sorteados:
En una lotería justa cada número tiene igual probabilidad de salir, esta probabilidad teórica es de un 10%. Empíricamente debiésemos observar que dentro de estos 570 sorteos cada número debería salir 57 veces aproximadamente, sin embargo, observamos que el número 1 por ejemplo sale 72 veces, 12.6%. El siguiente gráfico muestra el histograma de la variable aleatoria Gráfico 17 Distribución de Frecuencias sorteo
Distribución de Números sorteados Pick3 (1975) 5 1
0 1
5
0
0
1
2
Fuente: Lotería de New Jersey
3
4 5 Numeros Pick3
6
7
8
9
Se observa claramente que los números 0, 1, y 4 aparecen en más del 10% de los casos, y los números 3 y 5 en menos del 10% de los casos. ¿Podríamos afirmar entonces que la lotería no es justa?. Para poder afirmar que la lotería no es justa, debemos establecer algún criterio que nos permita decir cuando estadísticamente la variable aleatoria no se está comportando según lo esperado teóricamente. Una estrategia para hacer esto es simular muchas loterías honestas (por ejemplo 5000) sacando muestras repetidas de 570 observaciones, luego si en estas simulaciones observamos que es frecuente que un número aparezca 12.6% de las veces o más, podríamos concluir que los resultados obtenidos no son irregulares. Si por el contrario la probabilidad de que un número aparezca 12.6% en las simulaciones es muy baja habría que sospechar de los resultados de la lotería de 1975. Pero necesitamos un criterio para decir cuando es un resultado regular o un resultado raro, es decir, cual es la probabilidad límite tal que sobre este valor diremos que este resultado (observar más del 10% el número 1) es un mero resultado del azar, y bajo este valor diremos que esta lotería es injusta. Por ejemplo, si en un 100% de las simulaciones observamos que el número 1 sale 12.6% de las veces podríamos decir que esto no es algo raro o que la lotería es justa. Si observamos que en un 80% de las simulaciones se da este resultado también sigue siendo un resultado que no nos permite decir que la lotería es injusta pero si por ejemplo, observamos que este resultado sólo se da en un 1% de las simulaciones tenemos evidencia para decir que la lotería no es justa ya que el resultado se da en sólo un 1% de los casos, es un caso aislado. Entonces debemos escoger el valor sobre el cual diremos que el resultado es “normal” y bajo el cual diremos que el resultado es “extraño”, por ejemplo 5%.
Entonces,
Si en la simulación la probabilidad (cantidad de casos sobre el total) de que el número 1 sea sorteado 12.6% de las veces o más, es mayor a 5% (nuestro criterio) diremos que la lotería es justa.
Si en la simulación la probabilidad de que el número 1 sea sorteado 12.6% de las veces o más, es menor a 5% (nuestro criterio) diremos que la lotería no es justa.
A continuación realizaremos las 5,000 simulaciones de una lotería justa, esto significa obtener aleatoriamente y con igual probabilidad un número entre 0 y 9, 570 veces, ya que esta es la cantidad de observaciones que poseemos para el año 1957. Luego contaremos la cantidad de veces que fue sorteado cada número.
clear drop _all set matsize 6000 set more 1 matrix B=J(5000,10,0) set obs 570 g y=0 local i=1 while `i'<=5000 { qui replace y=int(uniform()*10) qui sum y if y==0 matrix B[`i',1]=r(N) qui sum y if y==1 matrix B[`i',2]=r(N) qui sum y if y==2 matrix B[`i',3]=r(N) qui sum y if y==3 matrix B[`i',4]=r(N) qui sum y if y==4 matrix B[`i',5]=r(N) qui sum y if y==5 matrix B[`i',6]=r(N) qui sum y if y==6 matrix B[`i',7]=r(N) qui sum y if y==7 matrix B[`i',8]=r(N) qui sum y if y==8 matrix B[`i',9]=r(N) qui sum y if y==9 matrix B[`i',10]=r(N) local i=`i'+1 }
Luego, la matriz B se transforma a base de datos drop y svmat B, names(col)
Figura 9 Base de datos 5,000 simulaciones Número de veces que es sorteado cada número
Luego, calculamos el porcentaje en el que es sorteado el número 1 para cada simulación: g prop1=c2/570*100 count if prop1>=12.6
Se obtiene que en 119 de las 5,000 simulaciones el número 1 es obtenido 12.6% o más, lo que corresponde a 2.38%, este porcentaje es menor al 5% que establecimos como criterio para decidir cuando la lotería no es justa, por lo cual podemos decir que los resultados de la lotería de 1975 NO son regulares. El Gráfico 18 muestra la distribución de el porcentaje de veces que es sortead el número 1 de las 5,000 simulaciones. Vemos que la distribución es bastante simétrica y se concentra en torno a 10%, que representa el valor teórico del número de veces que debemos obtener el número 1. En efecto, el promedio es justamente 10%. Además observamos que en un 1% de los casos el porcentaje de 1 es mayor a 13.2%, y en un 1% de los casos es menor a 7.2%.
Gráfico 18 Distribución de porcentaje de veces que número 1 es sorteado
1975 6
4
2
0
6
8 10 12 14 Distribucion del porcentaje de unos en las 5000 simulaciones
16
Muestreo Aleatorio y Distribución de la Media Muestral Cuando estamos interesados en analizar el comportamiento de una variable de interés, por ejemplo, el nivel de ingresos de un hogar, el peso de los menores al nacer, la propensión a padecer diabetes, el número de meses que una persona permanece desempleado, etc., generalmente trabajaremos con una muestra extraída de la población. Esto, porque en términos prácticos no tiene sentido estudiar a toda la población para determinar el comportamiento estadístico y las propiedades de la variable de interés, para esto bastará extraer una muestra aleatoria de la población. Por ejemplo, si queremos estudiar el comportamiento previsional de los trabajadores independientes, no es necesario entrevistar a todos los trabajadores independientes sino que bastará con extraer una muestra aleatoria que sea representativa de este grupo de interés. De una población se pueden extraer distintas muestras que permitan representar dicha población. Supongamos que nuestra población bajo estudio está formada por 10 individuos, ¿cuántas muestras diferentes podemos obtener de esta población?
8
6 9
10
3
4 2
5
Una posible muestra es tomar a 1 individuo de los 10, podríamos formar 10 muestras de este tipo. Otro extremo es tomar una muestra de 10 individuos (igual a la población), también podríamos formar muestras de dos individuos, o de tres, etc. Esto nos permite ver como a partir de una población pequeña de sólo 10 individuos, la cantidad de muestras que se pueden obtener de ellas es bastante amplia. ¿Cuántas muestras podemos obtener de una población de 16,000,000 de personas?, este número tiende a infinito. Se define como Población al conjunto de todos los elementos que han sido escogidos para el estudio. Se realiza un Censo cuando se entrevista a cada uno de los elementos de la población. Una Muestra corresponde a una selección de parte de la población.
Estadísticas versus parámetros Cuando queremos caracterizar una variable, y a su vez, compararla con otra variable o la misma variable entre diferentes grupos, podemos utilizar las medidas de tendencia central como la media y la mediana, y las medidas de dispersión como desviación estándar y rango inter-cuartil. Cuando estos indicadores son obtenidos de una muestra son conocidos como estadísticas descriptivas, descriptivas, sin embargo, cuando son obtenidos de la población se conocen como parámetros.
Tipos de muestreo Para que una muestra sea representativa de la población debe ser obtenida de manera aleatoria, sólo si esto se cumple podremos aproximar los parámetros poblacionales poblacionales a través de estimaciones muestrales. Como ya se mencionaba, de una población podemos obtener infinitas muestras aleatorias, así cuando se nos entrega una base de datos cuya información corresponde a una muestra obtenida de la población, esta corresponde a una de un millón de bases de datos que podríamos haber obtenido para la población de estudio.
Muestreo Aleatorio Simple El Muestreo Aleatorio Simple (MAS) selecciona muestras de forma tal que cada muestra tiene igual probabilidad de ser seleccionada y que cada elemento de la población tiene igual probabilidad de ser incluido en la muestra. Un MAS se dice que es con reemplazo, si una personas seleccionada puede ser elegible nuevamente, es decir, podría ser que una personas fuese seleccionada más de una vez para formar parte de la muestra. El MAS es sin reemplazo si cada persona puede ser seleccionada una vez o no seleccionada, es decir, una vez escogida la persona esta deja de ser elegible nuevamente. Suponga que tenemos una población población 845 estudiantes de Ingeniería Ingeniería Comercial egresados en los años 2005, 2006 y 2007. De esta población de estudio debemos escoger una muestra de 120 estudiantes para ser entrevistados. Los 845 estudiantes están identificados en la base de datos a través de la variable folio que tiene tres dígitos y toma valores del 1 al 845. Para determinar qué persona entrevistar debemos generar 120 número aleatorios de tres dígitos que representarán los folios de las personas seleccionadas. seleccionadas. Los 120 folios seleccionados mediante muestreo aleatorio simple con reemplazo pueden ser seleccionados a través de los siguientes comandos: comandos:
set obs 120 g n1=int(uniform()*10) g n2=int(uniform()*10) g n3=int(uniform()*10) g sorteo=n1*100+n2*10+n3)
La siguiente figura nos muestra los números sorteados: Figura 10 Números sorteados mediante Muestreo Aleatorio Simple Con reemplazo
El primer estudiante seleccionado es aquel con el folio 169. Ahora, si queremos seleccionar la muestra mediante un muestreo aleatorio simple sin reemplazo reemplazo podemos hacerlo mediante los siguientes siguientes comandos: set obs 150 g g g g
n1=int(uniform()*10) n2=int(uniform()*10) n3=int(uniform()*10) sorteo=n1*100+n2*10+n3
duplicates drop sorteo, force keep if n<=120
A pesar de que mediante los comandos anteriores nos permiten ejemplificar el muestreo aleatorio simple, STATA ya posee comandos que automáticamente seleccionan muestra a través de este tipo de muestreo con y sin reemplazo:
sample: el comando simple de STATA genera una muestra aleatoria simple sin reemplazo
o o
sample 10: escoge aleatoriamente 10% de las observaciones sample 120, count: escoge aleatoriamente 120 observaciones
bsample: muestreo aleatorio simple con reemplazo o bsample 120: escoge aleatoriamente 120 observaciones.
El Gráfico 19 muestra la comparación entre las funciones de densidad de una población de 100,000 observaciones que siguen una distribución normal con media 15 y varianza 100, y diferentes muestras obtenidas de esa población. La diferencias entre un gráfico y otro es el tamaño muestral de la población, podemos notar que mientras más pequeña es la muestra (N=50) mayor es la diferencia entre la densidad de la muestra y de la población, versus las muestras más grandes (N=5000) donde las diferencias son infimas. Gráfico 19 Muestras Aleatorias de Diferentes Tamaños 5 0 .
5 0 .
5 0 .
4 0 .
4 0 .
4 0 .
3 0 .
3 0 .
3 0 .
2 0 .
2 0 .
2 0 .
1 0 .
1 0 .
1 0 .
0
0
-40
-20
0
x
20
Poblacion
40
60
0
-40
Muestra 50
-20
0
x
20
Poblacion
40
60
-40
Muestra 80
5 0 .
5 0 .
5 0 .
4 0 .
4 0 .
4 0 .
3 0 .
3 0 .
3 0 .
2 0 .
2 0 .
2 0 .
1 0 .
1 0 .
1 0 .
0
0
-40
-20
0
x
20
Poblacion
40
60
Muestra 500
g x=invnorm(uniform())*10+15 save x.dta,replace
0
x
20
Poblacion
40
60
Muestra 100
0
-40
-20
0
x
Poblacion
20
40
60
Muestra 1000
Para realizar este gráfico se utilizaron los siguientes comandos: clear set obs 100000
-20
-40
-20
0
x
Poblacion
20
40
60
Muestra 5000
use x, clear sample 50, count rename x x50 save x50.dta, replace use x, clear sample 80, count rename x x80 save x80.dta, replace use x, clear sample 100, count rename x x100 save x100.dta, replace use x, clear sample 500, count rename x x500 save x500.dta, replace use x, clear sample 1000, count rename x x1000 save x1000.dta, replace use x, clear sample 5000, count rename x x5000 save x5000.dta, replace use x, clear merge using x50 x80 x100 x500 x1000 x5000 twoway (kdensity x) (kdensity x50), name(g1, replace) legend(order(1 "Poblacion" 2 "Muestra 50")) twoway (kdensity x) (kdensity x80), name(g2, replace) legend(order(1 "Poblacion" 2 "Muestra 80")) twoway (kdensity x) (kdensity x100), name(g3, replace) legend(order(1 "Poblacion" 2 "Muestra 100")) twoway (kdensity x) (kdensity x500), name(g4, replace) legend(order(1 "Poblacion" 2 "Muestra 500")) twoway (kdensity x) (kdensity x1000), name(g5, replace) legend(order(1 "Poblacion" 2 "Muestra 1000")) twoway (kdensity x) (kdensity x5000), name(g6, replace) legend(order(1 "Poblacion" 2 "Muestra 5000")) graph combine g1 g2 g3 g4 g5 g6, xcommon ycommon
Muestreo Aleatorio Sistemático En el Muestreo Aleatorio Sistemático los elementos son seleccionados de la población dentro de un intervalo uniforme. En el ejemplo anterior, se deben seleccionar 120 personas de una población de 875 individuos, por lo cual debemos escoger aproximadamente 1 de cada 7 personas en la población (875/120 7). ~
A través de los siguientes comandos en STATA podemos generar los 120 individuos seleccionados con este tipo de muestreo: clear set obs 120 g sorteo=int(uniform()*6)+1 if _n==1 replace sorteo=sorteo[_n-1]+7 if _n>1
La siguiente figura muestra los 120 folios seleccionados a través de este método Figura 11 Números sorteados mediante Muestreo Aleatorio Sistemático
Muestreo Aleatorio Estratificado El Muestreo Aleatorio Estratificado consiste en dividir a la población en grupos relativamente homogéneos llamados estratos, y dentro de cada estrato se selecciona a una muestra de esta subpoblación, ya sea a través de muestreo aleatorio simple o sistemático. El muestreo aleatorio estratificado puede ser proporcional o no proporcional. En el primero, la muestra de cada estrato es seleccionada de manera proporcional a la población del estrato, en el segundo se seleccionada la misma cantidad de elementos en cada estrato.
Propiedades de la Media Muestral A partir una población podemos seleccionar infinitas muestra, generalmente nosotros dispondremos de sólo una de estas infinitas muestras que podrían haber sido seleccionadas, por lo cual debemos conocer las propiedades de la media muestral para poder hacer inferencia sobre ella. Para estudiar las propiedades de la media muestral, supongamos que disponemos de la población y podemos sacar varias muestras diferentes a partir de esta población. Para cada una de estas muestras podemos calcular la media muestral:
Si la variable aleatoria X tiene una media poblacional igual a y una varianza poblacional igual a 2, notamos que el valor esperado (o esperanza) de la media muestral es:
Y la varianza de la media muestral es:
De esta forma, podemos notar que en valor esperado la media muestral será igual a la media poblacional, esto se conoce como que es un estimador insesgado. Además, mientras mayor sea el tamaño de la muestra menor será la varianza de este estimador (la media muestral), y estará más concentrada en torno a la media (media poblacional). Suponga que tenemos una población de 10,000 observaciones, donde esta población tiene una distribución de probabilidad (densidad) normal con media poblacional 15 y varianza poblacional igual a 100. Luego, seleccionamos 1,000 muestras aleatorias de tamaño N=500 cada una, y a cada una de estas muestras le tomamos la media muestral, el siguiente gráfico nos muestra la distribución (histograma) de las medias muestrales. set matsize 11000 matrix B=J(1000,1,0) clear set obs 10000 g x=invnorm(uniform())*10+15 save xm.dta, replace
local i=1 while `i'<=1000{ use xm, clear sample 500, count qui sum x matrix B[`i',1]=r(mean) local i=`i'+1 } clear svmat B histogram B1, title(Distribución de las medias muestrales)
Gráfico 20
Distribución de las medias muestrales 1
8 .
6 .
4 .
2 .
0
13.5
14
14.5
15 B1
15.5
16
Se obtiene que el promedio de las medias muestrales es 15, aproximadamente igual a la media poblacional, y que la varianza de las medias muestrales es 0.186 (0.431^2), lo que equivale aproximadamente a 100/500. La desviación estándar de las medias muestrales se conoce como error estándar, esto porque la variabilidad en las medias muestrales proviene del error de muestreo debido al azar. Si la variable aleatoria x tiene una distribución normal de la siguiente forma:
Se tiene que la media muestral también tendrá una distribución normal de la forma:
Luego, se puede estandarizar la media muestral restándole la media y dividiéndolo por la desviación estándar, y se tiene que:
Teorema Central del Límite
El Teorema Central del Límite establece que si tomamos una muestra aleatoria de un tamaño muestral lo suficientemente grande, independiente de cuál sea la distribución de la variable aleatoria en la población, la media muestral de la variable tendrá una distribución normal con media igual a la media poblacional, y varianza igual a la varianza muestral dividió por N. Supongamos una población que tiene una distribución de probabilidad (densidad) tipo Pareto, esta distribución tiene la característica de ser bastante asimétrica. La función de densidad Pareto es:
Y la función de probabilidad acumulada de esta función de densidad es:
Supongamos a=3. La media poblacional de la variable z que tiene una densidad Pareto es
La varianza poblacional de la variable z es:
A través de los siguiente comandos generamos 100,000 observaciones de una variable que tiene densidad de probabilidad Pareto con parámetro a=3. clear set obs 100000 g u=uniform() g z=1/(u^(1/3)) histogram z, normal title(Distribución de Probabilidad Variable Aleatoria Pareto) subtitle(Población de 100.000 observaciones) save z.dta,replace
Gráfico 21
Distribución de Probabilidad Variable Aleatoria Pareto Población de 100.000 observaciones 5 .
4 .
3 .
2 .
1 .
0
0
20
40
60 z
80
100
Para ver el Teorema de Central del Límite, tomaremos muestras aleatorias de tamaño N=10,50,100,1000, y 5000. Tomaremos la media muestral de cada una de las muestras repitiendo el ejercicio 500 veces para obtener la distribución de la media muestral en cada uno de los casos.
matrix Z=J(500,6,0) local i=1 while `i'<=500{ use z, clear sample 10, count qui sum z matrix Z[`i',1]=r(mean) local i=`i'+1 } local i=1 while `i'<=500{ use z, clear sample 50, count qui sum z matrix Z[`i',2]=r(mean) local i=`i'+1 } local i=1 while `i'<=500{ use z, clear sample 100, count qui sum z matrix Z[`i',3]=r(mean) local i=`i'+1 } local i=1 while `i'<=500{ use z, clear sample 500, count qui sum z matrix Z[`i',4]=r(mean) local i=`i'+1 }
local i=1 while `i'<=500{ use z, clear sample 1000, count qui sum z matrix Z[`i',5]=r(mean) local i=`i'+1 } local i=1 while `i'<=500{ use z, clear sample 5000, count qui sum z matrix Z[`i',6]=r(mean) local i=`i'+1 } clear svmat Z rename rename rename rename rename rename sum N*
Z1 Z2 Z3 Z4 Z5 Z6
N10 N50 N100 N500 N1000 N5000
histogram N10, normal title(Muestra simulaciones) name(gz1, replace) histogram N50, normal title(Muestra simulaciones) name(gz2, replace) histogram N100, normal title(Muestra simulaciones) name(gz3, replace) histogram N500, normal title(Muestra simulaciones) name(gz4, replace) histogram N1000, normal title(Muestra simulaciones) name(gz5, replace) histogram N5000, normal title(Muestra simulaciones) name(gz6, replace)
de
10
observaciones)
note(500
de
50
observaciones)
note(500
de
100
observaciones)
note(500
de
500
observaciones)
note(500
de
1000
observaciones)
note(500
de
5000
observaciones)
note(500
graph combine gz1 gz2 gz3 gz4 gz5 gz6
Gráfico 22 Muestra de 10 observaciones Muestra de 50 observaciones Muestra de 100 observaciones 4
5 . 2 2
6
3 y t i s n e D
5 . 1 1
y t i s n e D
2
4
2 1
5 . 0
0
1
1.5
2 N10
2.5
3
0
1.2
500 simulaciones
1.4
1.6 1.8 N50
2
2.2
1.2
500 simulaciones
1.4
1.6 N100
1.8
2
500 simulaciones
Muestra de 500 observacionesMuestra de 1000 observaciones Muestra de 5000 observaciones 0 2
0 1
0 4
5 1
8 y t i s n e D
6 4
0 3 y t i s n e D
0 1
0 1
5 2 0
0
1.4
1.5
500 simulaciones
N500
1.6
1.7
0 2
0
1.45
1.5 1.55 N1000
500 simulaciones
1.6
1.46
1.48
1.5 N5000
500 simulaciones
1.52
1.54
La importancia del Teorema Central del Límite es que nos permite hacer inferencia sobre los parámetros poblacionales, a través de las estadísticas calculadas a partir de la muestra y sin necesidad de conocer la distribución de probabilidad que dio origen a la población. Por ejemplo, según los datos de la encuesta CASEN 2009 el ingreso autónomo per-cápita es de $147,388; y la desviación estándar $239,435.4. Supongamos que estos son los valores poblacionales de la media y la desviación estándar, es decir:
Con esta información y utilizando el Teorema Central del Límite, podemos calcular la probabilidad de que el ingreso autónomo per-cápita promedio sea, por ejemplo, menor a $147,000. Por el Teorema Central del límite se tiene que:
Por lo cual, la probabilidad de que el ingreso autónomo per-cápita sea menor a $147,000 es equivalente a:
Es decir, la probabilidad acumulada en ese punto. El error estándar es igual a:
Luego se obtiene que la probabilidad de que el ingreso autónomo per-cápita sea menor a $147,000 es:
Esto lo podemos realizar en STATA mediante los siguientes comandos:
Hay situaciones en las que el Teorema Central del Límite no será útil:
Cuando el estadístico de análisis no es la media muestral. El TCL nos dice que la media muestral tiende a una distribución normal cuando la muestra es lo suficientemente grande. Sin embargo, no es aplicable cuando nuestro estadístico de interés es por ejemplo la mediana o algún otro percentil.
El TCL requiere que la muestra sea lo suficientemente grande para que la media muestral tienda a una distribución normal, si la muestra con la que estamos trabajando es pequeña, no se cumplirá el TCL.
Para poder determinar la probabilidad de que una variable sea menor o mayor a cierto valor, cuando no se cumple el TCL podemos utilizar el método de simulación Bootstrap. El método de Bootstrap consiste en tomar una cantidad de seudo-muestras aleatorias de la muestra observada, y para cada una las seudo-muestras obtener el estadístico de interés (media, mediana, percentil, etc.). Luego, se tendrá una cantidad suficiente de valor del estadístico en de distintas seudo-muestras que permitirá calcular la probabilidad de que el estadístico sea menor o mayor a cierto valor. Luego, se tendrá una cantidad suficiente de valor del estadístico en de distintas seudo-muestras que permitirá calcular la probabilidad de que el estadístico sea menor o mayor a cierto valor. use "casen2009.dta", clear egen hogarid=group(seg f) g s=1 if pco1!=14 replace s=0 if pco1==14 egen n=sum(s), by(hogarid) gen yauthpc=yauthaj/n keep yauthpc save "Bootstrap.dta", replace
matrix B=J(500,1,0) local i=1 while `i'<=500{
Número de simulaciones
use "Bootstrap.dta", clear bsample 246924 qui sum yauthpc
Tamaño muestral de las seudo-muestras
matrix B[`i',1]=r(mean) local i=`i'+1 } clear svmat B
Luego de ejecutar estos comandos se tiene una base de datos con 500 observaciones y los valores de la media muestral de cada una de las seudo-muestras (de tamaño 246,924) en las filas. Podemos contar cuantas de las 500 observaciones son menores a $147,000, y comparar con el resultado que se obtenía asumiendo la distribución normal:
Se obtiene que en 105 de las 500 simulaciones el ingreso autónomo per-cápita es menor $147,000, lo que equivale a 21%, practicamente identico al que se obtenia asumiendo normalidad. El gráfico 23 nos muestra el histograma de las 500 simulaciones de medias muestrales del ingreso autónomo per-cápita. Y la tabla siguiente las estadísticas descriptivas de estas variables. El Bootstrap en general es costoso en tiempo ya que requiere repetir el proceso en cada simulación, dos aspectos son claves en cuanto tiempo va a tomar la simulación:
La cantidad de simulaciones realizadas
El tamaño muestral de las seudo-muestras
La Tabla 5 muestra los resultados para este mismo problema, con diferentes tamaños muestrales para 500 y 1000 simulaciones. Podemos apreciar que no existe gran diferencia en cuanto a la cantidad de simulaciones, pero si es clave la cantidad de observaciones en cada seudo-muestra.
Gráfico 23
Distribución de Medias Muestrales Bootstrap 500 simulaciones
5 1 .
1 .
5 0 .
0
146000
147000
148000
149000
B1
Tabla 5 Resultado Bootstrap para diferentes tamaños muestrales y cantidad de simulaciones
N=10,000 N=50,000 N=100,000 N=246,924 500 1000
0.452 0.434
0.356 0.357
0.276 0.339
0.21 0.192
Stata tiene un comando para realizar bootstrap:
bootstrap "sum yauthpc, detail" "r(mean)", rep(100) size(100000) saving("C:\boot1.dta)
Test de Hipótesis e Intervalos de Confianza Cuando se toman decisiones de política se requieren como insumos las estimaciones de ciertas variables. Por ejemplo, estimar la proporción de la población que postulará a un programa de capacitación, o cual es el ingreso promedio de las personas que trabajan por cuenta propia, que proporción de las madres tienen acceso a salas cunas para sus hijos, etc. La estimación consiste en obtener una aproximación del parámetro poblacional (promedio o proporción verdadera) a partir de la muestra disponible. Pero dado que esta es una estimación una vez obtenido el valor debemos preguntarnos si el resultado obtenido es estadísticamente válido o significativo, o es un mero resultado del azar (de nuestra muestra). Una vez obtenida la estimación podemos hacer inferencia estadística y pruebas de hipótesis.
Estimador Un estimador corresponde al método o fórmula a través del cual aproximamos un parámetro poblacional a partir de una muestra. Por ejemplo, la media muestral de una variable:
Es un estimador de la media poblacional de la variable . Por ejemplo, si estamos interesados en saber cuál es la escolaridad de las personas que viven en zona rural podemos utilizar la Encuesta Casen 2009 y tomar el promedio muestral de los años de escolaridad según zona:
use "casen2009.dta", clear egen hogarid=group(seg f) g s=1 if pco1!=14 replace s=0 if pco1==14 egen n=sum(s), by(hogarid) gen yauthpc=yauthaj/n
De esta forma, podemos decir que un estimador de los años de escolaridad en la zona rural es 7.64.
Propiedades de un Estimador Hay estimadores que son mejores que otros, lo que se puede evaluar según las propiedades deseables para los estimadores Insesgamiento Un estimador se dice insesgado cuando el valor esperado del estimador es igual al parámetro poblacional. Es decir, si obtuviéramos infinitas muestras de una población, y para cada una de ellas calculamos el estimador, por ejemplo, la media muestral, si el promedio de estos estimadores es igual a la media poblacional, se dirá que el estimador es insesgado. Eficiencia Un estimador se dice que es eficiente cuando la varianza es lo más pequeño posible. Nuevamente, si tomamos infinitas muestras y para cada una de ellas calculamos el valor del estimador, queremos que la desviación estándar de estos estimadores sea la menor posible. Consistencia Un estimador es consistente cuando al aumentar el tamaño muestral se tiene casi certeza que el estimador se aproxima bastante al verdadero valor del parámetro poblacional.
Estimador de la Media Poblacional Un estimador insesgado, eficiente y consistente de la media poblacional es la media muestral:
Estimador de la varianza
Para poder obtener el error estándar debemos utilizar la varianza poblacional de la variable, para esto utilizaremos un estimador de la varianza poblacional insesgado, eficiente, y consistente que estará dado por:
Estimador de una Proporción de la Población
Por ejemplo, si queremos estimar la proporción de la población que pertenece al sistema público de salud a partir de una muestra, un estimador insesgado, eficiente y consistente es la proporción muestral. Sea,
El estimador de la proporción poblacional es:
Intervalos de Confianza
Los estimadores presentados nos entregan información importante para poder tomar decisiones, sin embargo, dado que estos son estimadores o aproximaciones muestrales de parámetros poblacionales existe cierta incertidumbre o posibilidad de error en las estimaciones. Es decir, no podemos afirmar con 100% de seguridad que la media del ingreso es cierto valor o que el porcentaje de personas que cotiza en FONASA es otra valor. Pero si podemos decir con un 95% de seguridad (o 90% o 99%), esto se conoce como nivel de confianza, que el ingreso promedio se encuentra en cierto rango de valores, y el valor poblacional está contenido en él. El intervalo de confianza nos indica el rango de valores (creado a partir de los datos muestrales) entre los cuales el parámetro poblacional está incluido con cierta probabilidad. La probabilidad de que el parámetro poblacional este en este intervalo de valores se conoce como el nivel de confianza.
Intervalos de confianza de media muestral Supongamos una variable aleatoria X la que poblacionalmente tiene una media igual a y una varianza igual a 2, y disponemos una muestra de esta población de tamaño N. Sabemos que la media muestral es un estimador insesgado, eficiente, y consistente de la media poblacional ( ), ya que se tiene que:
Además, sabemos por el Teorema Central del Límite que independiente de cuál sea la distribución de probabilidad de X, su media muestral tendrá una distribución normal:
Podemos estandarizar la media muestral y se tiene que:
Entonces, sabemos que la media muestral estandarizada se distribuye normal, y que está centrada en cero, por lo cual con alta probabilidad la media muestral estandarizada estará en torno a cero. Queremos determinar algún valor límite para poder decir que estamos lejos de la media de la distribución, por ejemplo, podemos decir que los valor que estén en el 5% más lejos son son valores probables para la media muestral estandarizada. A partir de esto se define el intervalo de confianza con un 95% de nivel de confianza o 5% de nivel de significancia:
Donde Z0.025 corresponde al valor de la distribución normal estándar bajo el cual se acumula un 2.5% de probabilidad, y Z 0.975 corresponde al valor de la distribución normal estándar que acumula un 97.5% de probabilidad a la izquierda. Estos valores pueden ser obtenidos de una tabla de la distribución normal estándar disponible en cualquier libro de estadística o a través de STATA mediante los siguientes comandos:
Figura 12 Distribución Normal Estándar
Por lo tanto,
Lo que se puede escribir de manera equivalente como:
De esta manera, el intervalo de confianza nos indica que con un 95% de seguridad la media poblacional está entre:
Sin embargo, lo anterior supone el conocimiento de la varianza poblacional de X, pero en la práctica esto no será conocido y debemos utilizar su estimador s 2. Al utilizar el estimador la distribución ya no es exactamente normal sino que se convierte en una distribución t-student:
Nuevamente, los valores de la distribución t-student los podemos obtener de las tablas de la distribución o de STATA, a continuación se presentan los valores para diferentes tamaños muestrales:
Podemos apreciar que a mayor tamaño muestral se aproxima bastante a los valores de la distribución normal. Por ejemplo, podemos calcular el intervalo de confianza del ingreso autónomo per-cápita utilizando la encuesta CASEN 2009:
Entonces podemos decir con un 95% de confianza que el ingreso autónomo per-cápita esta entre $146,444 y $148,333.
Esto se puede obtener directamente e STATA a través del comando para obtener intervalo de confianza de una media:
Por defecto entrega el intervalo de confianza al 95%, pero eso puede ser modificado:
Para obtener el intervalo de confianza estamos imponiendo que se cumple el Teorema Central del Límite, es decir, que la media muestral sigue una distribución normal. Si este supuesto no se cumple el cálculo del intervalo confianza antes planteado no es válido. En este caso se puede utilizar Bootstrap para obtener el intervalo de confianza:
bootstrap "sum
yauthpc, detail" "r(mean)", rep(500)
Intervalos de confianza de una proporción La proporción corresponde a la media muestral de una variable binaria que toma valor 1 si se cumple cierta condición y cero sino. La proporción muestral se utiliza para estimar la proporción poblacional. Considere la siguiente variable aleatoria Z con una distribución Bernoulli:
Lo que nos interesa estimar es el parámetro poblacional p. La media poblacional de la variable Z está dada por:
Luego, obteniendo un estimador para p queda determinado el estimador de la media poblacional y de la varianza poblacional, existe sólo un parámetro que estimar. Un estimador insesgado, eficiente y consistente de p es la proporción muestral:
De esta forma, el intervalo de confianza de una proporción esta dado por:
Test de Hipótesis ¿Qué es una hipótesis? Una hipótesis es una declaración sobre un parámetro poblacional, luego con la información muestral podremos decir si la afirmación es estadísticamente válida o no. Obviamente al trabajar con una muestra esta conclusión tendrá cierto nivel de error o alternativamente cierto nivel de confianza. Por ejemplo, podemos querer testear si la tasa de participación de mujeres con hijos es un 30%, esta hipótesis plantea una afirmación sobre un parámetro poblacional, ahora con los datos muestrales debemos encontrar la evidencia estadística suficiente para rechazar o no esta afirmación. Otra posible hipótesis a testear es por ejemplo, que el ingreso promedio de los pensionados es $230 mil. De esta forma, se nos pueden ocurrir diversas hipótesis sobre parámetros poblacionales, para poder rechazar o no dichas hipótesis debemos contar con datos muestrales que nos permitan ver si la hipótesis es estadísticamente válida o no, con cierto error dado que vamos a trabajar con una muestra.
¿Cómo se realiza un Test de hipótesis? El procedimiento de testear o probar una hipótesis consiste en determinar si una hipótesis de un parámetro poblacional es razonable a partir de los datos provenientes de una muestra y utilizando la teoría de probabilidades. El resultado del Test de Hipótesis NUNCA nos permite afirmar que la hipótesis es verdadera, ya que el parámetro poblacional es desconocido, pero si nos permite con cierta confianza o significancia rechazar la hipótesis nula. Paso 1: Establecer la hipótesis nula y alternativa Lo primero que se debe hacer es definir la hipótesis a testear, la que se denomina Hipótesis Nula (H0). La hipótesis nula es una afirmación que no se rechaza a menos que la información de la
muestra ofrezca evidencia convincente de que esta es falsa. Recuerde que si no rechazamos la hipótesis nula no implica que la aceptemos o que esta sea verdadera, ya que para probarlo necesitaríamos conocer el parámetro poblacional. La hipótesis alternativa es la afirmación que se acepta si los datos de la muestra no proporcionan suficiente evidencia de que la hipótesis nula es falsa. Paso 2: Seleccionar el nivel de significancia El nivel de significancia ( ) es la probabilidad de rechazar la hipótesis nula cuando esta es verdadera, lo que se conoce como Error Tipo I. El Error Tipo II corresponde a aceptar la hipótesis nula cuando esta es falsa.
Generalmente se utiliza un 5% de significancia, pero esto dependerá de la hipótesis puntual bajo estudio, ya que de alguna manera el nivel de significancia es el riesgo que el investigador esta dispuesto a asumir. Paso 3: Seleccionar el estadístico El estadístico es la expresión matemática de la hipótesis nula, construido con la información muestral disponible, y de forma tal que tenga una distribución de probabilidad conocida (normal, o t-student) que nos permita determinar fácilmente si rechazamos la hipótesis nula o no. Por ejemplo, si queremos testear que la media poblacional de cierta variable es 0.5, contra la hipótesis alternativa de que es distinta a 0.5:
Dado que sabemos, por TCL, que la media muestral tiene una distribución normal, podemos plantear el siguiente estadístico:
Todos los valores del estadístico pueden ser calculados a partir de la muestra, excepto que justamente corresponde al valor del parámetro poblacional que estamos planteando en la hipótesis nula. Paso 4: Formular la regla de decisión Se deben establecer las condiciones específicas en las que la hipótesis nula se rechaza. Notemos que el estadístico está centrado en 0, valor que toma cuando se cumple al hipótesis nula, en la medida que se aleja de cero ya sea porque este se hace muy grande o muy pequeño, es cada vez menos probable que se cumpla la hipótesis nula. La zona de rechazo define los valores del estadístico para los cuales la probabilidad de que se cumpla la hipótesis nula es remota. Entonces debemos determinar el valor crítico del estadístico de manera que se acumule un 5% de probabilidad en los valores extremos de la distribución, 2.5% en la cola derecha y 2.5% en la cola izquierda.
La Figura 13 muestra la zona de rechazo para el test de hipótesis antes planteado, desde -1.96 se encuentra la zona de rechazó a la izquierda, y desde 1.96 a + derecha.
hasta
la zona de rechazo a la
Figura 13 Zona de rechazo Test de dos colas
En caso que la hipótesis alternativa sea que la media poblacional es menor a cierto valor, rechazaremos la hipótesis nula a favor de la alternativa sólo si el valor efectivamente es menor al planteado, es decir , cuando el estadístico se vuelva muy negativo, por lo cual en este caso la zona de rechazo completa se ubica en la cola izquierda de la distribución, desde Figura 14 Zona de rechazo Test de una cola
a -1.64.
Finalmente, la Figura 15 muestra la zona de rechazo en el caso que la hipótesis alternativa es que la media poblacional es mayor a cierto valor, en este caso se rechazará la hipótesis nula de que es igual a este valor sólo si el valor de la media muestral está lo suficientemente por arriba del valor planteado, y el valor del estadístico es positivo y lo suficientemente grande, así la zona de rechazo
completa se ubica en la cola derecha de la distribución, de 1.64 a + . Figura 15 Zona de rechazo Test de una cola
Paso 5: Tomar una decisión Una vez definida la hipótesis nula, se calcula el estadístico a partir de los datos muestrales, y determinado el nivel de significancia se puede establecer el valor crítico del estadístico. Comparando el valor calculado del estadístico con los valores que definen las zonas de rechazo se puede concluir si se rechaza o no la hipótesis nula a favor de la hipótesis alternativa.
Ejemplo Test de Hipótesis sobre media poblacional Suponga que estamos interesados en testear que la edad media de las mujeres que trabajan es 45 años, contra la hipótesis alternativa de que es distinta a 45 años.
1) Debemos plantear el Test de Hipótesis:
2) Escoger el nivel de significancia: 5% 3) Obtener el valor calculado del estadístico con los datos muestrales: use "casen2009.dta", clear g trabaja=1 if o1==1 replace trabaja=1 if replace trabaja=1 if replace trabaja=0 if replace trabaja=. if
o1==2 & o2==1 o1==2 & o2==2 & o3==1 trabaja==. o1==.
sum edad if sexo==2 & trabaja==1
Luego, con esta información podemos construir el estadístico para el test sobre la media poblacional, el que se basa en que la media muestral tiene una distribución normal:
4) El estadístico calculado lo debemos comparar con el de la distribución t-student con 31660 grados de libertad y con un 5% de significancia dividido en dos colas.
De esta forma, la zona de rechazo está entre - y -1.96, y 1.96 y + . 5) Dado que el valor del estadístico cae en la zona de rechazo de la cola izquierda, se puede concluir que se rechaza la hipótesis nula de que la edad promedio de las mujeres que trabajan es 45 años, en favor de que es distinta.
Esto mismo lo podemos hacer a través del comando ttest de STATA:
p-value En el procedimiento antes descrito necesitamos definir un nivel de significancia para determinar las zonas en las cuales rechazaremos la hipótesis nula. Por otra parte, el valor p nos entrega información adicional para determinar con que fuerza la hipótesis nula es rechazada, es decir, con qué seguridad rechazamos H 0. El valor p es la probabilidad acumulada en las colas desde el valor negativo del estadístico a la izquierda, y desde el valor positivo del estadístico a la derecha, en el caso de un test de dos colas.
1) H1: 0:
2) H1: 0:
3) H1: 0:
Por ejemplo, a continuación realizaremos test para el salario por hora promedio: use "casen2009.dta", clear g horas=o16/7*30 g yhora=yopraj/horas
En el primero caso, donde se plantea como hipótesis nula que el ingreso promedio por hora es $1,900, el valor calculado del estadístico es 1.12, si lo comparamos con el valor de de la distribución t al 5% de significancia (1.96), podemos concluir que no se puede rechazar la hipótesis nula de que el ingreso por hora promedio es $1,900. En este caso, si estamos planteando un test de dos colas el valor p es igual a:
Esto significa que el valor del estadístico calculado para esta hipótesis nula acumula un 26.3% de probabilidad en las colas, claramente mayor al 5% de error tipo I que se está dispuesto a tolerar. Si la hipótesis alternativa fuese que la media es mayor a 1900, el valor p estará dado por:
También es mayor al 5% de significancia.
Finalmente, si la hipótesis alternativa fuese que el salario promedio es menor a 1900, el valor p estaría dado por:
El valor p nos indica el nivel de significancia o error tipo I asociado al estadístico calculado, si este es menor al 5% es porque nuestro estadístico estará en la zona de rechazo, por lo cual la regla de oro para utilizar le p-value es:
Si el valor p es menor al nivel de significancia dado se rechaza la hipótesis nula
Si el valor p es mayor al nivel de significancia dado no se puede rechazar la hipótesis nula
Test de hipótesis sobre una proporción Se tiene como hipótesis nula que la proporción de la población que cotiza para el sistema de pensiones es 0.5. use "casen2009.dta", clear g cotiza=1 if o29==1 replace cotiza=0 if o29==2 | o29==3 | o29==9
El valor del estadístico calculado es 20.63 mayor al 1.96 que determina el valor crítico por lo cual se rechaza la hipótesis nula.
También podemos notar que el valor p es 0% menor al 5% de significancia por lo cual se rechaza la hipótesis nula.
Una tercera forma de concluir sobre la hipótesis nula es notando que el intervalo de confianza (valor más probables) no contiene el valor 0.5.
Test de diferencia de medias Una conjunto importante e interesante de test de hipótesis son los relacionados con comparar las medias o proporción de una variable entre dos grupos diferentes, o de manera equivalente testear que la media de una variable de un grupo, por ejemplo, hombres es igual a la media de la misma variable en el otro grupo, mujeres. Por ejemplo, si queremos testear que el ingreso por hora de los hombres es igual que al de las mujeres, debemos plantear el siguiente test de hipótesis:
Para plantear el estadístico en función de los indicadores muestrales, tomamos como punto de partida que la diferencia de medias muestrales también se distribuye normal con media igual a la diferencia de medias poblacionales, y con varianza:
De esta forma, se tiene que:
Pero el error estándar es estimado a partir de la muestra de la siguiente manera:
Así, el estadístico para el test de diferencias de medias es:
El comando ttest y prtest de STATA pueden ser utilizados con la opción by() para realizar el test de diferencia de medias y diferencias de proporciones. El siguiente output nos muestra el resultado para el test de diferencias de media de ingreso por hora entre hombres y mujeres, notemos que la hipótesis nula es que el ingreso promedio de los hombres menos el ingreso promedio de las mujeres es igual a cero. En términos muestrales, el ingreso promedio de los hombres es $2,007 y el ingreso promedio de las mujeres $1,741, la diferencia es de $265.8. El error estándar de la diferencia es 27.9. De esta forma, se obtiene un valor calculado del estadístico de 9.5358 lo que nos permite rechazar al 5% (ya que es mayor que 1.96) que el ingreso promedio de los hombres es igual al ingreso promedio de las mujeres (o que la diferencia es cero). Esto también se puede concluir notando que el valor p es menor a 0.05 (5%)
y que el cero no está contenido en el intervalo de confianza para la diferencia de ingresos promedios.
El siguiente output nos muestra el resultado para testear la hipótesis nula de que la proporción de hombres que cotiza en el sistema de pensiones es igual a la proporción de mujeres que cotiza. Tenemos que el valor calculado del estadístico es 1.74 levemente inferior a 1.96, por lo cual al 5% de significancia no podemos rechazar la hipótesis nula de que las proporciones son iguales, lo vemos también porque el p-value es mayor a 0.05 y el cero está contenido en el intervalo de confianza.
Bootstrap para el test de medias En el caso que se tenga una muestra pequeñas o dudas sobre la normalidad de la media muestral se puede aplicar el método no paramétrico de bootstrap para obtener el intervalo de confianza de la media muestral y de esta manera testear cualquier hipótesis sobre el parámetro poblacional.
El resultado nos muestra que con un 95% de confianza el ingreso por hora promedio poblacional se encuentra entre 1889.4 y 1946.9, con lo cual no podemos rechazar la hipótesis nula de que es igual a 1900, antes testeada, y si podemos rechazar que es igual a 2100.
Bootstrap para el test de mediana Suponga que queremos testear la hipótesis nula de que la mediana poblacional del ingreso por hora es igual a 1000, dado que para la mediana no se cumple el Teorema Central del Límite debemos utilizar bootstrap para testear esta hipótesis. La siguiente imagen nos muestra el resultados del bootstrap para la mediana el ingreso por hora con 300 repeticiones, se obtiene que con un 95% de confianza el ingreso por hora mediano poblacional está entre 1088.63 y 1105, con lo cual se rechaza la hipótesis nula de que el ingreso por hora mediano sea igual a 1000 ya que este valor esta fuera del intervalo de confianza.
Bootstrap para el test de diferencia de medias Como no existe un comando directo en STATA que calcule la diferencia de media, en vez de pedir en el comando bootstrap que repita un comando le pediremos que repita un do-file, donde este do-file calcula la diferencia de medias:
difgenero.do sum yhora if sexo==1 g h=r(mean) sum yhora if sexo==2 g m=r(mean) g dif=h-m sum dif Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el siguiente comando: bootstrap "do difgenero.do" "r(mean)", reps(300)
El resultado del bootstrap nos muestra que la diferencia entre el ingreso por hora medio de los hombres y el ingreso por hora medio de las mujeres se encuentra con un 95% de confianza entre 209.6 y 310.5. Con lo cual al testear la hipótesis nula de que la diferencia de medias es cero, se rechaza la hipótesis nula
Bootstrap para el test de diferencia de medianas Si queremos testear que la diferencia entre el ingreso por hora mediano entre hombres y mujeres es cero, debemos utilizar de manera obligada bootstrap ya que la diferencia de medianas no tiene distribución normal.
difmediangenero.do sum yhora if sexo==1, d g h=r(p50) sum yhora if sexo==2, d g m=r(p50) g dif=h-m sum dif Previo a haber creado el do-file anterior y haber sido guardado en el computador, se ejecuta el siguiente comando: bootstrap "do difmediangenero.do" "r(mean)", reps(300)
La siguiente tabla nos muestra el resultado del bootstrap, encontrando que la diferencia de ingreso por hora mediano entre hombres y mujeres se encuentra con un 95% de confianza entre
114.5925 y 114.5927, por lo cual también se rechaza que la diferencia de medianas sea igual a cero.
Distribución de Probabilidad Conjunta Hasta ahora nos hemos concentrado en el análisis de una sola variable, como es su distribución, su media y dispersión. Pero en gran parte de los problemas económicos y de políticas públicas no sólo nos interesa estudiar una variable, sino también como esta variable se puede o no ver afectada por el comportamiento de otras variables. Por ejemplo, cuando analizamos el nivel de ingreso nos interesaría también saber cómo se relacionada con otra variable, como años de escolaridad o experiencia laboral, etc. Otras preguntas que nos puede interesar responder:
¿Afecta la salud física los resultados que obtienen los individuos en el mercado del trabajo?
¿Disminuye el empleo cuando el salario mínimo se incrementa?
¿Disminuye la desigualdad de ingresos cuando aumenta la participación laboral femenina?
Más específicamente, si la salud física es una variable aleatoria (X) y salario laboral es otra variable aleatoria (Y), cada una tiene su propia distribución de probabilidad, lo que se denomina distribución de probabilidad marginal, luego debemos determinar la función de probabilidad conjunta y condicional para estudiar si las variables aleatorias X e Y son independientes o no.
La función de probabilidad conjunta de dos variables aleatorias X e Y indica la probabilidad de que las dos variables tomen ciertos valores de manera simultánea. Las probabilidades de todas las posibles combinaciones (x,y) deben sumar 1. La función de probabilidad conjunta se denota de la siguiente manera:
Supongamos el siguiente ejemplo, en que la variable aleatoria X es binaria y toma valor 1 si el profesor participó en el proceso de certificación docente y cero si es que no participó. Esta variable aleatoria tiene la siguiente función de probabilidad marginal:
La que puede ser escrita de la siguiente manera: X 0 1
Pr[X=x]
2/3 1/3
Suponga ahora que tiene otra variable aleatoria binaria Y que toma valor 1 si el profesor nació el primer trimestre del año, y 0 si nacieron los trimestres 2, 3, o 4. Entonces, la función de probabilidad marginal de Y es:
La que puede ser escrita de la siguiente manera: Y 0 1
Pr[Y=y]
3/4 1/4
La función de probabilidad conjunta de estas dos variables aleatorias es:
Lo que puede ser escrito de manera alternativa:
y=0 y=1
x=0
x=1
6/12 2/12
3/12 1/12
Donde podemos verificar que la suma de probabilidades es igual a 1. Luego sumando verticalmente las probabilidades podemos obtener la distribución de probabilidad marginal de X, y sumando horizontalmente las probabilidades podemos obtener la distribución de probabilidad marginal de Y:
y=0 y=1
x=0
x=1
6/12 2/12 2/3
3/12 1/12 1/3
3/4 1/4
También podemos notar del cuadro anterior que cualquiera de las probabilidades conjuntas puede ser obtenida simplemente multiplicando las probabilidades marginales:
Esto se cumple sólo cuando las variables aleatorias son independientes. Ahora supongamos otra variable aleatoria Z la que también es binaria y toma valor 1 si el establecimiento educacional al cual pertenece el profesor es privado y 0 si es público. La probabilidad con la cual Z toma valor 1 es 1/3 y la probabilidad con la que toma valor 0 es 2/3. La siguiente tabla muestra las probabilidades asociadas a la distribución conjunta de las variables X y Z:
z=0 z=1
x=0
x=1
7/12 1/12 2/3
1/12 3/12 1/3
2/3 1/3
En este caso, el producto de las probabilidades marginales no es igual a la probabilidad conjunta, esto sucede porque las variables no son independientes:
De esta forma, se concluye que la certificación del profesor y la dependencia del colegio al cual pertenece no son variables independientes.
Test de Independencia
2
Si tenemos dos variables aleatorias podemos realizar un test de independencia para ver si empíricamente las variables se comportan como si fuesen independientes. Este test se basa en que bajo la hipótesis nula de independencia de las variables la multiplicación de las probabilidades marginales debería ser igual a la probabilidad conjunta. Supongamos que X e Y, dos variables aleatorias, pueden tomar dos valores respectivamente. Y se tiene que:
Sea N el total de observaciones, y N ij el número de observaciones donde X=i e Y=j. Luego el estadístico para testear esta hipótesis es:
Al 5% de significancia el valor de la distribución 2 con un grado de libertad es 3.84. Recordemos que la hipótesis nula es de independencia entre las variables, por lo cual bajo la hipótesis nula se debería cumplir que N ij sea igual a Nqip j, lo que indica que el número de observaciones que cumplen con Y=0 y X=0 es igual a tomar el total de observaciones y multiplicar por la probabilidad de que Y=0 y por la probabilidad de que X=0. De esta forma, bajo la hipótesis nula el estadístico toma valor cero, en la medida que se deja de cumplir la hipótesis nula el valor del estadístico comienza a crecer (siempre positivo), si este difiere tanto de cero al punto de llegar a ser mayor a 3.84 se rechaza la hipótesis nula de que las variables son independientes. La siguiente tabla nos muestra el resultado del test de independencia entre la variable aleatoria X (certificación del profesor) y la variable aleatoria Y (trimestre de nacimiento):
De la tabla anterior, tenemos que:
Luego podemos calcular cada uno de los cuatro términos en la sumatoria del estadístico: Y=0, X=0:
Y=1, X=0:
Y=0, X=1:
Y=1,X=1
Sumando los cuatro términos se obtiene el valor calculado del estadístico:
Como el valor del estadístico calculado es menor a 3.84 no se puede rechazar la hipótesis nula de independencia entre certificación del profesor y fecha de nacimiento, también se puede concluir estos notando que el valor p es mayor a 0.05 (5%). La siguiente tabla muestra el test de independencia entre las variables aleatorias X y Z:
El valor del estadístico es mayor al valor crítico, o el p-value es menor a 0.05, con lo cual se rechaza la hipótesis nula de que certificación del profesor y dependencia del colegio sean variables independientes.
Distribución de probabilidad condicional Cuando analizamos la distribución de probabilidad de la variable aleatoria X condicional en algún valor especifico de Y, por ejemplo, Y=0, se conoce como distribución de probabilidad condicional. Por ejemplo, suponga que estamos interesados en saber cuál es la probabilidad de que un docente se certifique condicional en que nació en el primer trimestre del año.
y=0 y=1
x=0
x=1
6/12 2/12 2/3
3/12 1/12 1/3
3/4 1/4
En términos generales, la distribución de probabilidad de X condicional en Y es igual a:
Notemos que la probabilidad de que un docente se certifique condicional en que nació el primer trimestre es igual a la probabilidad incondicional (o marginal) de que un docente se certifique, esto se cumple porque las dos variables son independientes.
También podemos analizar la probabilidad de que un docente se certifique condicional en que la dependencia del colegio es pública:
z=0 z=1
x=0
x=1
7/12 1/12 2/3
1/12 3/12 1/3
2/3 1/3
En este caso la probabilidad de certificarse condicional en que el colegio es público es distinta a la probabilidad incondicional de certificarse, esto porque las variables no son independientes.
La distribución de probabilidad condicional nos permite definir la esperanza condicional de una variable:
Este concepto es muy importante en análisis de regresión, herramienta fundamental para el análisis de políticas públicas.
Covarianza y Correlación La covarianza entre dos variables aleatorias muestra el grado en que estas dos variables se mueven de manera conjunta. La covarianza entre dos variables aleatorias X e Y es igual a:
La covarianza entre las dos variables será positiva si cuando X está por sobre la media Y también tiende a estar pos sobre la media, y la covarianza será negativa si cuando X está por sobre la media Y tiende a estar bajo la media. Cuando las dos variables son independientes la covarianza será igual a cero. El comando correlate con la opción c de STATA calcula las covarianza en el listado de variables señalado.
En este caso nos muestra que la covarianza entre X e Y es positiva e igual a 0.011, y la covarianza entre X y Z es positiva también e igual a 0.069. Finalmente, la covarianza entre Z e Y es negativa e igual a -0.005873. ¿Pero cómo podemos interpretar el valor de la covarianza?
Si nos fijamos la definición de covarianza estar multiplica los desvíos de X con respecto a su media por los desvíos de Y con respecto a su media, por lo cual, está en unidades de X multiplicado por unidades de Y lo que no tiene ninguna interpretación. Una medida estandarizada de dependencia entre dos variables aleatorias es el Coeficiente de Correlación el que elimina el problema de las unidades en la variable dividiendo la covarianza por la desviación estándar de X y por l desviación estándar de Y.
Esta medida tomará valores entre -1 y 1, donde -1 indica dependencia negativa perfecta entre las dos variables, 1 indica dependencia positiva perfecta entre las dos variables, y 0 indica que son independientes. Con el comando correlate de STATA podemos obtener el coeficiente de correlación entre un listado de variables:
En este caso, el coeficiente de correlación entre X e Y (variables independientes) es muy cercano a cero, sin embargo, el coeficiente de correlación entre X y Z es positivo de orden de 0.28, mostrando una dependencia positiva entre las dos variables. Por ejemplo, utilizando los datos de la Encuesta CASEN 2009 podemos ver cuál es la correlación entre los años de escolaridad (esc) y el salario de la ocupación principal (yopraj):
Los resultados nos muestran un coeficiente de correlación positivo del orden de 0.28 entre los años de escolaridad y el salario. Sin embargo, al ser obtenido de una muestra podemos preguntarnos si este valor es estadísticamente diferente de cero o no.
A través del siguiente comando en STATA podemos testear si el coeficiente de correlación es estadísticamente diferente de cero. La hipótesis nula es que el coeficiente es igual a cero, y la tabla a continuación presenta bajo el coeficiente de correlación y valor p para esta hipótesis nula:
En este caso, se rechaza la hipótesis nula de que el coeficiente de correlación entre años de escolaridad y salario sea igual a cero. La siguiente tabla nos muestra, utilizando la misma Encuesta CASEN 2009, correlaciones entre un listado de variables:
Finalmente, debemos tener presente que el coeficiente de correlación mide asociación lineal entre las variables, por lo cual si existe una relación pero no lineal esta no será detectada por el coeficiente de correlación.
Test de Normalidad Hasta ahora para estudiar la normalidad de una variable lo hemos realizado por simple inspección gráfica o viendo que los coeficientes de asimetría y kurtosis sean “cercanos” a los valores que
caracterizan una distribución normal, 0 y 3 respectivamente. Podemos plantear más formalmente un test que tenga como hipótesis nula:
Esta hipótesis testea conjuntamente que asimetría es cero y kurtosis es igual a 3, es decir, la hipótesis nula es que la variable es normal. Tenemos la variable X, con las siguientes estadísticas descriptivas:
El coeficiente de asimetría es prácticamente cero, y la kurtosis muy cercana a 3. En efecto podemos ver a través del histograma de la variable que sigue una distribución muy parecida a la normal:
8 .
6 .
4 .
2 .
0
0
1
2 x
3
4
Sin embargo, necesitamos saber si estadísticamente la asimetría es cero y la kurtosis es 3, para eso realizaremos un test de hipótesis que tenga como hipótesis nula la normalidad de la variable:
El primer valor p que muestra es sobre la hipótesis nula de que la asimetría (skewness) es igual a cero, dado que el valor p es mayor a 0.05 no se puede rechazar la hipótesis nula de que la asimetría de la variable X es cero. El segundo valor p es sobre la hipótesis nula de que la kurtosis es igual a 3, dado que el valor p es mayor a 0.05 no se puede rechazar la hipótesis nula de que la kurtosis es igual a 3. Finalmente, el tercer valor p presentado corresponde a lo que estrictamente se conoce como test de normalidad, ya que testea conjuntamente que ambas condiciones se cumplen. En este caso el valor p es mayor a 0.05 por lo cual no se puede rechazar la hipótesis nula de normalidad de la variable X. El siguiente gráfico nos muestra la distribución de la edad según los datos de la Encuesta CASEN 2009:
2 0 .
5 1 0 .
1 0 .
5 0 0 .
0
0
20
Y sus principales estadísticas descriptivas:
40
60 r3: edad
80
100
Notamos que la asimetría es relativamente lejana a cero, y la kurtosis diferente de 3. Pero debemos ver si estadísticamente la asimetría difiere mucho de cero y la kurtosis de 3 como para rechazar la hipótesis nula de normalidad de la variable edad.
En este caso, se rechaza la hipótesis nula de normalidad de la variable.
Análisis de Regresión Lineal Vimos que cuando nos interesa analizar la relación entre dos variables, el coeficiente de correlación es un indicador que me permite obtener el grado de dependencia y la dirección de ella. Por ejemplo, el siguiente gráfico nos muestra la relación entre las expectativas de vida de los hombres y las expectativas de vida de las mujeres para 188 países:
graph twoway (lfit lex60_f lex60_m) (scatter lex60_f lex60_m)
Gráficamente se aprecia una fuerte relación positiva entre estas dos variables, en efecto el coeficiente de correlación es 0.94:
El siguiente gráfico nos muestra la relación entre la tasa de mortalidad infantil y la tasa de alfabetización de las mujeres:
Podemos apreciar que existe una fuerte relación negativa entre la tasa de alfabetización y la tasa de mortalidad, es decir, en países con mayor alfabetización de las mujeres tienden a tener menor tasa de mortalidad infantil. El coeficiente de correlación entre estas dos variables es -0.81.
Si bien la correlación entre las variables nos indica dependencia entre ellas, ya sea positiva en el primer ejemplo o negativa en el segundo, no nos indica alguna causalidad de la relación entre las variables. En la mayoría de los problemas económicos y de evaluación de políticas públicas el interés está en estudiar el efecto causal que tiene una o más variables sobre alguna variable de interés (variable de resultado).
El concepto ceteris paribus (todo lo demás constante) juega un rol fundamental en determinar el efecto causal, ya que generalmente habrá una serie de variables que afectan el comportamiento de nuestra variable de interés y debemos ser capaces de controlar por todas ellas para poder aislar e identificar de manera correcta el efecto de una o más variables particulares que nos interesen sobre la variable de interés. Por ejemplo, si estamos interesados en determinar el efecto de una semana adicional de capacitación sobre la productividad de los trabajadores (lo que se verá reflejado en su salario) debemos considerar los otros factores que pueden afectar la productividad del trabajador como educación y experiencia, es decir, debemos preguntarnos cuál es el efecto de una semana adicional de capacitación dado un nivel de escolaridad y un nivel de experiencia. Suponga que nos interesa estudiar en el rendimiento de los alumnos, medido a través del puntaje SIMCE, de reducir el tamaño del curso (o alumnos por profesor) en 2. Luego queremos encontrar una relación entre Simce y TamañoCurso, donde significa cambio. Entonces queremos determinar cuánto cambia el puntaje de Simce en relación a cuanto está cambiando el tamaño del curso, vale decir:
mide cuanto cambia el puntaje del simce por cada cambio en tamaño de curso, por ejemplo, si
beta es -5.7 se puede interpretar que un aumento en 1 alumno el tamaño del curso disminuye el puntaje de SIMCE en 5.7 puntos:
Notemos que b corresponde a la pendiente de una recta que relaciona el puntaje en el SIMCE con el tamaño del curso:
donde es el intercepto y es la pendiente.
De esta forma, si tuviésemos los valores de y podríamos responde cualquier pregunta que relacione tamaño de curso con puntaje Simce.
Recta de Regresión Lineal En términos generales denotaremos por Y a la variable de interés y X a la variable que tiene un efecto causal sobre la variable de interés la que normalmente se denominan variable explicativa o regresor. La relación entre la variable Y y la variable X (puede ser más de una variable explicativa) no es determinística, sino que es aleatoria. Esto es, para un mismo valor de X no siempre observamos el mismo valor de Y sino distintos valores (con cierta distribución).
Si la relación fuese determinística, estadísticamente no tendríamos ningún problema interesante. El problema en Análisis de Regresión es justamente que para un valor de X no siempre observamos el mismo valor de Y , por lo cual lo mejor que podemos hacer es tratar de descubrir cuál es el valor esperado de Y condicional en cierto valor de X , lo que se conoce como Esperanza Condicional:
Podemos ver gráficamente que el valor de la esperanza de Y va cambiando condicional en diferentes valores de X , específicamente, observamos en este caso que a medida que aumenta X (número de alumnos por curso) el puntaje promedio va disminuyendo. De esta forma, podemos decir que la Esperanzan Condicional de Y, lo mejor que podemos tratar de predecir, es una función de X. El modelo de regresión lineal asume que esta función es lineal:
Las observaciones que tengamos en nuestra muestra de datos nos permitirán obtener estimadores para los parámetros poblacionales desconocidos: y , y de esta forma obtener un estimador para la media condicional:
Tendremos N observaciones, la observación del individuo i de la variable dependiente será Y i y la variable explicativa del individuo i será X i donde i=1,..,N. Existe una diferencia entre la observación puntual de Yi y la recta de regresión o esperanza condicional, esa diferencia es la que se denomina error y será denotado por ui. El error de regresión resume los factores aleatorios que determinan el comportamiento de Y pero que no son explicados por X.
Entonces, la distancia que hay entre la observación puntual de Yi y el valor en la recta de regresión (o media condicional) es el error de regresión:
Donde el valor esperando de ui es cero.
De esta forma, el Análisis de Regresión estudia la relación entre una variable dependiente y una o más variables explicativas, y tiene como objetivo medir o predecir la media poblacional de la variable dependiente para valores fijos, o condicional en valores de la o las variables explicativas. Para estimar la media poblacional:
Se utiliza la muestra obteniendo la recta de regresión muestral:
La diferencia entre el valor estimado de la media y el valor observado de Y i será el error estimado:
y se denominan coeficientes de regresión poblacionales y
estimadores muestrales de dichos coeficientes o parámetros.
y
corresponden a los
Notemos que nosotros dispondremos de una de las infinitas muestras que pueden ser obtenidas de una población, y para esta muestra obtendremos los estimadores de los parámetros poblacionales. Si hubiésemos tenido acceso a otra muestra el estimador sería diferente, en efecto, podemos construir una distribución (teórica) para los estimadores. La pregunta ahora es ¿Cuál será un buen estimador para estos parámetros?
Estimador de Mínimos Cuadrados Ordinarios Recordemos que un estimador es una fórmula o método que nos dice como aproximar un parámetro poblacional a partir de una muestra. Para clasificar al estimador como bueno o deseable este debía cumplir con ciertas propiedades:
Ser insesgado
Ser eficiente
Ser consistente
Bajo ciertos supuestos el estimador de Mínimos Cuadrados Ordinario (MCO) cumplirá con todas estas propiedades.
Los supuestos detrás del estimador MCO son: 1) Modelo de regresión sea lineal en los parámetros
2) El valor esperado del error del modelo sea cero
3) Las variables explicativas sean exógenas o no correlacionadas con el error del modelo
4) La varianza del error sea constante
5) Los errores no estén correlacionados entre ellos
El supuesto 3 es clave para la identificación correcta del efecto causal que tiene X sobre Y, es decir, la identificación correcta de . Notemos que si existe correlación entre X y u, al cambiar X también se moverá u, y no sabremos de donde proviene el cambio observado en Y. Los supuestos 2, 4, y 5 se resumen en que el error es independiente e idénticamente distribuido con media cero y varianza constante 2:
El estimador MCO me dice que escoja cuadrado:
y
de forma tal de minimizar la suma de los errores al
Resolviendo este problema de optimización se tiene que:
La regresión lineal por MCO en STATA sea hace a través del comando regress:
Esto se interpreta que un aumento marginal (de un alumno) en la cantidad de alumnos por curso disminuye en 2.3 puntos el puntaje en la prueba estandarizada. Note que el resultado se ve
siempre enunciando un cambio marginal en la variable explicativa (un alumno, un año, un peso, etc), y el coeficiente estimado esta en unidades de la variable dependiente, en este caso puntaje.
Ejemplos La siguiente regresión muestra cual es el efecto marginal que tiene un año adicional de escolaridad sobre el salario por hora:
Se estima con esta muestra que un año más de escolaridad aumenta en salario por hora en promedio 161.5 pesos. Muchas veces las variables monetarias se miden en logaritmo, por ejemplo, logaritmo del salario por hora. Esto se hace por dos razones: cuando la variable esta en logaritmo el cambio marginal es un cambio porcentual:
Y la segunda razón es que la transformación logarítmica de la variable logra transformar variables muy asimétricas en variables asimétricas. La siguiente regresión muestra la regresión lineal entre el logaritmo natural del salario por hora y los años de escolaridad:
En este caso el coeficiente estimado para el parámetro que acompaña los años de escolaridad es igual a:
De esta forma, se interpreta como que un año adicional de escolaridad aumenta en 6.63% el salario por hora. La siguiente tabla nos muestra una regresión múltiple (considera más de una variable explicativa) explicando el salario por hora en función de los años de escolaridad y la edad:
Se obtiene que una año más de escolaridad aumenta el salario por hora en 213.5 pesos en promedio, dado un nivel edad edad, y se obtiene que un año más de edad aumenta el salario por hora promedio en 42.7 pesos dado cierto nivel de escolaridad. Recordemos que lo que estudia el análisis de regresión son los efectos marginales de variables explicativas sobre la esperanza condicional de la variable dependiente.
Inferencia Recordemos que el estimador es la aproximación del parámetro poblacional desconocido, en el modelo de regresión lineal los parámetros poblacionales desconocidos son los coeficientes que acompañan a las variables explicativas más el intercepto (o constante). Dado que el estimador se obtiene de una muestra, el estimador de por sí es una variable aleatoria que tiene una distribución de probabilidad, con cierta media y cierta varianza. Recordemos que el estimador MCO de en el modelo:
Está dado por:
El que puede ser escrito de la siguiente forma:
De esta forma, podemos notar fácilmente que el estimador es insesgado, ya que:
Luego, podemos calcular la varianza del estimador:
Recuerde que el estimador MCO es eficiente por lo cual tiene la mínima varianza dentro de todos los posibles estimadores lineales e insesgados, sin embargo, podemos ver que esta varianza (aun siendo eficiente) será mayor mientras mayor sea la varianza del error, y menor mientras mayor sea la varianza de las variables explicativas. Notemos que hasta ahora, para decir que MCO es insesgado, eficiente y consistente, no hemos necesitado el supuesto de normalidad del error. Sin embargo, para hacer inferencia se necesita hacer este supuesto de normalidad:
Bajo este supuesto se tiene que:
Luego, podemos estándarizar:
Sin embargo, 2 es desconocido y debemos utilizar el estimador muestral s2. Luego,
Donde k es el número de parámetros estimados en el modelo de regresión. Luego podemos utilizar este estadístico para hacer inferencia sobre los valores de los parámetros poblacionales. Los test de hipótesis mínimos que se deben hacer cuando se estima un modelo de regresión, es lo que se conoce como test de significancia de los parámetros, estos consisten en plantear como hipótesis nula que el parámetro poblacional es igual a cero, y como alternativa que es distinto de cero:
El estadístico estará dado por:
Para esto necesitamos tener el valor del estimador y de la varianza estimada. Cuando se hace una regresión en STATA automáticamente nos mostrará el valor del estimador y de su desviación estándar, dividiendo los valores de la primera columna (estimador) por los valores de la segunda columna (desviación estándar) se obtiene el valor calculado del estadístico, el que es presentado en la tercera columna. El valor de este estadístico calculado debe ser comparado con el valor de la distribución t con 83987 grados de libertad, y con el nivel de significancia seleccionado.
El valor de la distribución t-student es -1.96 y 1.96, comparando lo estadísticos calculados, en todos los casos se rechaza la hipótesis nula de que el parámetro sea igual a cero.
Esto también lo podemos concluir notando que el valor p asociado a este estadístico es menor a 0.05, o notando que el cero no pertenece al intervalo de confianza.
Test de Normalidad del error El supuesto clave para poder concluir directamente la significancia de las variables explicativas (a través de la significancia de los parámetros que la acompañan) mediante los valores entregados por el output de STATA es que el error del modelo se distribuye normal, si este supuesto no se cumple, el estadístico no tiene una distribución conocida y se debe utilizar el método de bootstrap para obtener los intervalos de confianza. Podemos testear la normalidad de los errores. Una vez estimado el modelo se pueden obtener los errores estimados:
En STATA:
Se rechaza la hipótesis nula de normalidad del error. Debemos utilizar bootstrap para obtener los intervalos de confianza de los parámetros:
Bondad de Ajuste Una medida de bondad de ajuste nos dice como evaluar el poder explicativo de nuestro modelo. Una medida de bondad de ajuste es el R 2, el que mide que fracción de la varianza del la variable dependiente o de interés esta siendo explicada por la varianza de las variables, y no por el error: