III Foro de Desarrollo Económico Regional Cusco 2015
STATA 12 para Economistas: Guía básica Victor Fuentes Campos Piero Ortiz Chávez1
[email protected]
Cusco, 14 de octubre de 2015
1
Economistas del Instituto Peruano de Economía. Los errores u omisiones son entera responsabilidad de los autores.
Stata 12 para Economistas: Guía básica El Instituto Peruano de Economía (IPE) es una asociación civil de derecho privado y sin fines de lucro, cuyo objetivo es realizar estudios destinados a promover el desarrollo equilibrado y sostenido de la economía de mercado. Los estudios del IPE tienen por finalidad divulgar los trabajos realizados por profesionales de esta institución o encargados por ella a terceros, con el objetivo de aportar al debate de tópicos económicos relevantes y presentar nuevos enfoques en el análisis de los mismos. La difusión de los estudios sólo intenta facilitar el intercambio de ideas y dar a conocer investigaciones, con carácter preliminar, para su discusión y comentarios. La publicación de los estudios no está sujeta a la aprobación previa de los miembros del Directorio del IPE. Tanto el contenido de los estudios como también los análisis y conclusiones que se desprenden de ellos, son de exclusiva responsabilidad de su(s) autor(es) y no reflejan necesariamente la opinión del Instituto ni de los miembros de su Directorio.
STATA 12 para Economistas: Guía básica Octubre del 2015 Instituto Peruano de Economía
Responsables: Victor Fuentes Piero Ortiz
Instituto Peruano de Economía © 2015 Amador Merino Reyna 460, Oficina 201 San Isidro, Lima 27, Perú Teléfonos: (511) 442-0168, 442-0286 Fax: (511) 421-7393 Email:
[email protected] Los estudios y documentos de trabajo del IPE pueden obtenerse en versión PDF en forma gratuita en la dirección electrónica: http://www.ipe .org.pe /publicaciones. Existe la posibilidad de solicitar una copia impresa a través del fax: (51 1) 421-2793 o del correo electrónico:
[email protected] IPE Working Papers can be downloaded in PDF format free of charge from: http://www.ipe.org.pe. Printed versions can be ordered individually either by fax: (51 1) 421-2793 or by e-mail:
[email protected]
III Foro de Desarrollo Económico Regional Cusco 2015
1
Stata 12 para Economistas: Guía básica
Introducción La presente guía es un esfuerzo del IPE, con el auspicio de la Fundación M. J. Bustamante de la Fuente, para contribuir a la educación de los estudiantes universitarios del Perú. Mediante la realización de los Foros de Desarrollo Económico Regionales se intenta involucrar a los alumnos en la problemática local y nacional. Para lograr dicho cometido, resulta relevante que los alumnos de economía tengan la capacidad de aprovechar las principales fuentes de información provistas por el Instituto Nacional de Estadística (INEI), como la Encuestas Nacionales de Hogares (ENAHO). De manera sencilla, se presenta el entorno del software estadístico y econométrico STATA 12. Asimismo, se muestra el funcionamiento de los principales botones de la interfaz que permitirán una mayor interacción al usar las bases de datos. Además, se incluyen dos aplicaciones prácticas para reforzar el aprendizaje a nivel de investigador. Las bases de datos empleadas son Automóviles en EE.UU. y la ENAHO 2014. En el primer caso, la información es provista por el propio paquete estadístico y servirá para practicar los comandos vistos en la primera sección. Por otro lado, el manejo de la ENAHO 2014 permitirá replicar los principales indicadores como pobreza, gastos e ingresos de los hogares, cobertura de la telefonía móvil, cobertura eléctrica, material predominante en pisos, paredes y techos, etc. Usando los comandos descritos líneas abajo y explorando en el manual de ayuda de STATA 12, los alumnos pueden incrementar sus conocimientos de manera autodidacta. Finalmente, para lograr un correcto entendimiento de la presente guía se recomienda revisar en paralelo el do-file anexo STATA_12_para_economistas_.do. Todas las consultas o dudas pueden ser realizadas a los correos
[email protected] o
[email protected].
III Foro de Desarrollo Económico Regional Cusco 2015
2
Stata 12 para Economistas: Guía básica
Índice Introducción .................................................................................................................................... 2 A. Conceptos básicos ................................................................................................................. 4 I.
Entorno de STATA ................................................................................................................. 5
II.
Abrir/Guardar una base de datos .................................................................................... 6
III.
Cambiar el directorio de trabajo ...................................................................................... 6
IV. Repaso rápido de comandos más usados...................................................................... 6 B.
Aplicación: Automóviles en EE.UU. ....................................................................................... 8 I.
Base de datos ...................................................................................................................... 9
II.
Ejercicios................................................................................................................................ 9
C. Aplicación: ENAHO 2014 ...................................................................................................... 12 I.
Base de datos .................................................................................................................... 13
II.
Ejercicios básicos ............................................................................................................... 13
III.
Ejercicios intermedios ........................................................................................................ 15
III Foro de Desarrollo Económico Regional Cusco 2015
3
Stata 12 para Economistas: Guía básica
A. Conceptos básicos
III Foro de Desarrollo Económico Regional Cusco 2015
4
Stata 12 para Economistas: Guía básica
I.
Entorno de STATA El despliegue inicial de STATA presenta cuatro ventanas: Review Command Variables Results
Comandos utilizados recientemente durante la sesión. Se emplea para crear líneas de comandos que deseamos que STATA lleve a cabo Detalla a las variables disponibles en la base de datos. Permite visualizar los resultados (outputs) de los cálculos que hemos pedido que realice STATA.
Los siguientes botones abren nuevas ventanas: Do-file editor. Ventana que permite editar textos y ejecutar una lista de comandos. STATA browser. Permite visualizar los datos sin editarlos. STATA editor. Permite navegar y modificar los datos como si fuese una hoja Excel. Variables manager. Venta que permite administrar integralmente cada una de las variables Nota: Si alguna de las ventanas básicas está cerrada, se puede acceder a ellas a través de la opción Windows del menú principal.
III Foro de Desarrollo Económico Regional Cusco 2015
5
Stata 12 para Economistas: Guía básica Al trabajar en STATA ocuparemos los siguientes tipos de archivos2: base_de_datos.dta programa.do
II.
Base de datos en STATA. Archivo con líneas de comandos, que en conjunto conforman un programa. Al correr un programa el trabajo se hace más interactivo y sencillo.
Abrir/Guardar una base de datos Para abrir/guardar una base de datos existen dos caminos posibles caminos: Directo. Usar el mouse: FileOpen/SaveSeleccionar archivo/Nombrar archivo Programando. Escribir las siguientes líneas: use/save “[Disco]\[ruta de acceso]\[nombre del archive.dta]”, clear/replace
Por ejemplo: use “C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\sumaria-2014.dta”, clear save “C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\sumaria-2014.dta”, replace
III.
Cambiar el directorio de trabajo Para verificar en qué directorio se está trabajando actualmente se utiliza los comandos: cd
O bien: pwd
Para cambiar el directorio de trabajo: cd “[Disco]\[ruta de acceso]\”
Por ejemplo: cd “C:\Users\Gianfranco\Desktop\STATA12paraEconomistas\”
IV.
Repaso rápido de comandos más usados 1. Principales comandos help
Permite obtener ayuda de STATA. Por ejemplo, help operators
describe (des) summarize (sum) tabulate (tab) generate (gen)
2
Despliega un resumen de los contenidos de la base de datos en uso Computa estadísticas descriptivas Computa frecuencias Permite crear variables
Existen dos tipos de archivos más: nombre.log y nombre.ado. Para mayor información revisar el Help de STATA
III Foro de Desarrollo Económico Regional Cusco 2015
6
Stata 12 para Economistas: Guía básica
2. Expresiones lógicas y matemáticas más usadas + * / ==
Suma Resta Multiplicación División Igual
>= > <= < !=
Mayor o igual Mayor Menor o igual Menor Distinto de
~= & | exp() ln()
Distinto de y o Exponencial Logaritmo base E
3. Expresiones condicionales Permite hacer instrucciones condicionales, ya sea con comandos descriptivos o de creación. Permite realizar instrucciones basándose en la clasificación de una variable en específico
if by
4. Algunos comandos adicionales drop keep preserve
restore
replace
egen
sort lookfor
Permite borrar variables u observaciones Elimina variable u observaciones, excepto las que cumplan las condiciones especificadas según el comando Guarda temporalmente la base de datos en el estado en el que se encuentre Recupera la base de datos guardada previamente, sin importar los cambios realizados por comandos aplicados desde entonces Permite reemplazar variables o valores de observaciones por otras Permite crear variables, pero a partir de la aplicación de una función conocida por STATA sobre alguna(s) variable(s) en particular Permite ordenar la base de datos en orden ascendente según una o un grupo de variables especificadas Permite encontrar variables o explorar la búsqueda en la base de datos
III Foro de Desarrollo Económico Regional Cusco 2015
7
Stata 12 para Economistas: Guía básica
B. Aplicación: Automóviles en EE.UU.
III Foro de Desarrollo Económico Regional Cusco 2015
8
Stata 12 para Economistas: Guía básica
I.
Base de datos En la ventana de comandos escribir: clear all sysuse auto.dta, clear
Abrimos las diferentes ventanas: browse edit
Evaluamos la base de datos. ¿Cuántas variables y observaciones contiene? des
II.
Ejercicios 1.
Listado
Lista de parte de nuestra data: list make mpg list make mpg in 1/10 list make mpg in -5/l
2. ¿Qué autos tienen el menor millaje por galón? sort mpg list make mpg in 1/5
3. ¿Cuáles son los cinco autos con el mayor millaje por galón? list make mpg in -5/l
4. ¿Cuál es el precio promedio de los autos en esta base de datos? summarize price
Si usamos la función summarize sin argumentos (variables), el resultado es una tabla de los principales estadísticos de cada variable summarize
5. ¿Cuál es el precio promedio de los autos que se encuentran por encima y por debajo de la media de mpg? summarize price if mpg<21.3 summarize price if mpg>=21.3
III Foro de Desarrollo Económico Regional Cusco 2015
9
Stata 12 para Economistas: Guía básica
6. ¿Cuál es la mediana de mpg? summarize mpg, detail
7. ¿Existen diferencias de precio o millaje explicadas por el origen de fabricación? Antes de seguir, es importante notar que la variable foreign está codificada como 0 si ha sido fabricada en EE.UU. o Canadá, y 1 ha sido fabricado en otra parte. tabulate foreign tabulate foreign, nol
Existen por lo menos tres posibles soluciones: a. En dos líneas summarize price mpg if foreign==0 summarize price mpg if foreign==1
b. En dos líneas con resultados detallados sort foreign by foreign: summarize price mpg
c. En una línea con un resultado práctico table foreign, c(mean price mean mpg)
8. ¿Son los precios de los autos “domésticos” iguales a los “extranjeros”? Prueba de igualdad de medias ttest mpg, by(foreign)
9. Base de datos incluye 74 observaciones, pero para la variable rep78 solo hay 69 registros. ¿Para qué marca de autos no existe dicha variable? list make if rep78>=. list make if missing(rep78)
10. ¿Diferencias entre las frecuencia de mantenimiento explicadas por el origen de fabricación? tabulate rep78 foreign
III Foro de Desarrollo Económico Regional Cusco 2015
10
Stata 12 para Economistas: Guía básica Para saber si hay diferencias significativas del mantenimiento según origen de fabricación: tabulate rep78 foreign, chi2
11. ¿Cuál es la correlación entre MPG y el peso de un carro? correlate mpg weight
12. ¿Cuál es la correlación entre MPG y el peso de un carro según el origen de fabricación? correlate mpg weight if foreign==0 correlate mpg weight if foreign==1
El mismo resultado se hubiera logrado usando: by foreign: correlate mpg weight
Se pueden hacer matrices de correlación del número de variables deseadas correlate mpg weight price length displacement
13. Ploteado de variables (2 ejes) scatter mpg weight
14. Creamos nueva variable: weight2 (cuadrado del peso del auto) gen weight2=weight^2
Probemos los comandos preserve, restore, keep y drop preserve drop rep78 br keep if weight>3000 br restore
15. Estimación lineal por Mínimos Cuadrados Ordinarios regress mpg weight weight2 foreign
III Foro de Desarrollo Económico Regional Cusco 2015
11
Stata 12 para Economistas: Guía básica
C. Aplicación: ENAHO 2014
III Foro de Desarrollo Económico Regional Cusco 2015
12
Stata 12 para Economistas: Guía básica
I.
Base de datos En la ventana de comandos escribir: clear all
Además, agregar la siguiente línea considerando su propia ruta: cd "C:[ruta]\ENAHO"
En mi caso es el siguiente: cd "C:\Users\Gianfranco\Desktop\STATA12paraEconomistas"
Luego, ejecutar el comando aprendido líneas arriba: use sumaria-2014.dta, clear
Nota: al usar el comando cd permitimos el uso de más archivos alojados en la misma ubicación sin tener que describe la ruta complete otra vez. Esto será de suma utilidad más adelante cuando juntemos dos bases de datos.
II.
Ejercicios básicos 1.
¿Cuántas variables y observaciones se incluyen en la base datos?
browse
2.
¿Qué características tienen cada de una de las variables?
Codebook
3.
¿Qué nos dice la variable ubigeo?
codebook ubigeo sum ubigeo describe ubigeo
4.
Transformemos la variable ubigeo para hacerla trabajable: comando destring
destring ubigeo, replace
5.
Dado que la ENAHO solo es representativa a nivel regional, no tiene sentido hacer inferencia sobre la base de información desagrega a niveles más específicos. Por lo tanto, debemos usar el ubigeo al nivel de regiones.
III Foro de Desarrollo Económico Regional Cusco 2015
13
Stata 12 para Economistas: Guía básica gen region = int(ubigeo/10000) label variable region "Región" label define region 1 "Amazonas" 2 "Ancash" 3 "Apurimac" […] label values region region tab region
6.
¿Qué nos dice la variable dominio?
codebook dominio sum dominio describe dominio
7. Construyamos la variable regiones naturales gen region_natural=. label variable region_natural "Región Natural" replace region_natural=1 if dominio<=3|dominio==8 replace region_natural=2 if dominio>=4& dominio<=6 replace region_natural=3 if dominio==7 label define region_natural 1 "Costa" 2 "Sierra" 3 "Selva" label values region_natural region_natural tab region_natural tab region region_natural
8.
¿Qué nos dice la variable estrato? Construyamos la variable ámbito
gen ambito=. label variable ambito "ambito" replace ambito = 0 if estrato>=6 & estrato <=8 replace ambito = 1 if estrato>0 & estrato <=5 label define ambito 1 "Urbano" 0 "Rural" label value ambito ambito tab ambito tab region ambito tab region_natural ambito tab region ambito region_natural table region ambito region_natural
Con todo lo anterior, ya estamos en la capacidad de calcular variables desagregadas por región, nivel de urbanidad y tipo de región natural.
III Foro de Desarrollo Económico Regional Cusco 2015
14
Stata 12 para Economistas: Guía básica
III.
Ejercicios intermedios 9.
Calcular la pobreza por regiones
Primero encontramos la variable de interés: pobreza lookfor pobreza codebook pobreza sum pobreza tab pobreza
Recodificamos la variable pobreza: generate pobreza2=0 if pobreza==3 replace pobreza2=1 if pobreza==2 | pobreza==1 label define pobreza2 1 "Pobre" 0 "No pobre" label value pobreza2 pobreza2 tab pobreza2
Ahora ejecutamos el comando para cumplir con la tambito: table region, c(mean pobreza) tab region pobreza2, row
Al comparar con los datos ofrecidos por el INEI notaremos que los resultados no son correctos, ¿qué ocurre? Hasta ahora solo habíamos estado trabajando con la base de datos y sus variables; no obstante, al iniciar los cálculos sobre ellas debemos recordar que se trata de una encuesta y no de la población. Por lo tanto, debemos considerar los factores de expansión o ponderadores que hacen que los indicadores muestrales se conviertan en representaciones poblacionales. lookfor factor codebook factor07
Es importante notar que la variable factor07 es el factor de ponderación o expansión para los hogares. Sin embargo, la pobreza se mide al nivel de personas. Para ello, debemos juntar “sumaria”, la cual identifica la condición de pobreza de cada hogar, con el Modulo 2, que está nivel de personas. Para combinar bases de datos es necesario tener una variable o un conjunto de variables que sirvan como identificadores en ambas bases de datos. A través de dichos identificadores, se combinarán las variables de ambas bases de datos en una sola; en otras palabras, debemos identificar que variable asigna a cada persona con su respectivo hogar. El identificador natural de nuestra base de datos son los hogares, debido a que estas son las unidades muestrales. Sin embargo, los hogares están distribuidos según conglomerados3 y viviendas. Ordenamos la base de datos sumaria y la salvamos:
3
Los conglomerados son unidades primarias de muestreo
III Foro de Desarrollo Económico Regional Cusco 2015
15
Stata 12 para Economistas: Guía básica
sort conglome vivienda hogar save sumaria-2014-1.dta
Abrimos el Módulo 200, lo ordenamos y usamos el comando merge: use enaho01-2014-200.dta, clear sort conglome vivienda hogar merge conglome vivienda hogar using sumaria-2014-1.dta
Tabulamos la pobreza para cada una de las regiones: table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row tab region pobreza2 if p204==1 & (p203!= 8 | p203!=9) [iw=facpob07], row
Podemos calcular la pobreza para otras categorías: table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) table region [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row table region ambito [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row col table region region_natural [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row col table region ambito region_natural [iw=facpob07] if p204==1 & (p203!= 8 | p203!=9), c(mean pobreza2) row
En la medida que la ENAHO es una encuesta, la pobreza calculada tiene un error muestral. Para observar el error muestral debemos utilizar el módulo de encuestas del STATA. Primero se le debe decir al STATA que tipo de muestreo se utilizó en la ENAHO: svyset conglome [pweight=factor], strata (estrato)
Para ver los errores muestrales de pobreza se utiliza el siguiente comando: svy: svy: svy: svy: svy:
proportion pobreza2 tabulate region pobreza2 tabulate region pobreza2, row ci se tabulate ambito pobreza2, row ci se tabulate region_natural pobreza2, row ci se
10. Calcular los ingresos netos anuales según quintiles Regresemos a Sumaria:
use sumaria-2014-1.dta, clear
En primer lugar, debemos encontrar la variable de interés: lookfor ingreso codebook inghog2d sum inghog2d
Usamos el comando xtile para calcular los quintiles. Primero revisamos qué nos dice STATA: III Foro de Desarrollo Económico Regional Cusco 2015
16
Stata 12 para Economistas: Guía básica help xtile
Calculamos los ingresos por quintiles: xtile quintiles_ing = inghog2d [w=factor07], nq(5)
Comprobamos que la variable ha sido correctamente calculada: tab quintiles_ing tab quintiles_ing [iw=factor07]
Calculamos los ingresos por quintiles: table quintiles_ing [iw=factor], c(mean inghog2d) table quintiles_ing [iw=factor], c(mean inghog2d) row svy: mean inghog2d, over(quintile)
¿Podemos usar esta variable para calcular los quintiles por regiones? table region quintiles_ing [iw=factor], c(mean inghog2d)
No, porque esta variable ha sido calculada usando como población objetivo al Perú. Demostrémoslo: table region quintiles_ing [iw=factor], row
La tabla nos muestra las observaciones según quintiles. Solo en la última fila, referida al Total o Perú, los montos son estadísticamente semejantes. Por lo tanto, para calcular los quintiles de ingresos según regiones, estos se deben calcular independientemente. Para el caso de Arequipa: xtile quintiles_ing_arequipa = inghog2d [w=factor07] if region==4,nq(5) table quintiles_ing_arequipa [iw=factor], c(mean inghog2d)
Es posible generalizar el cálculo para el resto de regiones cambiando la identificación de la región. Por ejemplo, “15” para Lima ó “23” para Tacna Antes de seguir guardemos nuestra base datos. Recordar ponerle otro nombre, para no modificar la base de datos inicial: save sumaria-2014-2.dta,replace
11. Calcular la tenencia de celulares en los hogares En primer lugar, debemos encontrar la variable de interés: lookfor celular
STATA no encuentra la variable porque dicha variable no existe. Para asegurarnos revisamos el Diccionario de Datos de la ENAHO 2014. Al investigar en ella, advertimos
III Foro de Desarrollo Económico Regional Cusco 2015
17
Stata 12 para Economistas: Guía básica que dicha variable se encuentra en el módulo 1004. Por lo tanto, abrimos dicha base de datos: use enaho01-2014-100.dta, clear lookfor celular codebook p1142 sum p1142 tab p1142
¿Debemos considerar todas las observaciones? tab p101 tab p101, mis tab result keep if result==1|result==2
Generamos una variable más amigable gen celular=p1142 label variable celular "Tenencia de celular en el hogar" label define celular 1 "Tiene celular" 0 "No tiene” label values celular celular
Calculamos la tenencia de celulares por hogares sum celular sum celular [iw=factor07]
Calculamos la tenencia de celulares por hogares por regiones table region [iw=factor07], c(mean celular)
El error se debe a que las variables que habíamos generado en los ejercicios anteriores no se encuentran en esta base de datos. Al respecto, se pueden emplear dos soluciones similares. Generar todas las variables calculadas previamente usando los comandos descritos líneas arriba o combinar las bases de datos. En este caso usaremos la primera alternativa; usaremos la segunda más adelante. Luego de volver a calcular las variables de regiones, regiones naturales y nivel de urbanidad, calculamos lo solicitado: table region [iw=factor07], c(mean celular)
Como puede haber notado, al revisar las variables del módulo 100, el procedimiento aplicado también puede servir para obtener la cobertura de teléfono, internet y tv cable. Pista: lookfor p114
4
Hasta ahora hemos estado trabajando con el modulo Sumaria.
III Foro de Desarrollo Económico Regional Cusco 2015
18
Stata 12 para Economistas: Guía básica
12. Calcular la cobertura de electricidad de los hogares En primer lugar, debemos encontrar la variable de interés: lookfor electricidad codebook p1121 tab p1121
Generamos una variable más amigable: gen elect=p1121 label variable elect "Electricidad" label define elect 1 "Alumbrado eléctrico" 2 "No tiene” label values elect
Calculamos la cobertura de electricidad: sum elect [iw=factor07]
Calculamos la cobertura de electricidad por regiones: table region [iw=factor07], c(mean elect) table region ambito [iw=factor07], c(mean elect)
13. Calcular el acceso a red pública de agua En primer lugar, debemos encontrar la variable de interés: lookfor agua codebook p110 tab p110
Generamos una variable más amigable usando la definición del INEI sobre acceso a red pública de agua gen agua=. replace agua=0 if p110<=3 replace agua=1 if p110>3 label variable elect "Acceso a red pública de agua" label define agua 1 "Tiene acceso a red pública" 2 "No tiene” label values agua
Calculamos el acceso a red pública de agua nacional: sum agua [iw=factor07]
Calculamos el acceso a red pública de agua por regiones: table region [iw=factor07], c(mean agua) table region ambito [iw=factor07], c(mean agua) save enaho01-2014-100-mod.dta,replace
Se pueden emplear similares comandos para las variables de material predominante en pisos (p103), paredes (p102) y techo (p103a). También para el combustible usado en la cocina (p113a). Lo más importante son las condiciones bajo las que definimos las nuevas variables.
III Foro de Desarrollo Económico Regional Cusco 2015
19
Stata 12 para Economistas: Guía básica
14.
Calcular la cobertura eléctrica según quintiles de ingresos En primer lugar, debemos advertir que la variable de ingresos pertenece al módulo Sumaria; mientras, la variable de abastecimiento eléctrico, al módulo 100. Por lo tanto, resulta necesario combinar dichas bases de datos. Para combinar bases de datos es necesario tener una variable o un conjunto de variables que sirvan como identificadores en ambas bases de datos. A través de dichos identificadores, se combinarán las variables de ambas bases de datos en una sola. El identificador natural de nuestra base de datos son los hogares, debido a que estas son las unidades muestrales. Sin embargo, los hogares están distribuidos según conglomerados5 y viviendas. Por lo tanto, el procedimiento a seguir es: Abrimos la base de datos a anexar, la ordenamos según los identificadores y la guardamos: use enaho01-2014-100.dta, clear sort conglome vivienda hogar save enaho01-2014-100-para-combinar.dta,replace
Abrimos la base de datos maestra y la ordenamos según los identificadores: use sumaria-2014.dta, clear sort conglome vivienda hogar
Combinamos ambas bases de datos teniendo en cuanto los identificadores usado el comando merge: merge conglome vivienda hogar using enaho01-2014-100-para-combinar.dta br
Veamos cómo está compuesta la nueva base de datos: tab _merge br if _merge==2
Notamos que las observaciones que solo están incluidas en la base de datos del módulo 100 representan missing values. Para evitar posible problemas, solo guardamos las variables presentes en ambas bases de datos o, que es lo mismo, aquellas incluidas en Sumaria. keep if _merge==3
También podríamos haber usado las bases de datos que modificado al trabajar los cálculos previos: use enaho01-2014-100-mod.dta, clear sort conglome vivienda hogar 5
Los conglomerados son unidades primarias de muestreo
III Foro de Desarrollo Económico Regional Cusco 2015
20
Stata 12 para Economistas: Guía básica save enaho01-2014-100-mod.dta,replace use sumaria-2014-2.dta, clear sort conglome vivienda hogar merge conglome vivienda hogar using enaho01-2014-100-mod.dta
Calcular la cobertura eléctrica según quintiles de ingresos: table quintiles_ing [iw=factor], c(mean elect)
Calcular la cobertura eléctrica según quintiles de ingresos Arequipa: table quintiles_ing_cusco [iw=factor], c(mean elect) table quintiles_ing_cusco ambito [iw=factor], c(mean elect)
_______________________________________________________________________________ La presente guía constituye una primera herramienta para aprovechar la información provista por el INEI. Se deja como asignación personal la investigación de nuevos comandos y la aplicación sobre nuevos módulos de la ENAHO. Finalmente, la principal herramienta para avanzar en el dominio de STATA radica en el uso del Manual de Ayuda (comando help).
III Foro de Desarrollo Económico Regional Cusco 2015
21