ECOTRAINING
MANUAL DE STATA BÁSICO POR: Eco. DAVID JOEL ESPARTA POLANCO
Contenido CAPÍTULO I. INTRODUCCIÓN AL STATA .............................................................................. 3 1.
Entorno del Stata .................................................................................................................. 3
2.
Estructura de un Do-file ...................................................................................................... 6
3.
Cargar Bases de Datos ......................................................................................................... 8
4.
3.1.
Cargando una base de datos del Stata....................................................................... 8
3.2.
Creando manualmente una base de datos en Stata ................................................. 9
3.3.
Convirtiendo bases de datos ....................................................................................... 9
Guardar una Bases de Datos ............................................................................................. 11
CAPÍTULO II. GESTIÓN DE BASE DE DATOS ....................................................................... 12 1.
Inspección de la base de datos .......................................................................................... 12
2.
Generación y transformación de variables ..................................................................... 14
3.
Transformación de bases de datos .................................................................................. 16
4.
Fusión de bases de datos .................................................................................................. 18
CAPÍTULO III. GRÁFICOS EN STATA...................................................................................... 21 1.
Introducción al Stata Graph .............................................................................................. 21
2.
Tipos de gráficos................................................................................................................. 21 2.1.
Histograma .................................................................................................................. 21
2.2.
Dispersión de puntos (Scatter Plot) ......................................................................... 22
2.3.
Múltiple dispersión de puntos ................................................................................. 23
2.4.
Caja y bigote ................................................................................................................ 24
2.5.
Pie ................................................................................................................................. 25
2.6.
Barras............................................................................................................................ 26
CAPÍTULO IV. MODELO DE REGESIÓN LINEAL CLÁSICO (MRLC)............................... 27 1.
Especificación y supuestos del MRLC............................................................................. 27
2.
Estimación del MRL por el método de Mínimos Cuadrados Ordinarios (MCO) ..... 28
CAPÍTULO I. INTRODUCCIÓN AL STATA 1. Entorno del Stata Al momento de iniciar la sesión en STATA ya sea en cualquiera de su versión más actualizada (versión 11 a la versión 13), esta mostrará cuatro ventanas importantes:
En el transcurso de la capacitación, aprenderemos a trabajar con otras ventanas que contiene el Stata, como son: Otras ventanas a tomar en consideración son: a. STATA Viewer: Podemos acceder a la información online y a las ayudas que nos otorga el programa. b. STATA Do-File Editor: Es una ventana que funciona como editor de texto para poder guardar y ejecutar una lista de comandos programados. c. STATA Data Editor: Nos permite digitar y modificar los datos de la misma forma que una hoja de Excel.
d. STATA Browser: Accedemos a la ventana de datos sin poder modificar su contenido. e. STATA Graphs: Nos muestra una ventana con el gráfico que hemos ejecutado.
Uno de los archivos principales para comenzar a usar el Stata es el archivo de programación Do-file editor, para acceder a este editor podemos hacer clic en la barra de herramientas el ícono
o escribir en la ventana de línea de comandos lo siguiente:
A continuación, nos aparecerá una ventana de editor en blanco, donde podemos elaborar nuestro primer archivo do-file. Estos archivos son muy importantes por los siguientes motivos: a. Permite registrar una de serie de comandos, la cual representa todo el procedimiento de nuestro trabajo.
b. Permite ir corrigiendo posibles errores que se pueden generar en la elaboración y ejecución de nuestro trabajo. c. Permite replicar los procedimientos en sesiones posteriores sin necesidad de crearlo nuevamente. d. Además, sirve como un mecanismo de seguridad que permite regresar a la base de datos original después de haberle hecho diversas transformaciones. Una de las primeras cosas que debemos aprender para elaborar un do-file es escribir “comentarios”, para ello existen diversas maneras: a. Una simple línea de comentario empieza con un asterisco (*); donde STATA ignorará tales líneas. b. Para colocar un comentario en la misma línea donde fue escrito el comando utilizamos dos slash (//). c. Para líneas con múltiples comentarios, colocamos el texto entre los símbolos (/*) al inicio y (*/) al final. d. En el caso de que se haga uso de un comando la cual presenta una expresión muy larga podemos utilizar triple slash (///) en medio de la expresión y así continuar en la siguiente línea la parte faltante. STATA entenderá como si fuera una única línea de comando. e.
Por último, también se utilizan los símbolos de comentarios con fines decorativos.
Por ejemplo, podemos comenzar escribiendo en nuestro do-file lo siguiente
2. Estructura de un Do-file Generalmente, al momento de comenzar a programar en un do-file del Stata, es recomendable mantener el siguiente esquema de trabajo:
Siguiendo esta estructura del do-file, procedemos como primer paso a construir una plantilla de trabajo. El primer comando que utilizaremos en esta plantilla de trabajo es limpiar información que podría estar utilizándose (como bases de datos, etiqueta, matrices, escalares, etc.) que se haya trabajado previamente con el comando clear. Con respecto a las formas de poder ejecutar los comandos, se puede hacer a través del icono
(execute do) ubicado en la parte superior derecha de la barra de herramientas
del archivo Do-file o presionando los teclados “Ctrl+D” una vez que sombremos el comando queramos correr.
Una vez realizada esta acción, se reflejará los resultados en la ventana Result View del Stata.
Luego, se debe cambiar la ruta o directorio de trabajo, ya que cuando se inicia una sesión en Stata, por defecto se trabaja en la carpeta en donde se encuentra instalado el software. Para saber cuál es la ruta de trabajo activa se puede ver la parte inferior izquierda del entorno del STATA.
Dentro de nuestra carpeta de trabajo “Clase 1” existe una carpeta denominada “Bases” en el cual trabajaremos esta primera sesión. Para acceder a la nueva ruta de trabajo nos ubicamos en la carpeta “Bases” y copiamos la ruta que se encuentra en la parte superior de la ventana:
Ahora, utilizamos el comando cd para cambiarnos al nuevo directorio creado, indicando la nueva ruta entre comillas.
3. Cargar Bases de Datos Existen diferentes de poder emplear una bases de datos en Stata y en la presente sección explicaremos cada una de estas formas. 3.1.
Cargando una base de datos del Stata
STATA cuenta con bases de datos dentro de su sistema como ejemplos aplicativos, para cargarlos se utiliza el comando sysuse. Un ejemplo, es cargar la base de datos “auto.dta”, donde cabe resaltar que todas las bases de datos en formato del Stata se guardan con la versión .dta.
En la parte inferior izquierda del entorno del STATA se apreciará las variables que contiene la base de datos “auto.dta”.
3.2.
Creando manualmente una base de datos en Stata
La manera de editar manualmente una base de datos a través del dofile es a través del comando input. Para realizar esta acción, hay que limpiar la base de datos utilizada en la anterior sección de la siguiente manera. Luego, usamos el comando “input”, seguido del nombre de las variables y a partir de la siguiente línea de comando se comienza a digitar los datos, finalmente se debe terminar con la palabra “end”.
3.3.
Convirtiendo bases de datos
STATA cuenta con una herramienta que permite convertir base de datos de SPSS, Matlab, Gauss, SAS, Excel, etc. al formato “*.dta” a través del software STAT/TRANSFER.
Para acceder a este software basta con hacerle clic y posteriormente nos saldrá una ventana de dialogo solicitándonos la siguiente información:
Input File Type: Indicamos el tipo de archivo en la cual se encuentra nuestra base de datos original.
File Specification: Indicamos la ruta donde se encuentra nuestra base de datos original haciendo uso del botón Browse.
Output File Type: Indicamos el tipo de archivo al cual deseamos que la base de datos se convierta.
File Specification: Indicamos la ruta donde queremos colocar la base de datos convertida haciendo uso del botón Browse.
Para nuestro caso ilustrativo, contamos con la base de datos de la Encuesta de Hogares (ENAHO) en formato de SPSS llamada “Enaho01-2014-100.sav”que se encuentra en nuestra carpeta de trabajo, el cual queremos convertirlo a un archivo de base de datos del STATA con el mismo nombre y que se guarde en la misma carpeta de trabajo. Para desarrollar esta aplicación realizamos los siguientes pasos: a. Abrimos la ventana de diálogo del STAT/TRANSFER. b. En la sección Input File Type hacemos clic a la barra desplegable y elegimos el formato SPSS Data File ya que se debe un archivo de base de datos del SPSS.
c. En la sección File Specification hacemos clic en el botón “Browse” para definir la ruta donde se encuentra nuestra base original.
d. En la sección Output File Type hacemos clic a la barra desplegable y elegimos el formato Stata Version 4-5 la cual es el formato de la base de datos que queremos obtener.
e. En la sección File Specification hacemos clic en el botón “Browse” para definir la ruta donde queremos que se guarde nuestra base convertida. Aunque por defecto se ubica en la misma carpeta donde se ubica la base de datos convertida.
4. Guardar una Bases de Datos Parta guardar una base de datos que fue modificada se puede hacer usando con el comando save. No obstante, para las versión actuales de Stata 12 y 13 se sugiere usar el comando soveold, para que las bases de datos pueda ser reconocido por versiones del Stata anteriores a los mencionados.
Como se puede ver en la línea de sintaxis, después de la coma ( , ) viene las opciones del comando, en este caso es replace lo que significa que si se vuelve a ejecutar esta sintaxis el Stata guardará la base de datos nuevamente de la que ya existe.
CAPÍTULO II. GESTIÓN DE BASE DE DATOS 1. Inspección de la base de datos En esta sección aprenderemos comandos que nos permitan dar una revisada a la base de datos, es decir, saber con qué esquema de datos y tipos de variables estamos trabajando. Para ello, vamos a trabajar con una Encuesta de Hogares (ENAHO) del año 2013, el módulo de esta encuesta será las “Características de las viviendas” encuestadas. Previamente establecemos nuestra ruta de trabajo y luego cargamos la base de datos con el comando use.
Usualmente después de abrir una base de datos, recurrimos a la siguiente rutina de inspección de una base de datos:
Observar la base de a través del comando browse, el cual nos permite ver la base de datos sin poder modificarla. En cambio, existe otro comando denominado edit que nos permite ver la base de datos pudiendo modificarlo.
Descripción de la base de datos con el comando describe.
Generando un diccionario de variables con el comando codebook.
Realizar un cuadro estadístico resumen de diferentes variables numéricas con el comando summarize.
2. Generación y transformación de variables Una primera forma de generar variables es utilizando el comando generate, que usualmente trabaja conjuntamente con el comando replace. Este comando nos permite generar variables haciendo uso de expresiones matemáticas, lógicas, numéricas. Si bien es cierto que STATA solamente reconoce los comandos con letras minúsculas, también es importante decir que hace diferenciación de los nombres de las variables entre si son minúsculas o mayúsculas. Por ejemplo, a partir de la base de datos se quiere saber el número de hogares que tienen internet, esta información se encuentra en la pregunta p1141. Para ello, creamos una variable dicótoma denominada “internet” donde toma el valor de 0 si el hogar no tiene internet y 1 cuando si tiene internet.
A esta nueva variable se puede introducir etiquetas para una mejor descripción. Si queremos colocar una etiqueta al nombre de la variable utilizamos el comando label variable, y si se quiere etiquetar los valores de la variable primero se debe definir una etiqueta con label define y luego se utiliza el comando label value para utilizar la etiqueta creada en los valores de la variable, tal y como se muestra a continuación:
Una vez creada la variable “internet” se puede hacer una tabla simple de frecuencia con el comando tabulate para saber cuántos hogares tienen internet. En este caso, de un total de 39 767 hogares entrevistadas, el 15,84% tienen internet.
Otra forma de generar variables es empleando en comando egen. Este comando es una extensión del anterior, que permite utilizar expresiones que incluyan funciones más complejas del STATA, como es el caso de: medias, máximos, mínimos, desviación estándar, promedios móviles, variables estandarizadas, etc. A manera de ejemplo se puede calcular una variable que capture el valor promedio, máximo y mínimo del pago de alquiler de una vivienda (p106).
También se puede generar variables a partir de la recodificación de otras variables con el comando recode, el cual permite modificar los valores específicos de una variable. A manera de ejemplo se puede crear una variable de regiones naturales del país (costa, sierra y selva) a partir del dominio geográfico (dominio). Para ello se suele recomendar realizar una revisión de las etiquetas de la variable a recodificar con el comando label list.
A partir de las etiquetas de los valores se comienza a clasificar y agrupar con el fin de luego formas los grupos de recodificación de la siguiente manera:
3. Transformación de bases de datos Hay ocasiones en que la base de datos puede requerirse para colapsarlo de tal forma que cada grupo de individuos esté representada por una observación en particular, ya sea por el promedio, la mediana, desviación estándar, máximo, mínimo, la suma, etc., de alguna variable en particular. Para hacer esta operación recurrimos al comando collapse. A manera de ilustración cargamos una nueva base de datos denominada “kids.dta” que tiene información de niños correspondiente a un código de familia que pertenece, su nombre, orden de nacimiento, endad, peso y sexo.
A partir de esta pequeña base se requiere tener información a nivel de familia, donde se registre el promedio de años de edad de los niños, el peso máximo, y el número de niños hombres. Así, que la línea de sintaxis sería el siguiente:
Por otro lado, cuando se trabaje con bases de datos de forma panel (un grupo de individuos que se recogen información en un periodo de tiempo), esta puede tener dos formas: larga y ancha. El comando reshape nos permite transponer una base de datos panel de forma larga (long) a una de forma ancha (wide) y viceversa. Como se muestra a continuación:
Por ejemplo, cargamos otra base de datos llamada “ingfam.dta”, que contiene información sobre el ingreso de 3 individuos en tres años (1996, 1997 y 1998).
Como se observará, esta base tiene formato wide, y lo que se quiere en transponerlo a formato long. Para ello, hay que identificar bien dos cosas: la parte del nombre de la variable que se repite y que a su vez sirve como una semilla (ingfam), y la variable que identifique al individuo que se colocará en la opción i(codfam), por último se coloca un nuevo nombre a la variable temporal j(tiempo).
Si se quiere volver al formato anterior, es decir, de long a wide, se debe ejecutar lo siguiente:
4. Fusión de bases de datos Es común la combinación de varias bases de datos. Se va a mostrar dos operaciones básicas: añadir observaciones y añadir variables. En el primer caso, se utiliza el comando append para fusionar bases de datos de manera vertical. Aquí será necesario una base activa o cargada (base master) y una inactiva que se va a añadir a la base master (base using), además la base originada tendrás una forma long.
Para ello, abrimos una nueva base de datos denominada “base1.dta” el cual estará activa y será nuestra base master. Además, en nuestra carpeta de trabajo existe otra base llamada “base2.dta”el cual estará inactiva (base using) y será añadida a la primera base. Ambas bases de datos contiene información de las notas de alumnos (en la primera base existe 3 alumnos y en la segunda existen 4 alumnos) en los cursos de micro, macro y economía, además de su sexo el turno horario.
Para fusionar ambas bases de datos e utiliza la siguiente línea de sintaxis:
En el segundo tipo de fusión para añadir variables, se utiliza el merge para fusionar bases de datos de manera vertical. De la misma manera que en el primer caso, también existirá una base master y una base using. Para este ejemplo, se usaran dos bases de datos que ya fueron fusionados de manera vertical “base12.dta” y “base34.dta”, el primero será la base using y la segunda la base master. Ambas bases contienen información de alumnos, por lo cual será un fusión de individuo contra individuo (1:1).
Como se puede observar en la fusión, automáticamente se crea una variable denominada “_merge” el cual toma valores dependiendo si el registro de los datos está presente en una de las bases o en ambos. Cuando el valor de la variable _merge es 1 quiere decir que el dato solo aparece en la base master, 2 cuando aparece en la base using y 3 cuando aparece en ambos. Usualmente, después de cada fusión se suele eliminar esta variable con el comando drop.
CAPÍTULO III. GRÁFICOS EN STATA 1. Introducción al Stata Graph Stata presenta una amplia variedad de gráficos, la cual abarca figuras como: matrices de ploteos, histogramas, áreas, líneas, caja y bigote, etc. Comenzaremos demostrando siete tipos de gráficos:
histogram: Histogramas
graph twoway: Scatterplot, líneas, y otros entre dos variables.
graph matrix: Matrices de Scatterplots.
graph box: Gráficas de caja y bigotes.
graph bar: Gráficas de barras
graph pie: Gráficas de pastel o pie.
Para cada uno de estos gráficos existen muchas opciones1. 2. Tipos de gráficos Los comandos del Stata Graph empiezan con la palabra graph (aunque en algunos casos esto es opcional) seguido por la palabra que indica el tipo de gráfico. A continuación describiremos los diferentes tipos de gráficos que se puede elaborar en el ambiente del Stata. 2.1.
Histograma
La función de densidad de una variable puede ser estimada usando un histograma a través del comando histogram. Para ilustrar este comando, utilizaremos la base de la Encuesta Permanente de Empleo (EPE) correspondiente al trimestre móvil Enero-FebreroMarzo del año 2014, la cual contiene información referente a la situación de empleo que tiene un individuo en el mercado laboral. En esta base se tiene información de los ingresos laborales totales de los trabajadores al mes (ingtot), el cual se quiere obtener su gráfico de frecuencias del logaritmo natural de
1
Para observa otras tipos de gráficos y comandos relacionados a estos, se recomienda escribir en la venta de comandos help graph other.
estos ingresos con el fin de reducir la varianza. Además, comparamos con la distribución para observar si se guardan características similares, tal y como se muestra
a
0
.2
.4
Density
.6
.8
continuación:
2
2.2.
4
6 lningtot
8
10
Dispersión de puntos (Scatter Plot)
Los diagramas de dispersión de puntos (scatter plot) se accede a través del comando graph twoway scatter. Por ejemplo, queremos ver la relación que guardan el ingreso laboral total
6 4 2
lningtot
8
10
(en logaritmos) con la edad (p108).
0
20
40 60 edad ( en años )
80
100
No obstante, se puede ajustar un línea recta (lfit) a este gráfico, y al mismo tiempo ajustar por una relación cuadrática (qfit), para ver si existe rendimientos decrecientes en los
2
4
6
8
10
ingresos laborales.
0
20
40 60 edad ( en años ) lningtot Fitted values
2.3.
80
100
Fitted values
Múltiple dispersión de puntos
El comando graph matrix nos muestra un útil análisis multivariado. Este comando otorga una gráfica compacta de la relación entre un número de variables por pareja, permitiéndole al analista observar los signos de no linealidad, outliers o cluester que puedan afectar al modelamiento estadístico. Este tipo de gráfico también es útil si se quiere observar la influencia de una lista de variables explicativas a una variable dependiente. Por ejemplo, si se quiere ver gráficamente la relación de un conjunto de factores que pueden influir en los ingresos laborales de la persona, como es el caso de la edad (p108), las horas de trabajo (p209t) y el nivel educativo (p109b), se puede ealizar de la siguiente manera:
0
50
100
0
5
10 10
lningtot
5 0
100
edad ( en años )
50
0 100
total de horas trabajadas
50 0
10
años de estudios
5
0 0
2.4.
5
10
0
50
100
Caja y bigote
La gráfica de caja y bigote brinda información acerca del centro, amplitud, simetría y outliers con solo un vistazo. Para obtener este gráfico, se debe empelar el comando graph box. Si seguimos analizando la distribución de los ingresos laborales con un gráfico de caja y
6 4 2
lningtot
8
10
bigotes se programaría la siguiente línea de comando.
Si se quiere el mismo gráfico pero de manera horizontal, se debería usar el comando graph hbox.
2
2.5.
4
6 lningtot
8
10
Pie
Este estilo es muy popular en las presentaciones de gráficas, siempre y cuando tengan pocos valores para trabajar. El comando básico del gráfico de pastel es graph pie. Si se quiere saber la distribución de las personas por nivel educativo (p109a) que fue recodificada a una menor cantidad de niveles (sin nivel, primaria, secundaria, superior) que lleva como nuevo nombre “niveduc”, se puede obtener utilizando el comando mencionado con la opción over() para que los pedazos del pie lo conformen los cuatro niveles educativos:
Sin nivel Secundaria
2.6.
Primaria Superior
Barras
El gráfico de barras provee una simple y versátil exhibición conjunto de resúmenes estadísticos como media, mediana, suma o conteo. Para obtener barras verticales se debe utilizar el comando graph bar. Por ejemplo, si se desea comparar en un gráfico de barras el valor de la media y la mediana del ingreso laboral, se debería especificar los estadísticos a utilizar, en este caso (mean) y (median). Además, si se quiere mostrar los valores de estos estadísticos se debe
1,500
colocar la opción blabel(bar).
1440.19
0
500
1,000
1083
mean of ingtot
p 50 of ingtot
Sí que quiere las barras de manera horizontal basta con usar el comando graph hbar.
CAPÍTULO IV. MODELO DE REGESIÓN LINEAL CLÁSICO (MRLC) 1. Especificación y supuestos del MRLC En los modelos de regresión lineal se requiere explicar el comportamiento de una variable (dependiente 𝑌) a partir de otras (regresoras o explicativas 𝑋). Utilizamos el concepto de distribución de probabilidad condicionada, pues se busca conocer los estimadores de los parámetros de regresión con la finalidad de estimar finalmente el 𝐸(𝑌 | 𝑋 = 𝑥), es decir buscamos conocer el valor esperado de Y, dado que 𝑋 = 𝑥 (la variable regresora toma un determinado valor 𝑥). 𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜇𝑖 La variable 𝑦𝑖 es la variable dependiente, las variables 𝑥𝑖 son las variables explicativas o regresoras, y 𝜇𝑖 es la perturbación aleatoria o comúnmente llamado término de error. Los 𝛽 son los parámetros asociados a cada una de las variables explicativas, también llamados coeficientes de regresión y miden el impacto de cada variable independiente en relación al comportamiento de la variable endógena. Los parámetros 𝛽 son no conocidos. Sin embargo, utilizando información muestral se pueden obtener estimadores de los parámetros (o coeficientes). Dado la expresión anterior, se considera que se cumplen las siguientes hipótesis clásicas básicas:
Linealidad en los parámetros.
No singularidad o multicolinealidad. No existen relaciones lineales entre las variables explicativas o regresores y estos no son variables aleatorias.
Exogeneidad estricta o no endogeneidad. La esperanza del vector de la variable aleatoria es cero: 𝐸(𝜇) = 0.
Errores esféricos. La matriz de varianzas y covarianzas del vector de variables aleatorias es: 𝐸(𝜇𝜇′) = 𝜎 2 𝐼. Es decir, todos los componentes del vector 𝜇 tienen varianza idéntica (homoscedasticidad), y además las covarianzas son 0, es decir, los elementos del vector 𝜇 no están correlacionados (no autocorrelación).
Normalidad de los errores. La distribución de probabilidad del vector de perturbaciones aleatorias es: 𝜇~𝑁(0, 𝜎 2 𝐼), es decir, es un vector normal esférico. Por tanto, las perturbaciones son variables aleatorias independientes e igualmente distribuidas, normales con media cero y varianza 𝜎 2 𝐼. Dado que 𝑋 no es aleatoria, la distribución de probabilidad del vector 𝑌 se deriva a partir del vector de perturbaciones 𝑌~𝑁(𝑋𝛽, 𝜎 2 𝐼).
2. Estimación del MRL por el método de Mínimos Cuadrados Ordinarios (MCO) El método de Mínimos Cuadrados Ordinarios (MCO) permite encontrar los parámetros desconocidos del modelo, cuyo criterio es minimizar los errores al cuadrado del MRLC. A partir de este criterio, se puede estimar el valor de los parámetros de la siguiente manera: 𝛽̂ = (𝑋′𝑋)−1 𝑋′𝑌 Y a su vez la matriz de varianza y covarianza, que servirá para calcular los errores estándar de los estimadores, se obtiene de la siguiente relación: 𝑉𝑎𝑟(𝛽̂ ) = 𝜎 2 (𝑋′𝑋)−1 Donde el parámetro 𝜎 2 se puede estimar de la siguiente manera: 𝜇̂ ′𝜇̂ (𝑌 − 𝑋𝛽̂ )′(𝑌 − 𝑋𝛽̂ ) 𝜎̂2 = = 𝑛−𝑘 𝑛−𝑘 Siendo “n” el tamaño de la muestra y “k” el número de parámetros. A manera de un ejercicio aplicativo, se emplea la base del sistema del Stata “auto.dta”. En esta ocasión se desea explicar el precio del auto (price) en función de los millages por galón (mpg), su peso (weight) y su procedencia (foreign). Es decir: 𝑝𝑟𝑖𝑐𝑒𝑖 = 𝛽0 + 𝛽1 𝑚𝑝𝑔𝑖 + 𝛽2 𝑤𝑒𝑖𝑔ℎ𝑡𝑖 + 𝛽3 𝑓𝑜𝑟𝑒𝑖𝑔𝑛𝑖 + 𝜇𝑖 El comando en Stata para estimar un MORLC por la técnica de MCO es regress, tal y como se muestra a continuación:
Los resultados más importantes de esta regresión se detallan en el cuadro de la parte inferior, donde en la segunda columna se encuentra los coeficientes o parámetros estimados asociado a cada variable explicativa. Y en la columna de a lado, se presenta los errores estándar de estos estimadores el cual servirán como insumo para calcular el estadístico t-student, y este último a su vez servirá para calcular la probabilidad acumulada. Tanto el estadístico t-student y la probabilidad son importantes para realizar las pruebas de
significancia
individual,
para
saber
si
las
regresoras
obtenidos
influyen
significativamente o no sobre la variable dependiente. Por tanto, la hipótesis para evaluar esta significancia individual es el siguiente: Ho : 𝛽 = 0 (hipótesis nula) Ha : 𝛽 ≠ 0 (hipótesis alternativa) La regla de decisión es la siguiente:
Se acepta Ho si: t-calculado < 1.96. Si p-value > 0.05.
Se rechaza Ho si: t-calculado > 1.96. Si p-value < 0.05.
En el caso del ejemplo, se puede apreciar que para la variable “mpg” tiene un valor de tcalculado igual a
0.29, menor a 1.96, por lo cual se rechaza la hipótesis nula de
significancia individual. La misma conclusión se obtendría por el lado de la probabilidad ya que esta es 0.769 mayor al umbral de 0.05. En cuanto a la significancia conjunta del modelo, es decir, si las regresoras en conjunto explican el comportamiento de la variable dependiente, es necesario fijarnos el cuadro superior de lado derecho donde se encuentra el estadístico de Fisher. Para ello hay que observar el valor de la probabilidad Prob. > F y sigue la misma regla de la significancia individual, es decir, si es mayor a 0.05 se acepta la hipótesis nula de no significancia individual, caso contrario se rechaza esta hipótesis nula, lo cual indicar que las variables si explican significativamente en su conjunto. Para el caso del ejemplo, esta probabilidad es 0.0 menor al 0.05, por lo cual se rechaza la hipótesis nula, lo que significa que son estadísticamente significativos de manera global. Otro resultado importante es la bondad de ajuste del modelo que se mide por el Coeficiente de Determinación, o también llamado R-squared (R2). El valor de este estadístico es 0.4996 que es igual a decir 49.96%, lo que significa que el 49.96% de la variabilidad o varianza de “Price” está siendo explicada por la varianza de las variables explicativas. Se espera que mientras más cercano a la unidad este estadístico es mejor el modelo.