Brayan Ricardo Rojas O. Instructor
1
“Si oigo algo lo olvido. Si lo veo lo entiendo. Si lo hago lo aprendo”. Confucio (551-478 A.C)
2
CONTENIDO DEL CURSO MANEJO BÁSICO
1. INTRODUCCIÓN: -Qué es STATA? -Versiones de STATA -Ventajas y Desventajas
2. MANEJO DE LA INTERFAZ -Ventanas y Menús -Tipos de Archivos -Sintaxis de los comandos
3. MANEJO DE BASES DE DATOS -Abrir, importar, exportar y guardar datos -Creación, transformación, eliminación de variables y observaciones -Filtros -Combinar Bases de datos -Labels (variables y observacciones)
4. GRAFICAS -Linea -Torta (pie) -Puntos – scatter -Histogramas -Correlaciones -Caja – box plot -
5. ANÁLISIS DE DATOS -Estadísticas básicas -Tablas (frecuencias, cruzadas, etc.)
6. INFERENCIA ESTADÍSTICA - Pruebas sobre la media, varianza y proporciones 3
CONTENIDO DEL CURSO MANEJO INTERMEDIO
1. REGRESIÓN LINEAL -Qué es regresión? -Gráficas -Correlación -Regresión simple y múltiple: -Pruebas sobre coeficientes y el modelo -Elasticidades -Calculo de residuales y predicciones -Evaluación de supuestos -Normalidad -Heterocedasticidad -Multicolenalidad
2. SERIES DE TIEMPO
4
5
Stata es un paquete estadístico operado por líneas de comando, por lo cual se define como un lenguaje de programación, aunque también funciona bajo entorno gráfico (por ventanas). Ofrece alta flexibilidad, múltiples herramientas para el manejo de datos, y opciones de gráficos, lo cual facilita al principiante aprender a manejarlo. Adicionalmente, desde el programa se puede acceder a actualizaciones y bases de datos disponibles en Internet.
6
Small STATA
Versión estudiantil de STATA
Intercooled STATA
Versión estándar de STATA
STATA/SE
Versión especial de STATA para manejo de bases de datos grandes. Versión especial de STATA diseñada para trabajar en equipos con más de un procesador o núcleo (2 a 32 procesadores)
STATA/MP
7
VENTAJAS
DESVENTAJAS
1. Uso combinado de lenguaje de 1. Solo esta disponible programación y ventanas idioma Inglés 2. Manuales disponibles con información especializada 3. Actualización permanente con solo tener acceso a Internet 4. Libros técnicos especializados con aplicaciones en STATA 5. Es usado en las principales instituciones de investigación, universidades, empresas públicas y privadas alrededor del mundo. 6. Versiones para Sistemas operativos Linux, Windows y Mac. 7. Módulos especializados para análisis micro y macro. 8. Programación en Matrices
en
el
8
Introducción
9
10
BARRA DE MENÚS
BARRA DE HERRAMIENTAS 11
Tipo de Archivo Archivos de datos Archivos gráficos Bitácoras de salida Archivos de comandos
Extensión *.dta *.gph *.smcl *.do
Archivos de programación
*.ado
12
13
14
15
16
17
18
19
20
21
22
23
Uso de comandos: -list -browse -table
24
NOTA: Las variables deben tener EXACTAMENTE los mismos nombres en ambas bases de datos
25
26
27
28
1
2
29
30
31
40 Mileage (mpg)
30 20 10
2,000
3,000 Weight (lbs.)
4,000
5,000
32
33
Foreign
10
20
30
40
Domestic
2,000
3,000
4,000
5,000
2,000
3,000
4,000
5,000
Weight (lbs.) Graphs by Car type
Foreign
0
10
20
30
40
Domestic
2000
3000
4000
5000
2000
3000
4000
5000
Weight (lbs.) 95% CI Mileage (mpg) Graphs by Car type
Fitted values 34
80 70 60 50 40
1900
1920
1940
1960
1980
2000
Year Life expectancy, males
Life expectancy, females
35
6
8
10
50
60
70
80 4
Avg. annual % growth
2 0
10
lgnppc
8 6
100
safewater
50
0
80
Life expectancy at birth
70 60 50 0
2
4
0
50
100
36
Eur & C.Asia N.A. S.A.
37
-1 0
1
Avg. annual % growth
2
3
15 mean of wage
10 5 0
single
married
not college grad
single
married
college grad nonSMSA
SMSA
38
39
. sum price weight length Variable
Obs
Mean
price weight length
74 74 74
6165.257 3019.459 187.9324
Std. Dev.
Min
Max
2949.496 777.1936 22.26634
3291 1760 142
15906 4840 23340
. table foreign Car type
Freq.
Domestic Foreign
52 22
41
. tabulate foreign, plot sort Car type
Freq.
Domestic Foreign
52 22
Total
74
**************************************************** **********************
42
43
44
One-sample test of variance Variable
Obs
Mean
price
74
6165.257
Std. Err.
Std. Dev.
[95% Conf. Interval]
342.8719
2949.496
5481.914
sd = sd(price) Ho: sd = 300 Ha: sd < 300 Pr(C < c) = 1.0000
c = chi2 = degrees of freedom = Ha: sd != 300 2*Pr(C > c) = 0.0000
6848.6 7.1e+03 73
Ha: sd > 30045 Pr(C > c) = 0.0000
46
REGRESIÓN LINEAL
FUENTE: Guadalupe Ruiz Merino - Curso de Estadística
47
¿PARA QUÉ SIRVE EL ANOVA? variable independiente
Para comprobar si una variable con más de dos categorías (“factores”) tiene relación con una segunda variable que es cuantitativa variable dependiente
A esta segunda variable que supone la respuesta al factor se le llama variable dependiente Pretendemos demostrar que depende de la otra variable (factor)
El factor es, por lo tanto, la variable independiente 48
INTRODUCCIÓN A LA REGRESIÓN RECORDATORIO… Hay dos problemas que no se pueden solucionar con el análisis de la varianza: 1
LA REGRESIÓN VIENE El ANOVA se queda corto A RESOLVER ESTOS DOS PROBLEMAS ¿Cuánto Indica si hay o no una asociación estadística entre dos variables, pero no define exactamente cuál es la magnitud de esa relación
2
aumenta la variable dependiente por cada unidad de aumento de la independiente?
Hay factores que tienen tantas categorías que realmente se parecen más a una variable cuantitativa, o puede que nos interese usar como variable independiente una variable que es cuantitativa
49
DEFINICIÓN DE CORRELACIÓN
Se considera que dos variables cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían de forma sistemática conforme a los valores de la otra.
50
EL COEFICIENTE DE CORRELACIÓN DE PEARSON El coeficiente de correlación de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre las variables Es una medida de la relación lineal entre dos variables medidas con escala numérica
51
EL COEFICIENTE DE CORRELACIÓN DE PEARSON Su resultado es un valor que fluctúa entre -1 y +1… +1
Relación perfecta en sentido positivo
0
Cuanto más cercanos a 0 sean los valores significará una relación más débil o incluso ausencia de relación
-1
Relación perfecta en sentido negativo
52
El valor del coeficiente de correlación está muy influenciado por los valores extremos, igual que la desviación estándar. Por tanto la correlación no describe bien la relación entre dos variables cuando cada una de ellas tiene valores extremos En estos casos debe hacerse una transformación de los datos o usarse la correlación de Spearman 53
Finalmente, correlación no es igual a causa Correlación = Causa El juicio de que una característica causa otra debe justificarse con argumentos, no sólo con el coeficiente de correlación
54
EL COEFICIENTE DE CORRELACIÓN DE PEARSON Según su valor la relación entre las variables será: 1 0,9
0,8
Perfecta Excelente Buena Regular
0,5
Mala 55
DIAGRAMAS DE DISPERSIÓN Un DIAGRAMA DE DISPERSIÓN ofrece una idea bastante aproximada sobre el tipo de relación existente entre dos variables Un DIAGRAMA DE DISPERSIÓN también puede utilizarse como una forma de cuantificar el grado de relación lineal existente entre dos variables
56
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
COEFICIENTE DE PEARSON – REPRESENTACIÓN GRÁFICA
DIAGRAMAS DE DISPERSIÓN El DIAGRAMA DE DISPERSIÓN permite formarse una primera impresión sobre el tipo de relación existente entre variables Intentar cuantificar esa relación tiene inconvenientes porque la relación entre dos variables no siempre es perfecta o nula
Normalmente ni lo uno ni lo otro 59
INTRODUCCIÓN A LA REGRESIÓN Como hemos visto, la correlación sirve para medir la fuerza con que están asociadas dos variable cuantitativas Esa fuerza se expresa con un número
COEFICIENTE DE CORRELACIÓN
La regresión sirve para detallar más… Está dirigida a describir de una manera más completa cómo es la relación entre ambas variables… …de tal manera que se puede predecir (con un cierto margen de error) cuál va a ser el valor de una variable una vez que se sabe el valor de la otra 60
INTRODUCCIÓN A LA REGRESIÓN
Si la asociación entre ambas variables es débil
Esta predicción puede ser bastante imprecisa
Pero cuando la asociación es fuerte…
La regresión nos ofrece un modelo estadístico que puede alcanzar finalidades predictivas
61
INTRODUCCIÓN A LA REGRESIÓN MODELOS DE REGRESIÓN Una vez que sabemos que dos variables están relacionadas… ¿Cómo averiguar qué tipo de relación tienen?
Para esto regresión
utilizamos
los
modelos
de
62
INTRODUCCIÓN A LA REGRESIÓN CONCEPTO DE REGRESIÓN
¿QUÉ ES?
¿PARA QUÉ SIRVE?
La regresión como técnica estadística analiza la relación de dos o más variables continuas La regresión se utiliza para inferir datos a partir de otros y hallar una respuesta a lo que pueda suceder
63
INTRODUCCIÓN A LA REGRESIÓN
DIFERENCIA ENTRE CORRELACIÓN Y REGRESIÓN:
La correlación es independiente de la escala pero no la regresión
EJEMPLO
SIN EMBARGO…
La correlación entre estatura y peso es la misma sin importar que la estatura se mida en metros o centímetros La ecuación de regresión entre el peso y la estatura depende de las unidades que utilicemos 64
INTRODUCCIÓN A LA REGRESIÓN variable indepediente o predictora
La regresión supone que hay una variable fija, controlada por el investigador y otra variable que no está controlada variable de respuesta o dependiente
La correlación supone que ninguna variabe es fija, las dos están fuera del control del investigador
65
INTRODUCCIÓN A LA REGRESIÓN SIMILITUDES ENTRE CORRELACIÓN Y REGRESIÓN:
La pendiente de la línea de regresión tiene el mismo signo que el coeficiente de correlación ¡OJO! La correlación y la regresión sólo describen relaciones lineales. Si los coeficientes de correlación y las ecuaciones de regresión se calculan a ciegas, sin examinar las gráficas, los investigadores pasarán por alto relaciones muy estrechas pero no lineales
66
INTRODUCCIÓN A LA REGRESIÓN VARIABLES DE LA REGRESIÓN Las variables cuantitativas
del
modelo
de
regresión
deben
ser
Dada la robustez de la regresión es frecuente encontrar incluidas como variable independiente variables nominales La variable dependiente debe ser siempre cuantitativa Robustez: un estadístico se dice que es robusto cuando es válido aunque no se cumpla alguno de sus supuestos
67
INTRODUCCIÓN A LA REGRESIÓN TIPOS DE REGRESIÓN Se pueden regresión
encontrar
distintos
1
Regresión Lineal
2
Regresión Múltiple
3
Regresión Logística
tipos
de
68
INTRODUCCIÓN A LA REGRESIÓN La regresión en su forma más sencilla se llama regresión lineal simple
Técnica estadística que analiza la relación entre dos variables cuantitativas, tratando de verificar si dicha relación es lineal Sin embargo, a diferencia de lo que ocurría con la correlación, ahora no se puede considerar que ambas variables tengan un papel simétrico 69
INTRODUCCIÓN A LA REGRESIÓN En la regresión, cada una de las dos variables desempeña una función diferente y en consecuencia tienen una consideración distinta: variable respuesta A la variable respuesta se le llama variable dependiente y ocupa el eje de ordenadas (eje vertical o de la ”y”) A la variable predictora o “causa” se le denomina variable independiente y ocupa el eje de abcisas (eje horizontal)
variable predictora Suele ser un factor previamente determinado o una característica más fácil de medir que la que se pretende 70 explicar a partir de ella
INTRODUCCIÓN A LA REGRESIÓN ALGUNAS ACLARACIONES… La correlación y la regresión tienen distintas finalidades Es bastante raro que esté indicado aplicar simultáneamente ambas técnicas para alcanzar los objetivos de un determinado análisis estadístico Con frecuencia se confunden ambas técnicas y se piensa que son una sola
71
INTRODUCCIÓN A LA REGRESIÓN
OBJETIVO DE LA CORRELACIÓN
Medir el grado o fuerza de la asociación entre dos variables cuantitativas A través del coeficiente de correlación
No estima la bondad del ajuste de unos datos a un modelo OBJETIVO DE LA REGRESIÓN
Buscar la línea que mejor se ajusta a los puntos 72
INTRODUCCIÓN A LA REGRESIÓN REGRESIÓN LINEAL Consideremos una variable aleatoria respuesta Y, relacionada con otra variable que llamaremos explicativa X Supongamos una muestra de n individuos para los que se conocen los valores de ambas variables Hacemos una representación gráfica: en el eje X la explicativa en el Y la respuesta
variable
Y
Variable aleatoria
X
Variable explicativa
n
Muestra 73
INTRODUCCIÓN A LA REGRESIÓN REGRESIÓN LINEAL
OBJETIVO
Encontrar una recta que se ajuste a la nube de puntos
A partir de esa recta podemos usar los valores de X para predecir los de Y Normalmente se utiliza el “método de los mínimos cuadrados” que minimiza la distancia de las observaciones a la recta
74
INTRODUCCIÓN A LA REGRESIÓN REPRESENTACIÓN GRÁFICA
Una recta tiene una ecuación muy simple:
Y=a+bX b
Habría que calcular los coeficientes a,b.
a
b
es la pendiente de la recta
a es el punto en que la recta corta el eje vertical 75
INTRODUCCIÓN A LA REGRESIÓN REGRESIÓN LINEAL Conociendo los valores de estos dos coeficientes podríamos reproducir la recta y describir con ella la relación entre las variables Además de representar la recta con su fórmula también es útil disponer de alguna información sobre el grado en que la recta se ajusta a la nube de puntos
76
INTRODUCCIÓN A LA REGRESIÓN Obtenemos el siguiente resultado…
¿Qué está pasando?
Dispersión separados
de
los
¿Cuál es el problema?
datos:
los
datos
están
muy
Por eso no se observa ninguna tendencia ¿QUÉ HACER?
Aplicamos transformaciones logarítmicas
Es una opción siempre que tengamos datos dispersos
INTRODUCCIÓN A LA REGRESIÓN EJEMPLO El ejemplo más intuitivo es cómo se relacionan la talla y la edad Por cada incremento de edad (por lo menos hasta los 25 años) se produce un incremento de altura. Es decir…
y = a + b*x constante llamada ordenada en origen (en nuestro caso: cuánto mediría un recién nacido)
el
pendiente: incremento de y por cada unidad de incremento de x (en nuestro caso: cuántos centímetros crece un niño al año)
INTRODUCCIÓN A LA REGRESIÓN EJEMPLO Sin embargo, a pesar de ser este un modelo de fácil comprensión, tiene errores… Nunca será posible hacer predicciones perfectas de la estatura que tendrá un niño una vez que se conoce su edad
Aunque la edad tiene un efecto importante sobre la estatura, este efecto está afectado por un cierto grado de variabilidad aleatoria
INTRODUCCIÓN A LA REGRESIÓN EJEMPLO Las observaciones de dos variables no suelen trazar una línea recta perfecta sino que existe un cierto grado de dispersión entorno a una imaginaria línea recta que los atravesaría por el centro error residual: expresa el desajuste de los datos respecto al modelo lineal es una cantidad variable de un sujeto a otro y puede ser positiva o negativa
y = a + b*x + e
e
equivale a lo que habría que añadir o quitar a la predicción que hace el modelo para que coincida exactamente con lo observado en cada sujeto
INTRODUCCIÓN A LA REGRESIÓN La ecuación anterior nos plantea una serie de preguntas… ¿Hasta qué punto es importante ese error? ¿Qué porcentaje de la variabilidad en la talla puede ser explicado por efecto de la edad y cuál no es explicado? Para resolver estos interrogantes nos adentramos en los modelos de regresión
Modelo de Regresión BONDAD DEL AJUSTE Una medida de ajuste muy aceptada es el
coeficiente determinación R2
de
Cuadrado del coeficiente de correlación lineal
Se trata de una medida estandarizada que toma valores entre 0 y1 R2=0.86
La recta explica un 86% de la variabilidad de Y en función de X
Modelo de Regresión COEFICIENTE DE DETERMINACIÓN R2
R2
INTERPRETACIÓN
Coeficiente muy importante en regresión, ya que compara lo explicado por la regresión
lineal con la variabilidad total
Porcentaje de la variabilidad total de la variable dependiente que es explicada por la variable independiente
Modelo de Regresión COEFICIENTE DE DETERMINACIÓN R2 Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimo
VALORES
+1
0
La recta daría una explicación perfecta, es decir, los valores de “y” están totalmente determinados por la “x”
La recta no explica nada, es decir, no existe asociación entre “x” e “y”
Modelo de Regresión COEFICIENTE DE DETERMINACIÓN R2 Los posibles valores para R2 van desde 1, que es el máximo, a 0 que es el mínimo
VALORES
+1
0
Cuando más próximo a 1 sea R2 mayor es la fuerza de la asociación entre ambas variables
Modelo de Regresión COEFICIENTE DE DETERMINACIÓN R2 La raíz cuadrada de R2 se llama r
R2 = r
Sólo se escribe con mayúscula (R) cuando hay varias variables independientes Entonces se llama coeficiente de correlación múltiple o R múltiple Esta r es precisamente el coeficiente de correlación de Pearson
Modelo de Regresión COEFICIENTE DE DETERMINACIÓN R2 Salvo en los casos extremos de que R2 valga 0 o 1, la magnitud de r es siempre superior a la de R2 para R2 ≠ 0,1 r >R2
REPERCURSIONES PRÁCTICAS
Una correlación puede parecer muy buena, por ejemplo r=0,7, y sin embargo el modelo lineal explicaría menos del 50% de lo observado
R2 = 0,49
Modelo de Regresión ECUACIÓN DE REGRESIÓN El objetivo más importante de un análisis de regresión lineal suele ser el cálculo del valor de la pendiente de la recta
b
= pendiente de la recta o coeficiente de regresión mide el cambio de la variable “y” por cada unidad de cambio de “x” Su magnitud sirve para predecir en cuánto aumentará “y” cada vez que “x” se incremente en una unidad Su signo puede ser positivo o negativo, y en esto la interpretación coincide con la correlación
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: 1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: 1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
4
Se refiere no sólo a que la variable “y” siga una distribución normal, sino que además, para cada valor de “x”, la distribución de posibles Homogeneidad de las varianzas valores de “y” también siga una normal
Independencia de las observaciones
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: 1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Que exista una relación lineal subyacente entre la variable “x” y la variable “y”
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: 1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Homogeneidad de las varianzas
4
Independencia de las observaciones
Se conoce como homoscedasticidad
SUPUESTOS DEL MODELO DE REGRESIÓN Para poder realizar una regresión lineal se deben asumir cuatro supuestos: 1
Normalidad de la distribución condicional de la variable “y”
2
Linealidad
3
Cada observación de la variable “y” debe ser independiente de las demás Homogeneidad de las varianzas
4
Independencia de las observaciones
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN POR EJEMPLO
Un estudio en el que “y” que representa el número de acudientes en un colegio
Si existiesen estudiantes con el mismo acudiente
Hay dos observaciones por acudiente que están autocorrelacionadas entre sí ¡No son independientes!
POR TANTO…
Habría que considerar como N al número de estudiantes y no al número de brazos
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN OTRO EJEMPLO
Número de casos de gripa en la región en un año
Es decir, el segundo valor “y” no es independiente sino que está condicionado por el primero, el tercero por el segundo y así sucesivamente
A este efecto se le llama autocorrelación
Modelo de Regresión SUPUESTOS DEL MODELO DE REGRESIÓN OTRO EJEMPLO
Número de casos de gripa en la región en un año
La autocorrelación exige aplicar técnicas especiales que se agrupan bajo el concepto de series temporales
Estas series se utilizan mucho en economía, y cada vez van teniendo más interés para aplicaciones en ciencias sociales
Modelo de Regresión REGRESIÓN LINEAL PRIMER PASO
OBJETIVO
Pedir a SPSS un gráfico de dispersión Apreciar visualmente si se puede asumir un modelo lineal entre ambas variables
¿Cuándo ajustaremos una regresión?
Cuando la nube de puntos nos sugiera que existe una
relación lineal
Modelo de Regresión USOS E INTERPRETACIÓN DE UNA REGRESIÓN LINEAL ¿Cuál es la utilidad más interesante de esta recta de regresión?
Representa lo que idealmente sería la unión de las diferentes medias que va tomando “y” para cada grupo de valores de “x” ES DECIR…
cuál es la media de “y” a medida que “x” va cambiando
Errores comunes de la regresión Un error común en el análisis de regresión se presenta cuando se hacen en el mismo individuo múltiples observaciones y se tratan como si fueran independientes Considérese 10 empresas de quienes se ha registrado el número de trabajadores y sus activos antes de empezar una reestructuración
POR EJEMPLO
Tamaño de la muestra
N = 10
RESULTADO
Variables # trabajadores
ACTIVOS
Puede esperarse una moderada relación positiva entre el # de trabajadores y los activos de la empresa
Errores comunes de la regresión Ahora supóngase que las mismas 10 empresas se encuestan a los seis meses de la reestructuración
Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas: 1
El tamaño de la muestra parecería ser de 20 en vez de 10
2
El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadas
Errores comunes de la regresión Ahora supóngase que las mismas 10 empresas se encuestan a los seis meses de la reestructuración
Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas: 1
2
El tamaño de la muestra parecería ser de 20 en vez de 10 Podría concluirse (erróneamente con El uso de ambas observaciones tiene el mismo efecto ) una mayor probabilidad significancia
que usar mediciones duplicadas
Errores comunes de la regresión Ahora supóngase que las mismas 10 empresas se encuestan a los seis meses de la reestructuración
Si las 20 observaciones se tratan como si fueran independientes se presentarían varios problemas: 1
2
Esto es debido a que la como resultado una relación entre elparecería # de serDa El tamaño de la muestra de 20 en vez de de lo correlación mayor trabajadores y los activos 10 que en realidad debe ser es estable en la misma empresa
El uso de ambas observaciones tiene el mismo efecto que usar mediciones duplicadas
Errores comunes de la regresión Se pueden también obtener conclusiones inadecuadas si se mezclan dos poblaciones diferentes POR EJEMPLO
Considérese la relación entre estatura y peso corporal
Recogemos una muestra de 10 hombres y 10 mujeres y se calcula la correlación entre peso y estatura combinando las muestras
El procedimiento de Regresión Lineal permite utilizar más de una variable independiente y permite llevar a cabo análisis de regresión múltiple En el análisis de regresión múltiple la ecuación ya no define una recta en el plano, sino un hiperplano en un espacio
multidimensional
Regresión lineal Múltiple Con una variable dependiente y dos independientes…
…necesitamos tres ejes para poder representar el diagrama de dispersión
Regresión lineal Múltiple Si en lugar de utilizáramos tres…
dos
variables
independientes
…sería necesario un espacio de cuatro dimensiones para poder construir el diagrama de dispersión
Con más de una variable independiente, la POR TANTO
representación gráfica de las relaciones presentes en un modelo de regresión resulta
poco intuitiva, muy complicada y nada útil
Regresión lineal Múltiple Es más fácil y práctico partir de la ecuación del
modelo de regresión lineal:
Y = β0 + β1*X1 + β2*X2 +……..+ βk*Xk + ε
dependiente Y se interpreta como una como una La variable variable dependiente Y se interpreta combinación lineal lineal de un deconjunto un conjunto de K variables de K variables va va acompañada de un independientes, cada cada una unade delas lascuales cuales acompañada de un coeficiente β, β, que queindica indicaelelpeso peso relativo relativo dede esaesa variable variable en la en la ecuación La ecuación incluye un componente aleatorio (los residuos ε) que recoge todo lo que las variables independientes no son capaces de explicar
Regresión lineal Múltiple SELECCIÓN DE LAS VARIABLES DE REGRESIÓN El control sobre las variables utilizadas para construir el modelo de regresión recae sobre el propio analista
Es el analista quien decide qué variables independientes desea incluir en la ecuación de regresión seleccionándolas él mismo de la lista de variables independientes que tiene v. independiente 1 v. independiente 2 v. independiente 3 …..
analista
ecuación de regresión
Métodos de Regresión SELECCIÓN DE LAS VARIABLES DE REGRESIÓN Sin embargo son frecuentes situaciones en las que…
No existe una teoría o un trabajo previo que oriente al analista en la elección de las variables relevantes El número de variables independientes es muy elevado
Para afrontar estas situaciones existen procedimientos diseñados para seleccionar, entre una gran cantidad de variables, sólo aquellas que permiten obtener el mejor ajuste posible
Métodos de Regresión CRITERIOS DE SELECCIÓN DE LAS VARIABLES Existen diferentes criterios para seleccionar variables en un modelo de regresión: 1
El valor del coeficiente de correlación múltiple R2
2
El coeficiente de correlación parcial entre cada variable independiente y la dependiente
3
El grado de reducción del error típico cada vez que se incorpora una variable
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Existen diferentes métodos para seleccionar las variables independientes que debe incluir un modelo de regresión Los de mayor aceptación son los métodos de selección por
pasos (stepwise)
En primer lugar se selecciona la mejor variable, de acuerdo a algún criterio estadístico A continuación, la mejor de las restantes …y así sucesivamente hasta que ya no quedan variables que cumplan los criterios de selección
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Las variables se incorporan al modelo de regresión Método hacia una aatrás una
3
PRIMER PASO: se selecciona la variable independiente que, además de superar los criterios Pasos sucesivos de entrada, más alto correlaciona (positiva o negativamente) con la dependiente
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
SIGUIENTES PASOS: se utiliza como criterio de Método hacia atrásel coeficiente de correlación parcial. selección
3
Van siendo seleccionadas una a una las variables que poseen el coeficiente de correlación parcial Pasos sucesivos más alto en valor absoluto La selección de variables se detiene cuando no quedan variables que superen el criterio de entrada
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
Comienza incluyendo en el modelo todas las variables independientes, para luego proceder a Pasos sucesivos eliminarlas una a una PRIMER PASO: se elimina aquella variable que, además de cumplir los criterios de salida, posee el coeficiente de regresión más bajo en valor absoluto
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
SIGUIENTES PASOS: Se van eliminando las variables con coeficientes de regresión no significativos
Pasos sucesivos
La eliminación de variables se detiene cuando no quedan variables en el modelo que cumplan los criterios de salida
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
Mezcla de anteriores
los
dos
métodos
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos Comienza al igual que el método hacia delante, seleccionando en el primer paso la variable independiente que además de superar los criterios de entrada más altos correlaciona con la variable dependiente
Métodos de Regresión MÉTODOS DE SELECCIÓN DE VARIABLES Los métodos de selección más utilizados son: 1
Método hacia delante
2
Método hacia atrás
3
Pasos sucesivos
A continuación se selecciona la variable independiente
12 1
Se llama Series de Tiempo a un conjunto de observaciones sobre valores que toma una variable (cuantitativa) en diferentes momentos del tiempo, a lo que llamaremos Períodicidad.
12 2
Hoy en día diversas organizaciones requieren conocer el comportamiento futuro de ciertos fenómenos con el fin de planificar, prevenir,es decir, se utilizan para predecir lo que ocurrirá con una variable en el futuro a partir del comportamiento de esa variable en el pasado.
12 3
En las organizaciones es de mucha utilidad en predicciones a corto y mediano plazo, por ejemplo ver que ocurriría con la demanda de un cierto producto, las ventas a futuro, decisiones sobre inventario, insumos, etc.... No así para el diseño de un proceso productivo ya que no se disponen de datos históricos y se trata de un proyecto a largo plazo
12 4
1. 2. 3. 4. 5.
El horizonte de tiempo para realizar la proyección. La disponibilidad de los datos. La exactitud requerida. El tamaño del presupuesto de proyección. La disponibilidad de personal calificado.
12 5
año
Trim. 1 Trim. 2 Trim. 3 Trim. 4
1 2 3
0,300 0,330 0,495
0,460 0,545 0,680
0,345 0,440 0,545
0,910 1,040 1,285
4 5 6 7 8
0,550 0,590 0,610 0,700 0,820
0,878 0,990 1,050 1,230 1,410
0,660 0,830 0,920 1,060 1,250
1,580 1,730 2,040 2,320 2,730
ganancias 3,00 2,75 2,50 2,25 2,00 1,75 1,50 1,25 1,00 0,75 0,50 0,25 0,00 0
2
4
6
8
10 12 14 16 18 20 22 24 26 28 30 32 34
12 7
Mes Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
1999 6265,6 5822,1 6647,8 6320,9 6781,5 6484,5 6636,2 6583,4 6546,8 6690,9 6588,1 6592,2
2000 6356,8 6194,9 6664 6556,3 7034,9 6809,7 6921,2 7116,2 6784,2 7110,7 7001,1 7150
2001 6953,2 6263,6 7261,1 7039,6 7305,5 7239,3 7386,6 7502,1 7288 7609,3 7424,7 7618,6
2002 7428,1 6755,8 7389,7 7231,9 7627,7 7339,9 7597,2 7720,5 7555,6 7835,1 7637,5 7027,5
2003 6760,9 6486,1 7445,5 7345,2 7703,3 7340,4 7621,7 7685,7 7543,4 7897,2 7657,3
12 8
Consumo Mensual 8500 8000 7500 7000 6500 6000 5500
57
53
49
45
41
37
33
29
25
21
17
13
9
5
1
5000
12 9
Establecer un “modelo probabilístico” hipotético que represente los datos (puede ser mas de uno) Habiendo escogido un modelo (o familia de modelos), estimar los parámetros.
13 0
Para el modelo estimado, verificar la “bondad de ajuste a los datos Usar el modelo ajustado para intensificar nuestra comprensión del mecanismo que genera la serie.
13 1
Tendencia: componente a largo plazo
Efecto estacional: patrón de cambio que ocurre periódicamente
Efecto cíclico: fluctuación (o dinámica del proceso) que no es explicada ni por la tendencia ni por la estacionalidad. Efecto aleatorio: variabilidad debido al azar que se observa después de retirar los otros componentes 13 2
140,00 120,00 100,00 80,00 60,00 40,00 20,00 0,00 0
5
10
15
20
25
30
35
40
45
50
55
13 3
Tendencia y efecto estacional 120 100 80 60 40 20 0 -20
0
5
10
15
20
25
30
35
40
45
50
55
-40
13 4
componente aleatorio 15,00 10,00 5,00 0,00 -5,00
0
10
20
30
40
50
-10,00 -15,00
13 5
13 6
Desestacionalización:
• Métodos alternativos: • Diferencias sobre la media móvil • Ratios sobre la media móvil • X-11 /X-11 ARIMA / X-12 • Métodos basados en el Proceso Generador de Datos y Análisis en el dominio de las frecuencias (TRAMO/SEATS)
13 7
INTRODUCCIÓN A LOS MODELOS ARIMA Presentación: •Los modelos ARIMA responden al acrónimo de procesos AutoRregresivos, Integrados, y Medias móviles (Moving Average), y fueron planteados inicialmente por George Box y Gwilym Jenkins en 1970 en su obra “Time Series Analysis: Forecasting and Control (Holden Day, San Francisco, USA)” como una alternativa a la modelización y predicción tradicional mediante modelos estructurales.
13 8
•
La idea subyacente fundamental consiste en admitir que las series temporales son generadas mediante un Proceso Generador de Datos que puede ser identificado y cuantificado y que, por tanto, pueden ser inferidos sus valores a futuro.
•
En este sentido enlaza con los métodos clásicos de predicción basados en la identificación de los componentes de una serie temporal.
13 9
INTRODUCCIÓN A LOS MODELOS ARIMA Presentación:
• En efecto cuando realizamos una predicción de la evolución de una determinada serie temporal mediante la descomposición en los componentes estacional, tendencial, cíclico e irregular, el procedimiento que seguimos consiste en identificar comportamientos regulares a lo largo de la serie (movimientos estacionales, tendenciales y cíclicos ) y extrapolarlos a futuro, asumiendo que los comportamientos irregulares tendrán un efecto promedio nulo.
14 0
En el caso de los modelos ARIMA identificaremos igualmente una serie de comportamientos regulares asociados a procesos de evolución temporal conocidos (Procesos de integración, autorregresivos y de Medias móviles) que interactúan con procesos completamente aleatorios (Ruido blanco).
14 1
1. Identificación tentativa del modelo
2. Estimación de los parámetros del modelo
3. Evaluación de diagnósticos para comprobar si el modelo es adecuado; mejorar el modelo si es necesario.
4. Generación de Pronósticos 14 2
¿Estacionario?
No Sí Determinar qué tipo de modelo es el adecuado
Transformar los datos (primera diferencia)
Sí
No Transformar los datos (segunda diferencia)
Estimar los parámetros del modelo Diagnósticos
¿Estacionario?
Sí Pronósticos
¿Estacionario?
No transformaciones más complejas 14 3
Procesos estocásticos elementales: Ruido Blanco
El denominado ruido blanco es un proceso estocástico que presenta media nula, varianza constante y covarianza nula para cualquier valor de k, si además la distribución es normal, se denomina Ruido Blanco Gaussiano. E at 0
E at2 a2 Cov(at , at k ) 0 k
Este tipo de procesos es estrictamente estacionario.
144
Procesos estocásticos elementales: Caminata aleatoria. La caminata aleatoria es un proceso tal que la diferencia entre dos valores consecutivos de la variable se comporta como un ruido blanco. Zt Zt 1 at o bien Zt Zt 1 at Si existe una tendencia sistemática en el cambio se denomina camino aleatorio con deriva. Zt Zt 1 m at o bien Zt m Zt 1 at El camino aleatorio es no estacionario en varianza mientras que si tiene deriva tampoco lo es en media.
145
Procesos estocásticos elementales: Proceso Autorregresivo. Definimos un proceso autorregresivo de primer orden AR(1) como un proceso aleatorio que responde a una expresión del tipo Zt 0 1Zt 1 at o bien Zt 1Zt 1 at con Zt Zt 0 Los procesos autoregresivos pueden generalizarse al orden p AR(p) sin más que añadir términos retardados en la expresión general.
Zt 0 1Zt 1 2 Zt 2 ... p Zt p at
14 6
Procesos estocásticos elementales: Medias móviles. Definimos una media móvil de primer orden MA(1) como un proceso aleatorio que responde a una expresión del tipo Zt at 1at 1 con Zt en diferencia s a la media
Los procesos de medias móviles son estacionarios y, al igual que los autoregresivos pueden generalizarse al orden q MA(q) sin más que añadir términos retardados en la expresión general.
Zt at 1at 1 2 at 2 ... q at q 14 7
Procesos estocásticos elementales: Procesos integrados. Un proceso integrado es aquel que puede convertirse en estacionario aplicando diferencias. Así, por ejemplo, un camino aleatorio sería un proceso integrado de orden 1 I(1), ya que puede convertirse en estacionario tomando primeras diferencias. Definimos el orden de integración de un proceso como el número de diferencias que debemos aplicarle para convertirlo en estacionario. En el contexto de las series económicas los órdenes de integración más frecuentes son 1 ó 2 I(1) ó I(2). En algunas ocasiones las diferencias deben aplicarse sobre el valor estacional. Zt Zt s et con s 4 ó 12 et estacionar io 148
Proceso Generador de Datos. Mediante la adecuada combinación de estos procesos elementales: integración, AR(p), y MA(q) podemos representar la evolución de cualquier serie temporal.
Yt 1Yt 1 2Yt 2 pYt p at 1at 1 2 at 2 p at p
q B Yt p B q B at Yt at p B
con Yt Yt Yt 1 Yt 1 B
Para la series que presentan estacionalidad se pueden reproducir los mismos procesos sobre el orden estacional s (s=4 trimestrales, s=12 mensuales) Integración estacional
sYt Yt Yt s Yt 1 B
s
SAR(p)
Zt s1Zt s s 2 Zt 2 s sp Zt 2 p at
SMA(q)
Zt at s1at s s 2 at 2 s sq at 21q 4 9
Herramientas de identificación: Correlograma. Denominamos correlograma a una representación gráfica de las funciones de Autocorrelación total (FAC) y parcial (FAP). Las funciones de autocorrelación recogen los valores de los diferentes coeficientes de autocorrelación de una serie para distintos desfases k. El coeficiente de autocorrelación para un determinado desfase k se define como:
Cov( Z t , Z t k ) k k k Var ( Z t ) Var ( Z t k ) o o 0 Si el proceso Zt es estacionario 15 0
Herramientas de identificación: Correlograma. Asumiendo la estacionariedad y ergodicidad del proceso los coeficientes de autocorrelación pueden aproximarse como: ˆ k
ck c0
1 N ck ˆk N Z t Z Z t k Z t k 1 con N 1 2 c0 ˆ0 Z t Z N t 1
La función de autocorrelación parcial estaría formada por los correspondientes coeficientes de autorcorrelación parcial, que miden la relación entre los valores desfasados k periodos una vez eliminados o filtrados los efectos de la correlación entre los restantes desfases. Las bandas de confianza para la FAC y la FAP se aproximan como: 1 1 p 1,96 * o j 0 N N
15 1
15 2
15 3
15 4
15 5
estacionario FAC se corta
modelo de medias móviles (MA) ¿Dónde se corta La FAC? Número de rezagos (períodos) a incluir
FAC Parcial se extingue
FAC se extingue
FAC se extiingue FAC parcial se extingue
modelo mixto
FAC Parcial se corta modelo
autoregresivo (AR) ¿Dónde se corta la FAC P ? Número de rezagos (períodos) a incluir 15 6
En Stata, se utiliza el comando arima. Por ejemplo, para estimar un modelo autorregresivo con dos rezagos: ◦ arima y, ar(1/2) de medias móviles en una primera diferencia, con tres rezagos: ◦ arima D.y, ma(1/3) mixto, con una segunda diferencia y un rezago tanto para las medias móviles como para lo auto-regresivo: ◦ arima D2.y, ma(1) ar(1) 15 7
Se debe eliminar una variable del modelo si no cumple con cualquiera de las siguientes condiciones equivalentes:
t t
nn p / 2
p valor
Así se puede parsimonioso.
lograr
que
el
modelo
sea
15 8
1.
2.
3.
Análisis de residuos
La mejor estadística para determinar si el modelo es adecuado, es la estadística Ljung-Box. Si el valor-p de la estadística Ljung-Box es menor que .01, es evidencia muy fuerte de que el modelo no es adecuado. Análisis de autocorrelación de residuos para identificar espigas: ◦ RFAC ◦ RFACP
15 9
En Stata, se utiliza el comando armadiag (findit arimadiag) después de haber corrido el modelo arima. Genera cuatro gráficas: ◦ residuos ◦ valores-p de la estadística Q* ◦ RFAC ◦ RFPAC
16 0
Se sigue el mismo procedimiento que para no estacionales, pero incluyendo rezagos del número de períodos en el año. Por ejemplo: ◦ arima y, ma(1 12) ◦ arima D.y, ar(1 2 4) ◦ arima D.z, ar(1 3 5) ma(12) donde z = y-L12.y
16 1
arima y, ma(1 2) ar(1 2) corre el modelo mixto en los datos originales, con dos rezagos y dos choques. arima D.y, ma(1) corre un modelo de medias móviles en los datos transformados con una primera diferencia, con un período de rezago. ac y grafica la FAC de los datos originales pac D2.y grafica la FACP de los datos transformados con una segunda diferencia. STATA utiliza el método de maximum likelihood (a diferencia de SAS y MINITAB, que utilizan OLS). Box, Jenkins y Reinsel (1994) prefieren maximum likelihood. noconstant opción elimina el constante del modelo armadiag para las herramientas de diagnóstico (hay que instalarlo.) 162
Jeffrey M. Wooldridge: “Introductory Econometrics: A Modern Approach”, 2nd Edition Eva Medina Moral, Profesora Economía Aplicada (UAM)
Guadalupe Estadística
Ruiz
Merino
-
Curso
de
16 3