AULA POLITÈCNICA 64
Series temporales
AULA POLITÈCNICA / ETSEIT
Montserrat Pepió Viñals
Series temporales
Primera edición: septiembre 2001
Diseño de la cubierta: Manuel Andreu
©
Montserrat Pepió Viñals, 2001
©
Edicions UPC, 2001 Edicions de la Universitat Politècnica de Catalunya, SL Jordi Girona Salgado 31, 08034 Barcelona Tel.: 934 016 883 Fax: 934 015 885 Edicions Virtuals: www.edicionsupc.es E-mail:
[email protected]
Producción:
Barcelona Digital, SL Rosselló 77, 08029 Barcelona
Depósito legal: B-29.192-2001 ISBN: 84-8301-526-9 Quedan rigurosamente prohibidas, sin la autorización escrita de los titulares del copyright, bajo las sanciones establecidas en las leyes, la reproducción total o parcial de esta obra por cualquier medio o procedimiento, comprendidos la reprografía y el tratamiento informático, y la distribución de ejemplares de ella mediante alquiler o préstamo públicos.
p9
Índice
ÍNDICE TEORÍA DE SERIES TEMPORALES 1 Introducción
2 Análisis de una serie temporal 2.1 2.2
Modelización por componentes ..............................................................................14 Enfoque Box – Jenkins ...........................................................................................19
3 Descomposición de una serie temporal 3.1 3.2 3.3 3.4
Medias móviles: tendencia......................................................................................24 Estacionalidad ........................................................................................................27 Caso temperaturas .................................................................................................31 Caso usuarios transporte público............................................................................37
4 Modelización con variables categóricas 4.1 4.2
Comparación del método de descomposición con el de variables categóricas .......48 Caso usuarios de un teléfono .................................................................................52
5 Autocorrelación 5.1 5.2
Correlograma..........................................................................................................58 Interpretación de los correlogramas........................................................................63
6 Otras técnicas de previsión: ponderación exponencial 6.1 6.2 6.3
Suavizado exponencial...........................................................................................65 Selección del factor de ponderación .......................................................................67 Método de Brown ...................................................................................................72
7 Otros ejemplos 7.1 7.2
Ventas de papel......................................................................................................77 Generación de electricidad .....................................................................................81
p10
Series temporales
PRÁCTICAS DE SERIES TEMPORALES CON EXCEL Práctica1. Descomposición clásica de una serie aditiva 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
Recuperación de los datos .....................................................................................89 Análisis de la evolución de la serie cronológica ......................................................90 Estabilización de la serie ........................................................................................94 Estacionalidad ........................................................................................................96 Estimación de la tendencia ...................................................................................100 Modelo y residuos ................................................................................................103 Previsiones ...........................................................................................................105 Resultados ...........................................................................................................107
Práctica 2. Autocorrelación y correlograma 2.1 2.2 2.3 2.4
Recuperación de los datos ...................................................................................115 Cálculo de los coeficientes de autocorrelación .....................................................115 Autocorrelograma .................................................................................................118 Resultados ...........................................................................................................120
Práctica 3. Modelización de una serie con variables categóricas 3.1 3.2 3.3 3.4 3.5 3.6
Recuperación de los datos ...................................................................................122 Análisis de la evolución de la serie cronológica ....................................................123 Modelización con variables categóricas................................................................124 Estimaciones y residuos .......................................................................................127 Previsiones ...........................................................................................................128 Resultados ...........................................................................................................130
Práctica 4. Modelización y previsiones por suavizado exponencial (Método de Brown) 4.1 4.2 4.3 4.4
Recuperación de los datos ...................................................................................136 Análisis de la evolución de la serie cronológica ....................................................137 Método de Brown .................................................................................................138 Resultados ...........................................................................................................141
EVALUACIONES DE SERIES TEMPORALES 1 Evaluaciones propuestas 1.1 1.2 1.3 1.4 1.5
13.5.98 .................................................................................................................147 3.5.99 ...................................................................................................................148 23.6.99 .................................................................................................................149 12.1.00 .................................................................................................................150 17.5.00 .................................................................................................................151
2 Evaluaciones resueltas 2.1 2.2 2.3 2.4 2.5
13.5.98 .................................................................................................................153 3.5.99 ...................................................................................................................156 23.6.99 .................................................................................................................159 12.1.00 .................................................................................................................161 17.5.00 ..............................................................................................................164
Series temporales
BIBLIOGRAFÍA BÁSICA n
Anderson, O.D., Time Series Analysis and Forecasting, (1977).
n
Ardanuy, R., Martín, Q. , Estadística para Ingenieros, Hespérides (1993).
n
Chatfield, C., The Analysis of Time Series, Chapman & Hall (1996).
n
Diebold, F.X., Elementos de pronósticos, International Thomson Editores (1998).
n
Makridakis, S. , Wheelwright, S., McGee, V., Forecasting: Methods and Applications, John Wiley (1983).
n
Newbold, P., Estadística para los negocios y la economía, Prentice Hall (1997).
p167
p11
Introducción
TEORÍA DE SERIES TEMPORALES 1 INTRODUCCIÓN Una serie temporal es un conjunto de observaciones ordenadas en el tiempo o, también, la evolución de un fenómeno o variable a lo largo de él. Esta variable puede ser económica (ventas de una empresa, consumo de cierto producto, evolución de los tipos de interés,...), física (evolución del caudal de un río, de la temperatura de una región, etc.) o social (número de habitantes de un país, número de alumnos matriculados en ciertos estudios, votos a un partido,...). El objetivo del análisis de una serie temporal, de la que se dispone de datos en períodos regulares de tiempo, es el conocimiento de su patrón de comportamiento para prever la evolución futura, siempre bajo el supuesto de que las condiciones no cambiarán respecto a las actuales y pasadas. Si al conocer la evolución de la serie en el pasado se pudiese predecir su comportamiento futuro sin ningún tipo de error, estaríamos frente a un fenómeno determinista cuyo estudio no tendría ningún interés especial. Esto correspondería a una situación como la de la figura 1.1, que muestra la intensidad de corriente, I, que circula a través de una resistencia, R, sometida a un voltaje sinusoidal, V(t) = a cos (vt + θ); por tanto I(t) = a cos (vt + θ)/R. I(t)
1,5 1 0,5 0 -0,5 -1 -1,5 0
20
40
60
80
t
Fig. 1.1.- Observaciones de la serie I(t) = cos (0,5t + π/2)
En general, las series de interés llevan asociados fenómenos aleatorios, de forma que el estudio de su comportamiento pasado sólo permite acercarse a la estructura o modelo probabilístico para la predicción del futuro. Estos modelos se denominan también procesos estocásticos. Así, un proceso estocástico es una sucesión de variables aleatorias {Yt}, con t = 1, 2, ..., n, que evolucionan con el tiempo ( representado éste por el subíndice t). Cuando se dispone de n datos de un proceso estocástico, se está frente a n muestras, de tamaño unidad, extraídas de la población (variable aleatoria), correspondientes al tiempo en que se realizó la medición, y esto es lo que constituye la serie temporal o cronológica. Como ejemplo puede servir la evolución a lo largo de un año del índice IBEX35, que recoge los 35 valores de mayor cotización de la bolsa española, representada en la figura 1.2.
© Los autores, 2001; © Edicions UPC, 2001.
p12
Series temporales
Lógicamente, el valor del IBEX35 dependerá del valor alcanzado en los días previos, además de recoger la influencia de un conjunto de factores sociales, políticos, económicos, etc., que son continuamente cambiantes en el tiempo y cuya conjunción, en un determinado instante, configuraría una hipotética distribución de probabilidad del citado índice económico. En casos como éste, es evidente que puede obtenerse un modelo que explique el comportamiento de la serie en el período estudiado, pero puede ser muy arriesgada la utilización de este modelo para hacer previsiones a medio o largo plazo. Así, en todas las series cronológicas, es necesaria una gran cautela en la previsión a causa de la muy probable inestabilidad del modelo en un futuro más o menos alejado del último instante del que se conocen datos.
IBEX35
5 4,5 4 3,5 3 enero
diciembre Fig. 1.2.- Evolución del índice IBEX35
Otro ejemplo puede ser el constituido por la sucesión de variables aleatorias {Y1, ...,Yt,...}, tales que Yt = 0,80Yt−1 + ε t , con Y0 = 0 y los ε t distribuidos N(0; 1), independientes para todo t = 1, 2,... Esta serie puede expresarse también como Yt =
t
∑
0,8t −i εi
y la distribución de
i=1
probabilidad de cualquier Yt corresponde a una ley Normal, con esperanza matemática t t 1 − 0,8t 1 − 0,64t E(Yt ) = 0,8t −i = 0,82(t −i) = y variancia V(Yt ) = . 0,2 0,36 i=1 i=1
∑
∑
La figura 1.3 muestra la ley de probabilidad de la variable Y en los instantes t = 1, t = 4 y t = 20, junto con la serie cronológica compuesta por las 25 primeras observaciones de la misma. La particular forma de la información disponible de una serie cronológica, n muestras de tamaño unidad procedentes de otras tantas poblaciones de distribución y características desconocidas, hacen que las técnicas de inferencia estadística, usualmente aplicadas en muestras de tamaño superior a la unidad, no sean válidas para estos casos.
© Los autores, 2001; © Edicions UPC, 2001.
p13
Introducción
En los capítulos siguientes se pretende presentar, de forma simple, distintos criterios metodológicos que permitan el estudio de estos fenómenos, y en particular la previsión de su evolución futura, para aplicarlos a campos técnicos y económicos, como por ejemplo previsión de las ventas de una empresa, de los usuarios de un medio de transporte, de la característica de interés de un proceso continuo, etc.
Yt
20 15 10 5 0 -5 -10 0
5
10
15
20
25
Fig. 1.3.- Distribución de Yt y 25 observaciones de la serie
Todas las formas de estudio de una serie cronológica, tal como se irá viendo, no conllevan cálculos complicados, pero sí reiterativos, con gran volumen de datos manipulados y con abundancia de gráficos; es por ello que para su estudio se hace muy necesario el disponer de un programa informático que permita su correcta aplicación y la obtención de cuantos gráficos sean necesarios.
© Los autores, 2001; © Edicions UPC, 2001.
p14
Series temporales
2. ANÁLISIS DE UNA SERIE TEMPORAL
Antes de abordar cualquier estudio analítico de una serie temporal, se impone una representación gráfica de la misma y la observación detenida de su aspecto evolutivo. Para estudiar el comportamiento de cualquier serie temporal, y predecir los valores que puede tomar en un futuro, puede hablarse de distintas metodologías, que denominaremos modelización por componentes y enfoque Box-Jenkins.
2.1 Modelizacion por componentes
Este método consiste en identificar, en la serie Yt, cuatro componentes teóricas, que no tienen por qué existir todas, y que son:
̈
Tendencia: Tt.
̈
Estacionalidad: Et.
̈
Ciclos: Ct.
̈
Residuos: Rt.
Cada una de estas componentes es una función del tiempo y el análisis consistirá en la separación y obtención de cada una de ellas, así como en determinar de qué forma se conjugan para dar lugar a la serie original. Estas componentes se pueden observar en la figura 2.1, en donde se ha considerado que actúan de forma aditiva para dar lugar a la serie cronológica. La tendencia es la componente general a largo plazo y se suele expresar como una función 2 del tiempo de tipo polinómico o logarítmico, por ejemplo Tt = α0 + α1 t+ α2 t + … Las variaciones estacionales son oscilaciones que se producen, y repiten, en períodos de tiempo cortos. Pueden estar asociadas a factores dinámicos, por ejemplo la ocupación hotelera, la venta de prendas de vestir, de juguetes, etc., cuya evolución está claramente ligada a la estacionalidad climática, vacacional, publicitaria, etc. Las variaciones cíclicas se producen a largo plazo y suelen ir ligadas a etapas de prosperidad o recesión económica. Suelen ser tanto más difíciles de identificar cuanto más largo sea su período, debido, fundamentalmente, a que el tiempo de recogida de información no aporta suficientes datos, por lo que a veces quedarán confundidas con las otras componentes.
© Los autores, 2001; © Edicions UPC, 2001.
p15
Análisis de una serie temporal
200 175 150
TENDENCIA
125 100
40 20
ESTACIONALIDAD
0 -20 -40
60 30 0
CICLOS
-30 -60
5 3 0
RESIDUOS -3 -5 300
200
SERIE CRONOLÓGICA
100
0
Fig. 2.1.- Componentes de una serie cronológica
La componente residual es la que recoge la aportación aleatoria de cualquier fenómeno sujeto al azar.
© Los autores, 2001; © Edicions UPC, 2001.
p16
Series temporales
Para evaluar las distintas componentes se utilizan técnicas estadísticas tales como modelo lineal, medias móviles, diferencias finitas, etc. Admitiendo que el componente aleatorio (residuo) es aditivo, una vez identificadas las otras componentes surge un nuevo problema que es el cómo conjuntar tendencia, estacionalidad y ciclos para dar lugar a la serie definitiva. Así se proponen, entre otros, modelos genéricamente denominados aditivos y multiplicativos. ̈
Modelo aditivo: Y = T + E + C + R
̈
Modelo multiplicativo: Y = T x E x C + R
Para una primera identificación visual del caso, se puede considerar que si el patrón estacional se mantiene con amplitud constante se tratará de modelo aditivo (figuras 2.1 y 2.2). Cuando dicho patrón se vaya amplificando con el tiempo, será multiplicativo (figura 2.3). Y 250
200
150
100
50 t Fig. 2.2.- Serie aditiva
Y 400
300
200
100
0 t Fig. 2.3.- Serie multiplicativa
© Los autores, 2001; © Edicions UPC, 2001.
p17
Análisis de una serie temporal
Un modelo aditivo se puede interpretar como aquel en que la estacionalidad actúa modificando la ordenada en el origen de la tendencia. Supongamos que no hay ciclos, que la tendencia es de tipo lineal, Tt = α0 + α1 t, y que la estacionalidad es de período p = 4, es decir, cada 4 unidades de tiempo se repite el patrón (tal como ocurre en la figura 2.2). Representando sus valores por E1, E2, E3 y E4, respectivamente, el modelo aditivo se puede escribir como Y1 = α0 + α1 × 1 + E1 + R1 = γ1 + α1 × 1 + R1 Y2 = α0 + α1 × 2 + E2 + R2 = γ2 + α1 × 2 + R2 Y3 = α0 + α1 × 3 + E3 + R3 = γ3 + α1 × 3 + R3 Y4 = α0 + α1 × 4 + E4 + R4 = γ4 + α1 × 4 + R4 Y5 = α0 + α1 × 5 + E1 + R5 = γ1 + α1 × 5 + R5 …
….
….
Yt = α0 + α1 × t + Es + Rt = γs + α1 × t + Rt
con
t = p$ + s; s = 1, …, p
Así pues, cada estación (s) componente del período conforma una recta con ordenada en el origen distinta para cada caso y pendiente común a todos; es decir, según muestra la figura 2.4, el modelo es un conjunto de rectas paralelas, cada una de ellas asociada a una estación. En el modelo multiplicativo, el componente estacional actúa sobre la ordenada en el origen y sobre la pendiente.
Y 250
200
150
100
50 t Fig. 2.4.- Interpretación de una serie con modelo aditivo
Prescindiendo de los ciclos, supuesta una tendencia lineal tipo Tt = α0 + α1t y una estacionalidad de período p, para cualquier t = p$ + s, con s = 1, …, p, resulta
© Los autores, 2001; © Edicions UPC, 2001.
p18
Series temporales
Yt = Tt × Es + Rt = (α0 + α1t) Es + Rt, es decir
Yt = (α0 Es ) + ( α1Es ) t + Rt
o sea
Yt = γ0s + γ1s t + Rt
De esta forma, cada una de las p estaciones del período configura una recta distinta, tanto en lo que se refiere a la ordenada en el origen (γ0s) como a la pendiente (γ1s). El conjunto de las p rectas constituye el modelo de comportamiento de la serie (figura 2.5). Es evidente que esta división, en modelo estrictamente aditivo o estrictamente multiplicativo, es bastante restrictiva, ya que puede darse el caso de que en algunas estaciones cambie sólo la pendiente, o sólo la ordenada en el origen. Esto constituiría un modelo mixto mucho más general que los propuestos hasta ahora, los cuales pasarían a ser meros casos particulares de éste. En la figura 2.6 se presenta una situación de este tipo. Y 500 400 300 200 100 0 t Fig. 2.5.- Interpretación de una serie con modelo multiplicativo
Y 200
150
100
50
0 t
Fig. 2.6.- Modelo general
© Los autores, 2001; © Edicions UPC, 2001.
p19
Análisis de una serie temporal
2.2 Enfoque Box - Jenkins La forma de encarar el análisis de las series temporales a través de la metodología de BoxJenkins es dirigir el esfuerzo a determinar cuál es el modelo probabilístico que rige el comportamiento del fenómeno a lo largo del tiempo. Es decir, partiendo de la premisa de que no siempre va a ser posible identificar los componentes de la serie, se trata de estudiar el componente aleatorio puro, reflejado en los residuos. La metodología estadística utilizada en el estudio de una serie temporal por este sistema, se basa en los siguientes pasos: ̈
Identificación del modelo.
̈
Estimación de los parámetros.
̈
Validación de los supuestos admitidos en el análisis, también llamado diagnosis del modelo.
Para poder abordar esta metodología es imprescindible, en primer lugar, estudiar un conjunto de modelos de comportamiento que cubran el mayor espectro posible de los procesos estocásticos objeto de nuestro interés. Entre ellos se pueden destacar los procesos de ruido blanco, medias móviles (MA), autorregresivos (AR), integrados (I) y sus conjunciones (ARMA y ARIMA). A partir de aquí se podrá identificar la serie de datos con alguno de los modelos estudiados, estimar sus parámetros y validar la admisibilidad del modelo adoptado. En general, se suele asumir que el componente aleatorio, el cual se representa por Z, sigue 2 una distribución Normal de media cero y variancia σ . Un proceso estocástico en que todos sus componentes son independientes y están constituidos sólo por componente aleatorio se 2 denomina proceso de ruido blanco, es decir, Yt = Zt con Zt ∼ NINDEP(0; σ ) ∀t. Un proceso se denomina de media móvil de orden q, y se representa por MA(q), si su estructura es del tipo Yt = Zt + αt-1 Zt-1 + … + αt-q Zt-q. En la figura 2.7 se muestra un MA(4).
Y 4 3 2 1 0 -1 -2 -3 -4 t Fig. 2.7.- Proceso de media móvil MA(4)
© Los autores, 2001; © Edicions UPC, 2001.
p20
Series temporales
Un proceso es autorregresivo de orden p, y se representa por AR(p), cuando cada componente es función de los anteriores más el término aleatorio; su estructura corresponde a Yt = Zt + βt-1 Yt-1 + … + βt-p Yt-p En la figura 2.8 se muestra un AR(2). Cuando a las estructuras de autorregresión y media móvil se une una dependencia con el tiempo se llega a un ARIMA(p, r, q), donde p es el orden del AR, q el del MA y r el del proceso integrado, o, lo que es lo mismo, el grado del polinomio que representa la función del tiempo. En la figura 2.9 se presenta un proceso ARIMA(2,1,3).
Y 4 3 2 1 0 -1 -2 -3 -4 t Fig. 2.8.- Proceso autorregresivo AR(2)
Y 90 80 70 60 50 40 30 20 10 0 t Fig. 2.9.- Proceso ARIMA(2, 1, 3)
© Los autores, 2001; © Edicions UPC, 2001.
p21
Descomposición de una serie temporal
3 DESCOMPOSICIÓN DE UNA SERIE TEMPORAL Este método, también denominado sistema clásico, descompone la serie en tendencia, estacionalidad, ciclos y residuos Una vez decidida la conjunción entre ellos, aditiva o multiplicativa, se obtiene el modelo con el que hacer previsiones. La tendencia es la componente más importante de la serie, al definir lo que se podría interpretar como comportamiento a largo plazo. Cada observación va ligada a un valor del tiempo, lo que permite plantear un modelo del tipo Y = φ(t) + ε
donde la función φ(t) puede ser: lineal:
φ(t) = α0 + α1t
polinómica:
2 φ(t) = α0 + α1t + α2 t + ...
exponencial: φ(t) = α0 t α1
Si la serie no presenta estacionalidad, el método de estimación mínimo-cuadrática y todas las pruebas de hipótesis relativas a la explicación del modelo y a la significación de los coeficientes estimados, propios del modelo lineal ordinario, permiten estimar los coeficientes del modelo de tendencia sobre los datos directos. Caso de existir componente estacional, para que ésta no enmascare la tendencia, es necesario estabilizar previamente la serie. Para desarrollar la metodología de la descomposición clásica sobre un ejemplo, se dispone de los datos relativos a las ventas de material deportivo en una gran superficie comercial, recogidos en la tabla 3.I y representados en la figura 3.1. En esta tabla el tiempo (t) se ha medido tomando como referencia el inicio del período de recogida de datos, y, en este caso, su unidad es el trimestre. La observación de la figura 3.1, permite pensar en una tendencia lineal creciente y una estacionalidad clara, cuyo patrón se repite anualmente, es decir, cada 4 valores del tiempo (trimestres). Esto se puede interpretar como una tendencia sostenida de un aumento de las ventas en esta superficie comercial, unida a un comportamiento distinto para cada uno de los cuatro trimestres; debido, posiblemente, a que el precio del material deportivo es muy distinto según sea el adecuado para una estación concreta (material de esquí frente a entretenimiento de playa, por ejemplo). Por otra parte, el patrón estacional se mantiene con una amplitud aproximadamente constante, lo que conduce a la utilización de un modelo aditivo.
© Los autores, 2001; © Edicions UPC, 2001.
p22
Series temporales
Año 1990
1991
1992
1993
1994
1995
Trimestre 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Ventas (Y) 40,22 54,89 63,51 111,35 46,95 51,62 61,47 108,58 41,38 65,30 64,25 113,82 53,34 59,37 66,15 121,5 67,38 56,09 75,11 124,39 55,90 61,25 75,44 126,50
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Tabla 3.I.- Ventas de material deportivo
Y 130
100
70
40 0
4
8
12
16
20
24 t
Fig. 3.1.- Evolución cronológica de las ventas de material deportivo
En este ejemplo se ha identificado un patrón estacional compuesto por los cuatro trimestres y que se repite de año en año, además de una tendencia aparentemente lineal. Si se decidiese ajustar el modelo de tendencia directamente sobre los datos, se obtendrían los resultados de la tabla 3.II.
© Los autores, 2001; © Edicions UPC, 2001.
p23
Descomposición de una serie temporal
Regresión Residuos Total
nu 1 22 23
Coef. Ord. Origen 57,501 t 1,286
S. C. 1901,300 15623,686 17524,985
C. M. 1901,300 710,168
F 2,677
Error típico 11,229 0,786
t 5,121 1,636
p-val 0,000 0,116
p-val 0,116
R^2 = 0,10849 Tabla 3.II.- Modelo de tendencia ajustado sobre todos los datos: Y = α0 + α1t + ε
El modelo presenta un coeficiente de determinación (R^2) tan sólo del 10,8% y no resulta estadísticamente significativo, ya que el nivel de significación (p-val), tanto del ajuste como de la pendiente de la recta de tendencia, son claramente superiores a un riesgo de primera especie del 5%. Así, se demuestra que este procedimiento no es válido ya que incluye en el residuo todo el componente estacional, lo cual produce una inflación de la suma de cuadrados residual que desvirtúa el modelo y cualquier prueba de significación de la regresión y de sus coeficientes. Para evitar esto es necesario estabilizar la serie liberándola de la estacionalidad; esto se podría conseguir trabajando con los valores medios anuales, que son los de la tabla 3.III. En la tabla 3.IV se detallan los resultados del cálculo del modelo de tendencia, considerado tipo rectilíneo.
Ya
t (años)
Ya
t (años)
67,4925
1
75,0900
4
67,1550
2
80,7425
5
71,1875
3
79,7725
6
Tabla 3.III.- Medias anuales de ventas de material deportivo
Regresión Residuos Total
nu 1 4 5
Coef. Ord. Origen 62,967 t(años) 3,030
S.C. 160,711 15,279 175,991
C.M. 160,711 3,820
F 42,073
Error típico 1,819 0,467
t 34,607 6,486
p-val 0,000 0,003
R^2 = 0,91318 Tabla 3.IV.- Modelo lineal para las medias anuales
© Los autores, 2001; © Edicions UPC, 2001.
p-val 0,003
p24
Series temporales
Ahora ya se ha obtenido un modelo de tendencia altamente significativo y con un buen ajuste (R^2 = 91,3%). En la figura 3.2 se han representado las medias anuales junto a la estimación del modelo de tendencia; se observa la estabilización conseguida en los valores de las medias anuales, ya que mientras los datos directos oscilaban entre 40 y 130, las medias anuales van desde 67 hasta 81. Hay que destacar que con esta estabilización se ha conseguido un modelo de tendencia significativo; sin embargo, ¿es aceptable este procedimiento? La respuesta sería no, ya que este sistema tiene el inconveniente de la gran pérdida de información, pues de los 24 datos iniciales, se ha acabado estimando el modelo con sólo 6 puntos. Este inconveniente queda paliado desestacionalizando la serie con las medias móviles. Ya 85 80 75 70 65 0
1
2
3
4
5
6
7 t(años)
Fig. 3.2.- Evolución y tendencia de la media anual
3.1 Medias móviles: tendencia Con este método se consiguen suavizar tanto las oscilaciones periódicas de una serie como las aleatorias. Su aplicación requiere decidir, previamente, el período en que se repite cierto patrón de comportamiento, que pueda atribuirse a variaciones estacionales; la observación de la evolución gráfica de la serie puede ayudar a tomar la decisión. Una vez fijado el período p, se calculan las medias de los valores de la serie tomados de p en p, sucesivamente desde el inicio. Asociando cada una de estas medias al valor del tiempo del punto central del período estudiado, se obtiene una nueva serie de valores mucho más estables, debido, por una parte, a la reducción de la variabilidad ocasionada al promediar y, por otra, a que, si el período escogido es el correcto, al pasar de una media móvil a la siguiente, el nuevo dato incorporado es del mismo comportamiento que el dato saliente. Si p es impar la asociación es directa : p
p +1 t = ⇔ 2
∑Y
i
Y(p+1) / 2 =
i=1
p
=
Y1 + Y2
© Los autores, 2001; © Edicions UPC, 2001.
+ A + Yp p
p25
Descomposición de una serie temporal
p+ 1
p + 3 t = 2
⇔
∑Y
i
Y(p + 3) / 2 =
i= 2
p
=
Y2
+
Y3 +
A +
Yp+ 1
p
••• Si p es par, el centro del grupo de cada p valores promediados corresponde a un valor no observado del tiempo; para subsanarlo, la nueva serie queda constituida por los promedios de las medias móviles tomadas dos a dos. Es decir:
t =
p + 2 2
⇔
Y(p+ 2) / 2 =
Y(p+ 1) / 2
t =
p + 4 2
⇔
Y(p + 4) / 2 =
Y(p+ 3) / 2
+
Y(p+ 3) / 2
2 +
Y(p+ 5) / 2
2
••• La representación gráfica de las medias móviles, o la regresión de dichos valores frente al tiempo, permiten evaluar la tendencia de la serie liberada de la componente estacional. Uno de los inconvenientes de este sistema es la pérdida de valores en los dos extremos de la serie, tanto mayor cuanto mayor es p. En ocasiones, se propone como alternativa a este problema la sustitución de los valores extremos de las medias móviles por los resultantes de una extrapolación lineal de los observados; sin embargo, si el número de datos disponibles es grande, la pérdida de información es negligible. En el caso del ejemplo de las ventas de material deportivo, ya se ha comentado que la estacionalidad se manifiesta de forma anual, es decir, cada cuatro trimestres; ello conduce al cálculo de las medias móviles tomando p = 4. En la tabla 3.V se detalla el cálculo de los primeros valores de la nueva serie, y la tabla 3.VI resume la totalidad de los mismos. t
Y
Y 1 2 3 4 5 …
40,22 54,89 63,51 111,35 46,95
67,4925 69,1750
t
68,3337
Tabla 3.V.- Detalle del cálculo de las medias móviles con p = 4
© Los autores, 2001; © Edicions UPC, 2001.
3 4 5 …
p26
t 3 4 5 6 7
Series temporales
Y
t
Y
68,3337 68,7662 68,1025 67,5012 66,4588
8 9 10 11 12
67,4725 69,5300 70,5325 72,6825 73,4363
t 13 14 15 16 17
Y 72,9325 74,1300 76,8450 78,1900 78,9000
t 18 19 20 21 22
Y 80,3812 79,3075 78,5175 79,2037 79,5088
Tabla 3.VI.- Medias móviles con p = 4
Los resultados del modelo lineal, Y = α 0 + α 1t+ ε para el cálculo de la tendencia constan en la tabla 3.VII. nu 1 17 18
Regresión Residuos Total
S.C. 393,692 41,108 434,800
Coef. Error típico Ord. Origen 63,0065 0,9188 t 0,8311 0,0651
C.M. 393,692 2,418
F 162,810
t 68,5739 12,7597
p-val 0,0000 0,0000
p-val 0,000
R^2 = 0,905 Tabla 3.VII.- Modelo de tendencia sobre las medias móviles
Trabajando sobre 19 puntos, los 19 valores de las medias móviles, se ha obtenido un buen ajuste, con un coeficiente de determinación del 90,5 %. En consecuencia, el modelo de tendencia resultante es T = 63,0065 + 0,8311 t Evidentemente, la interpretación de la ecuación de la tendencia permite afirmar que las ventas se incrementan 0,8311 unidades cada trimestre (ya que el tiempo se ha medido en trimestres). En la figura 3.3 puede observarse el suavizado conseguido con las medias móviles junto con el modelo de tendencia estimado a partir de los citados valores. 130
100
70
40 0
4
8
12
16
20
24 t
Fig. 3.3.- Evolución ( • ), medias móviles ( 1 ) y tendencia ( ), para p = 4
© Los autores, 2001; © Edicions UPC, 2001.
p27
Descomposición de una serie temporal
3.2 Estacionalidad La componente estacional, que provoca una oscilación sistemática de período corto, generalmente no superior al año, puede enmascarar la evolución a largo plazo, tendencia, si no se aísla convenientemente. Se entiende como componente estacional, en modelos aditivos, la diferencia entre el valor de la estación y la media de todas las estaciones componentes del período. El análisis de la estacionalidad queda ligado al método que se decida emplear para modelizar la tendencia; así, en este punto estudiaremos la situación para el caso de trabajar con medias móviles. Para calcular los valores de los índices estacionales hay que seguir la siguiente sistemática: n
Calcular las medias móviles, Yt , sobre los datos, Yt , de la serie original, tomando el período de agrupación, p, que se considere oportuno.
n
Proponer un modelo de agrupación de las componentes, aditivo o multiplicativo.
n
Separar la parte explicada por la tendencia. Supuesto el modelo aditivo, esto equivale a calcular Wt = Yt − Yt ; si fuese multiplicativo, en lugar de diferencias serían cocientes, es decir, Wt = Yt / Yt . Hay que destacar que en Wt están incluidas las componentes asociadas a la estacionalidad, los ciclos y los residuos.
n
Asumiendo que los residuos son variables aleatorias de media nula y que la componente cíclica, caso de existir, es de período suficientemente largo como para no ser recogida por los datos, se procede a evaluar la estacionalidad asociada a cada componente del período, a cada trimestre en el caso del ejemplo. Para ello se calculan Wt los promedios de los Wt de la misma estación
E*s
=
∑
t = s + p&
s = 1, …, p ns donde s representa el índice estacional y ns el número de valores asociados a este índice que se promedian. Ya que los índices estacionales miden discrepancias respecto a la media, ésta se necesita como valor de referencia; por tanto es necesario calcular la media general: p
∑E s=1
E = n
* s
p
Calcular los índices estacionales en modelo aditivo Los índices estacionales son las diferencias entre los promedios de las Wt de cada estación y la media general que se acaba de definir, es decir Es = E*s − E
©
L
o
s
a
u
t
o
r
e
s
,
2
0
0
1
;
©
p28
Series temporales
Es obvio destacar que la suma de estos índices es cero:
p
∑E s =1
n
s
= 0.
Calcular los índices estacionales en modelo multiplicativo. En este caso, los índices estacionales son el cociente entre los promedios de las Wt de cada estación y la media general, es decir E* Es = s E Ahora, la suma de estos índices es igual al período,
p
∑E s =1
s
= p . En modelo
multiplicativo, no es extraño que los índices estacionales se representen en %. En la tabla 3.VIII se detallan los cálculos del caso de modelo aditivo de las ventas de material deportivo. Por ejemplo, para el tercer trimestre (s = 3), el promedio de las Wt, cuyos valores del tiempo correspondiesen al tercer trimestre, por ser múltiplos de 4 más 3 (t = 3, 7, 11, 15, 19), sería: * E3 =
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
-4,8237 - 4,9888 - 8,4325 - 10,6950 - 4,1975 = - 6,6275 5 Yt
40,22 54,89 63,51 111,35 46,95 51,62 61,47 108,58 41,38 65,30 64,25 113,82 53,34 59,37 66,15 121,5 67,38 56,09 75,11 124,39 55,90 61,25 75,44 126,5
Yt ----68,3337 68,7662 68,1025 67,5012 66,4588 67,4725 69,5300 70,5325 72,6825 73,4363 72,9325 74,1300 76,8450 78,1900 78,9000 80,3812 79,3075 78,5175 79,2037 79,5088 -----
Wt
-----4,8237 42,5838 -21,1525 -15,8812 -4,9888 41,1075 -28,1500 -5,2325 -8,4325 40,3837 -19,5925 -14,7600 -10,6950 43,3100 -11,5200 -24,2912 -4,1975 45,8725 -23,3037 -18,2588 -----
Estación: s 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
Tabla 3.VIII.- Evaluación de la estacionalidad por medias móviles.
© Los autores, 2001; © Edicions UPC, 2001.
p29
Descomposición de una serie temporal
Análogamente, para cada trimestre, se obtiene: E1* = − 20,7438
E*2 = − 15,68477
E*3 = − 6,6275
E*4 = 42,6515
4
∑E
* s
La media general es:
s =1
E =
4
= − 0,101125
y los índices estacionales, resultan E1 = –20,6426
E2 = –15,5836
E3 = –6,5264
E4 = 42,7526
Los valores de los índices estacionales recién obtenidos se interpretan de la siguiente forma: respecto a la media, el primer trimestre tiene una venta inferior en 20,6426 unidades; el segundo está 15,5836 unidades por debajo de la media; el tercero 6,5264; mientras que el cuarto supera a la media en 42,7526 unidades de venta.
Con el modelo de tendencia de la tabla 3.VII y la estacionalidad, se ha obtenido la descomposición de la serie original, mostrada en la figura 3.4.
Evidentemente, los residuos se calculan como : R = Y - T - E. La buena modelización conseguida queda confirmada por los residuos, ya que en su mayoría están en el intervalo ±5 y sólo en 3 puntos se llega a valores de 10 u 11 unidades.
Tal como se ha ido repitiendo, el objetivo de la modelización de la serie es poder realizar previsiones para los próximos valores del tiempo. En la tabla 3.IX se presentan las previsiones para los 2 años inmediatos siguientes. Atendiendo a que el período estacional es igual a 4, para realizar la previsión hay que identificar el tiempo como un múltiplo de 4 más s (s = 1, 2, 3, 4), para añadir a la tendencia el valor correcto de la estacionalidad. Así, la previsión se calcula como: # = 63,0065 + 0,8311 t + E con Y t s
t = 4$ + s
La figura 3.5 muestra la evolución de las previsiones y su buena concordancia con la evolución histórica de los datos recogidos en el estudio.
© Los autores, 2001; © Edicions UPC, 2001.
p30
Series temporales
130 100 Y 70 40
84 79 T 74 69 64
50 30 E 10
-10 -30 130
T + E
100
70
40
11
R 0
-11
t
Fig. 3.4.- Descomposición de la serie de ventas de material deportivo por medias móviles
© Los autores, 2001; © Edicions UPC, 2001.
p31
Descomposición de una serie temporal
Año 1996
1997
t
Estación: s
25
1
Tendencia: T = 63,0065+0,8311 t 83,7840
26
2
27 28
Estacionalidad: E
# Previsión: Y
–20,6426
63,1414
84,6151
–15,5836
69,0315
3
85,4462
–6,5264
78,9198
4
86,2773
42,7526
129,0299
29
1
87,1084
–20,6426
66,4658
30
2
87,9395
–15,5836
72,3559
31
3
88,7706
–6,5264
82,2442
32
4
89,6017
42,7526
132,3543
Tabla 3. IX.- Previsiones para 1996 y 1997, según el modelo de descomposición clásica
Y 140
90
40 0
4
8
12
16
20
24
28
32 t
Fig. 3.5.- Evolución histórica ( • ), modelo ( –– ) y previsiones ( p )
3.3 Caso temperaturas La tabla 3.X presenta las temperaturas medias mensuales registradas en una ciudad del hemisferio sur, en el período de tiempo que abarca desde enero de 1986 a diciembre de 1995. Interesa estudiar el modelo de comportamiento y realizar una previsión de las temperaturas de la década siguiente.
© Los autores, 2001; © Edicions UPC, 2001.
p32
Series temporales
Año Mes
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
I II III IV V VI VII VIII IX X XI XII
26,8 27,2 27,1 26,3 25,4 23,9 23,8 23,6 25,3 25,8 26,4 26,9
27,1 27,5 27,4 26,4 24,8 24,3 23,4 23,4 24,6 25,4 25,8 26,7
26,9 26,3 25,7 25,7 24,8 24,0 23,4 23,5 24,8 25,6 26,2 26,5
26,8 26,9 26,7 26,1 26,2 24,7 23,9 23,7 24,7 25,8 26,1 26,5
26,3 27,1 26,2 25,7 25,5 24,9 24,2 24,6 25,5 25,9 26,4 26,9
27,1 27,1 27,4 26,8 25,4 24,8 23,6 23,9 25,0 25,9 26,3 26,6
26,8 27,1 27,4 26,4 25,5 24,7 24,3 24,4 24,8 26,2 26,3 27,0
27,1 27,5 26,2 28,2 27,1 25,4 25,6 24,5 24,7 26,0 26,5 26,8
26,3 26,7 26,6 25,8 25,2 25,1 23,3 23,8 25,2 25,5 26,4 26,7
27,0 27,4 27,0 26,3 25,9 24,6 24,1 24,3 25,2 26,3 26,4 26,7
Tabla 3.X.- Registro de las temperaturas mensuales
La evolución cronológica de los datos se muestra en la figura 3.6, en donde se pone de manifiesto que la tendencia es prácticamente inapreciable, por la aparente horizontalidad del eje virtual de la serie. Por otra parte se observa la existencia de una componente estacional clara que se repite, lógicamente, cada año y mantiene la amplitud, dando idea de que es un modelo aditivo. Al ser los datos mensuales, la longitud del período es igual a 12. El cálculo de las medias móviles, con p = 12, y su representación gráfica (figura 3.7) confirman la estacionalidad, por la estabilización conseguida en la serie, pero ponen en entredicho la ausencia de tendencia. La observación del gráfico hace recomendable ajustar un modelo de tendencia, que se hará posteriormente y que ya se ha representado en esta figura.
Y 30
28
26
24
22 0
24
48
72
96
Fig. 3.6.- Evolución cronológica de las temperaturas
© Los autores, 2001; © Edicions UPC, 2001.
120 t
p33
Descomposición de una serie temporal
Y 30
28
26
24
22 0
24
48
72
96
120 t
Fig. 3.7.- Temperaturas mensuales ( • ), medias móviles ( ♦ ) y línea de tendencia ajustada ( − )
Para evaluar la estacionalidad es necesario calcular los índices estacionales, tal como se ha detallado en el apartado 3.2. Los resultados obtenidos se encuentran en la tabla 3.XI, y se presentan gráficamente en la figura 3.8.
Mes
(s)
Índice Es
Mes
(s)
Índice Es
I
1
1,07496
VII
7
−1,78846
II
2
1,31478
VIII
8
−1,80143
III
3
0,97867
IX
9
−0,77967
IV
4
0,62126
X
10
0,05413
V
5
−0,15883
XI
11
0,52959
VI
6
−1,03569
XII
12
0,99070
Tabla 3.XI.- Índices estacionales
La interpretación de los índices es simple: desde octubre (X) a abril (IV), la temperatura está por encima de la media anual; mientras que de mayo (V) a septiembre (IX) está por debajo de la media. No olvidemos que los datos corresponden a una ciudad del hemisferio sur; por tanto, de octubre a abril son los meses cálidos, y los demás son los fríos. Es de destacar que la oscilación térmica media, del mes más cálido al más frío, es relativamente pequeña (1,31 + 1,80 = 3,01°C). Esto, unido a los valores medios mensuales, que oscilan entre 23 y 29°C permite afirmar que el estudio se está haciendo sobre una ciudad de clima muy suave y casi permanentemente primaveral.
© Los autores, 2001; © Edicions UPC, 2001.
p34
Series temporales
T
2
1
0
-1
-2 0
4
8
12 s
Fig. 3.8.- Componente estacional: índices
La tendencia, aunque débil, existe y es de tipo lineal. Su evaluación se efectuará mediante el modelo lineal aplicado a las medias móviles (tabla 3.XII).
Regresión Residuos Total
Ord. Origen t
nu 1 106 107
S.C. 2,186 5,205 7,391
C.M. 2,186 0,049
F 44,512
Coeficientes 25,4733 0,00456
Error típico 0,0459 0,0007
t 554,4281 6,6717
p-val 0,0000 0,0000
p-val 0,000
R^2 = 0,295735 Tabla 3.XII.- Modelo lineal para la tendencia:
Yt = α0 + α1 t + ε
A pesar del valor del coeficiente de determinación del ajuste, (29,57 %), la explicación del modelo es significativa. Así, se puede deducir que parece existir una tendencia muy ligera a un incremento de la temperatura, que se ha estimado en un aumento de 0,00456 grados mensuales en promedio. La evolución del modelo, junto con los datos reales, se presentan en la figura 3.9. Para su obtención, hay que tener en cuenta que, conocidos los índices estacionales y el modelo de tendencia, la suma mes a mes de los dichos valores darán lugar al modelo propuesto, es decir: # = 25,4733 + 0,00456 t + E Y t s
con
t = 12$ + s
© Los autores, 2001; © Edicions UPC, 2001.
s = 1, … , 12
p35
Descomposición de una serie temporal
Y 30
28
26
24
22 0
24
48
72
96
120 t
Fig. 3.9.- Datos ( • ) y modelo ajustado ( − )
Solamente hay que destacar la buena concordancia entre ambos, a pesar de que hay algunos puntos que parecen presentar mayores discrepancias. Esto ocurre, principalmente, desde abril hasta julio de 1993 que como, puede observarse, ya en los datos iniciales presentaron unas temperaturas medias bastante superiores a las de los demás años (es decir hizo un otoño especialmente cálido). En la figura 3.10, se muestran los residuos resultantes de la descomposición de esta serie, # . Hay que destacar la buena modelización conseguida, pues obtenidos como Rt = Yt − Y t en la mayoría de las 120 observaciones, el error es inferior a un grado, excepto en los meses ya comentados. R 2
1
0
-1
-2 0
24
48
72
Fig. 3.10.- Residuos del modelo
© Los autores, 2001; © Edicions UPC, 2001.
96
120
t
p36
Series temporales
A partir de la descomposición, y suponiendo que no cambiase el comportamiento meteorológico de la zona, la previsión de la temperatura para los 10 años siguientes sería la de la tabla 3.XIII, que se muestra en la figura 3.11 junto a los datos disponibles. Aquí se observa que, de mantenerse la tendencia, la temperatura media mensual, poco a poco, se va incrementando. Comparando los datos reales con las previsiones, se ve en estas últimas la ausencia del componente aleatorio. Se está haciendo una previsión de temperaturas medias, pero el azar meteorológico se unirá a la previsión alterándola en aquellos períodos de tiempo en los que las temperaturas sean distintas a las de la tónica general: inviernos muy fríos o muy suaves, veranos más extremos, etc.
Año Mes
1996 1997 1998 1999 2000 2001 2002 2003 2004 2005
I II III IV V VI VII VIII IX X XI XII
27,1 27,3 27,0 26,7 25,9 25,0 24,3 24,3 25,3 26,1 26,6 27,1
27,2 27,4 27,1 26,7 25,9 25,0 24,3 24,3 25,3 26,2 26,7 27,1
27,2 27,5 27,1 26,8 26,0 25,1 24,4 24,4 25,4 26,2 26,7 27,2
27,3 27,5 27,2 26,8 26,1 25,1 24,4 24,4 25,5 26,3 26,8 27,2
27,3 27,6 27,2 26,9 26,1 25,2 24,5 24,5 25,5 26,3 26,8 27,3
27,4 27,6 27,3 26,9 26,2 25,2 24,5 24,5 25,6 26,4 26,9 27,3
27,4 27,7 27,3 27,0 26,2 25,3 24,6 24,6 25,6 26,5 26,9 27,4
27,5 27,7 27,4 27,0 26,3 25,3 24,7 24,6 25,7 26,5 27,0 27,5
27,5 27,8 27,5 27,1 26,3 25,4 24,7 24,7 25,7 26,6 27,0 27,5
27,6 27,8 27,5 27,2 26,4 25,5 24,8 24,8 25,8 26,6 27,1 27,6
Tabla 3.XIII.- Temperatura prevista para los 10 años siguientes a la recogida de datos
30
28
26
24
22 0
48
96
144
192
240 t
Fig. 3.11.- Datos desde 1986 a 1995 ( • ) y previsiones desde 1996 a 2005 ( 1 )
© Los autores, 2001; © Edicions UPC, 2001.
p37
Descomposición de una serie temporal
3.4 Caso usuarios transporte público En la tabla 3.XIV se recogen los datos relativos al número de usuarios de un determinado transporte público en el período que abarca desde 1984 hasta 1995, y la figura 3.2 muestra su evolución cronológica. Año Mes
1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995
I II III IV V VI VII VIII IX X XI XII
90 88 109 103 103 122 134 132 115 101 91 112
111 115 129 121 112 125 164 158 133 127 110 120
127 107 141 135 133 154 175 174 158 139 112 140
142 139 145 162 144 176 192 190 160 151 134 140
146 155 182 165 165 191 195 205 182 165 138 155
164 151 180 164 184 206 198 235 197 163 148 163
175 161 179 195 189 208 227 249 224 193 170 166
176 194 197 211 191 235 248 273 202 189 167 168
208 189 232 226 222 245 252 242 229 202 192 198
199 190 228 220 222 233 303 253 253 223 191 185
207 198 251 231 234 251 316 285 250 232 190 201
219 206 229 223 231 266 290 294 258 214 206 199
Tabla 3. XIV.- Usuarios de un transporte público.
Y 320
240
160
80 0
24
48
72
96
120
144 t
Fig. 3.12.- Evolución cronológica del número de usuarios.
La observación de la figura 3.12 permite realizar las siguientes consideraciones: ̈
Se detecta una clara tendencia creciente en el tiempo.
̈
Hay una estacionalidad manifiesta que se repite anualmente. Ya que los datos son mensuales, su período será igual a 12.
© Los autores, 2001; © Edicions UPC, 2001.
p38
̈
Series temporales
El patrón de estacionalidad tiene una forma constante pero presenta una amplificación continua en el tiempo. Esta situación es la que indica que el modelo subyacente es multiplicativo.
Para obtener la descomposición de la serie cronológica, es necesario estabilizarla previamente, mediante medias móviles de p = 12; y después modelizar la tendencia y calcular los índices estacionales. La evolución de las medias móviles se muestra en la figura 3.13, y se aprecia un crecimiento que no es proporcional al tiempo, sino que parece sufrir un amortiguamiento al final de la serie; es decir, probablemente se tratará de un modelo parabólico.
320
240
160
80 0
24
48
72
96
120
144 t
Fig. 3.13.- Tendencia a través de las medias móviles (p =12)
La estimación mínimo-cuadrática conduce al modelo de tendencia, sobre las medias móviles, cuya estimación se muestra en la tabla 3.XV. En ella se observa, además de un muy buen ajuste reflejado por una R2 del 99,74%, que el término cuadrático es altamente significativo. El signo negativo de este término da idea de una especie de freno en el crecimiento sostenido del número de usuarios, representado por el coeficiente positivo del tiempo.
Regresión Residuos Total
Ord. Origen t t^2
nu 2 129 131
S.C. 194340,33 500,01 194840,34
C.M. 97170,17 3,88
F 25069,58
Coeficientes 100,4749 1,4326 -0,00297
Error típico 0,6227 0,0197 0,0001
t 161,3636 72,8823 -22,5088
p-val 1,08E-150 1,08E-106 1,66E-46
p-val 7,937E-168
R^2 = 0,9974 Tabla 3.XV.- Estimación del modelo de tendencia: Y = α0 + α1 t + α2 t2 + ε
© Los autores, 2001; © Edicions UPC, 2001.
p39
Descomposición de una serie temporal
Así pues, el modelo de tendencia puede escribirse como: T = 100,4749 + 1,4326 t – 0,00297 t2 En modelos multiplicativos, como el del actual ejemplo, la componente estacional representa la relación entre cada estación y la media general. Recordemos que, en estos casos, el cálculo de la estacionalidad se realiza de acuerdo con los siguientes pasos: a) Calcular las medias móviles Yt , a partir de los datos, Yt, de la serie. b) Separar la tendencia, es decir, calcular Wt =
Yt Yt
.
c) Asumiendo que los ciclos, caso de existir, son de período suficientemente largo como para no ser recogidos por los datos, calcular los promedios de las Wt de cada estación y la media general. s es el indicador de la estación (mes, en el ejemplo), y ns el número de valores de W que se promedian en la citada estación
E*s =
∑
p
∑E
* s
Wt
t = s + p$
s = 1, ..., p
ns
y
E =
s =1
p
d) Finalmente, los valores de las componentes estacionales, generalmente expresados en % en modelos multiplicativos, se obtienen como: Es =
E*s E
× 100
En la tabla 3.XVI se muestran los valores de las componentes estacionales del presente ejemplo, y se representan gráficamente en la figura 3.14.
Mes
Es
Mes
Es
Mes
Es
I
92,38
V
97,04
IX
105,50
II
88,41
VI
109,53
X
94,11
III
101,72
VII
121,91
XI
81,54
IV
99,21
VIII
121,31
XII
87,33
Tabla 3.XVI.- Componente estacional.
© Los autores, 2001; © Edicions UPC, 2001.
p40
Series temporales
E 130 120 110 100 90 80
0
4
8
12 t
Fig. 3.14.-Índices estacionales
La interpretación de los índices podría ser en el sentido de que, por ejemplo, los usuarios de los meses de julio y agosto son del orden de un 121% superior a la media, mientras que en noviembre se está en un 81% de la media. Ello podría aconsejar una promoción en los meses de noviembre, diciembre, enero y febrero, con el fin de conseguir una mayor ocupación de las plazas disponibles. La figura 3.15 muestra la concordancia entre los datos y su modelización, a partir de la tendencia y estacionalidad calculadas, de acuerdo con el modelo multiplicativo: # = Y t
(100,4749
+
1,4326 t −
0,00297 t2
)
Es 100
s = 1, ..., 12
t = s + 12$
320
240
160
80 0
24
48
72
96
120
144 t
Fig. 3.15.- Serie cronológica experimental ( • ) y ajustada ( !).
Observando la figura 3.15 se puede destacar que hay unos desajustes más acusados en ciertos meses de julio o agosto, en concreto, los de los años 1989, 90, 91, 93 y 94, por lo que es posible afirmar que en los casos citados ha habido un comportamiento sustancialmente distinto del esperado en los mismos meses de otros años; en principio, sería discutible afirmar la presencia de un cambio en los hábitos de utilización de este transporte, ya que ni el año 1993 ni el 1995, pertenecientes al período en cuestión, presentan semejantes discrepancias.
© Los autores, 2001; © Edicions UPC, 2001.
p41
Descomposición de una serie temporal
A pesar de todo, en este caso, sería prudente tomar con ciertas precauciones las previsiones para años venideros, mientras no se confirme la consolidación en el futuro de un cambio o de una permanencia de comportamiento. También podría ser interesante intentar averiguar qué ocurrió en estos meses (quizás una campaña publicitaria, quizás una disminución de alternativas de la competencia,...). La figura 3.16 muestra la evolución de los residuos entre los datos experimentales y el # . Se observa que, en la mayoría de los casos, oscilan entre ±16, modelo ajustado, Rt = Yt − Y t aunque en algún caso la discrepancia se aproxima a 30 unidades. Asumiendo que se mantiene el mismo modelo, la previsión de usuarios hasta el año 2000 se presenta en la figura 3.17. Hay que tener en cuenta, para realizar correctamente los cálculos, que el último valor de t para el que se dispone de datos, diciembre de 1995, es 144; por tanto, para las predicciones, que abarcan el período de los próximos 60 meses, los valores de t irán desde 145 hasta 204. R
32
16
0
-16
-32 0
24
48
72
96
120
144
t
Fig. 3.16.- Residuos del modelo ajustado
En el gráfico de la previsión se puede observar la reducción de la velocidad de crecimiento inicial de la serie que se ha comentado en la modelización de la tendencia. 330 280 230 180 130 80 0
24
48
72
96
120
144
Datos
168
192
Previsiones
Fig. 3.17.- Serie observada y previsiones hasta el año 2000
© Los autores, 2001; © Edicions UPC, 2001.
t
p42
Series temporales
4 MODELIZACIÓN CON VARIABLES CATEGÓRICAS Tal como se ha comentado en el capítulo anterior, si hubiera estacionalidad, estimar el modelo de tendencia sobre los datos directos, por procedimientos usuales de ajuste mínimocuadrático, sería improcedente. Ello es debido a que se produciría una inflación de los residuos no atribuible a la aleatoriedad sino a la variabilidad ocasionada por el componente estacional. Para evitarlo, se pueden modelizar conjuntamente la tendencia y la estacionalidad con variables categóricas asociadas a cada estación, o bien desestacionalizar previamente la serie y entonces ajustar el modelo de tendencia, como ya se ha expuesto. La modelización conjunta, con variables categóricas, de la tendencia y la estacionalidad presenta como principal ventaja la generalidad del método. Por este procedimiento no es necesario, a priori, asumir un modelo aditivo o multiplicativo, sino que se plantea un modelo general que incluye todas las posibilidades. Sea p el período estacional, es decir, el número de unidades de tiempo que conforman el patrón de comportamiento que se repite sistemáticamente. Cada uno de los valores del tiempo contenidos en p corresponde a una estación, la cual se designará por el subíndice s, de forma que s = 1, 2, ..., p. Cada estación debe estar ligada biunívocamente a una variable categórica. Dicha variable es un indicador que toma el valor 1 en la estación a la que está asociada y 0 en todas las demás, excepto para la primera estación, en que todas toman el valor 0. Ésta es la razón por la cual con p-1 variables categóricas es suficiente para estudiar una serie de período p. Las variables categóricas, Q, quedan, pues, definidas como Qj = 0 j ≠ s con Qj = 1 j = s
s = 1, 2 , @ , p
Con estas variables se plantea un modelo tipo p Y = φ ( t ) + ∑ βj Qj + j=2
y
j = 2 , @ , p
p ∑ γ j Qj t + ε j=2
donde φ(t) es una función polinómica del tiempo, o sea, φ(t) = α0 +
k
∑α
i
ti , que viene a
i=1
recoger la tendencia o evolución general, a largo plazo, de los datos con el tiempo. Los p
términos del grupo
∑ β Q indican los cambios que las distintas estaciones, componentes j
j
j= 2
del período estacional, introducen en la ordenada en el origen del modelo, parte aditiva p
según el sistema clásico. Mientras que los del grupo
∑γ Q t j
j
representan la influencia de la
j= 2
estacionalidad sobre la función del tiempo, lo que en el método clásico se interpreta como parte multiplicativa. El estudio de la significación de cada uno de los coeficientes α, β y γ, y la consiguiente eliminación de los no significativos conducirá el modelo que definitivamente explica el comportamiento de la serie.
© Los autores, 2001; © Edicions UPC, 2001.
p43
Modelización con variables categóricas
Para desarrollar la metodología de las variables categóricas sobre un ejemplo, se van a utilizar los datos relativos a las ventas de material deportivo estudiados por el método clásico, con el fin de poder comparar posteriormente los resultados obtenidos. En la tabla 4.I se vuelven a reproducir los datos de la serie cronológica, junto a los valores de las variables categóricas. La representación gráfica de los mismos ya se presentó en la figura 3.1, cuya observación condujo a pensar en una tendencia lineal creciente y una estacionalidad de período p = 4. A fin de no confundir los dos efectos, procede la creación de variables categóricas que identifiquen cada una de las cuatro estaciones, que en este ejemplo constituyen el período de repetición del patrón estacional. Por otra parte, suponiendo que hubiese ciclos, el intervalo de tiempo de recogida de datos es totalmente insuficiente para tomarlos, por lo que su posible existencia quedará enmascarada en los residuos. En la tabla 4.I están las variables categóricas Q2, Q3 y Q4, cuya conjunción representa de forma unívoca cada trimestre. Se insiste en que no es necesaria una Q1, puesto que el primer trimestre es el que toma como referencia Q2 = Q3 = Q4 = 0, y son los demás que, a través del indicador, aportarán la parte del efecto estacional correspondiente. En este caso, al ser la tendencia rectilínea, se plantea el modelo Y = α0 + α1 t + β2 Q2 + β3 Q3 +
β4 Q4+
γ 2 Q2 +t
γ 3 Q3 +t
γ 4 Q4+ t
ε
La estimación de sus parámetros conduce a los resultados expuestos en la tabla 4.II. Año
Trimestre (s)
Ventas (Y)
Q2
Q3
Q4
t
1990
1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4
40,22 54,89 63,51 111,35 46,95 51,62 61,47 108,58 41,38 65,30 64,25 113,82 53,34 59,37 66,15 121,5 67,38 56,09 75,11 124,39 55,90 61,25 75,44 126,50
0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0
0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0
0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
1991
1992
1993
1994
1995
Tabla 4.I.- Ventas de material deportivo
© Los autores, 2001; © Edicions UPC, 2001.
p44
Series temporales
Los resultados del modelo lineal general evidencian que todos los términos del tipo Qjt no son estadísticamente significativos, (p-val < 0,05), por tanto procede recalcular el modelo prescindiendo de ellos. Cabe destacar que este hecho manifiesta que la estacionalidad no modifica la pendiente de la recta del tiempo, es decir, el incremento de las ventas es el mismo para cada trimestre. Esto simplifica el caso al corresponder a un modelo aditivo puro, que puede ser, alternativamente, estudiado por la metodología de la descomposición clásica, tal como se ha hecho en el capítulo 3. Si alguno de esos términos hubiese resultado significativo, el sistema clásico proporcionaría un modelo bastante precario.
Regresión Residuos Total
Ord. Origen Q2 Q3 Q4 t t*Q2 t*Q3 t*Q4
nu 7 16 23
S.C. 17166,997 357,988 17524,985
C.M. 2452,428 22,374
F 109,609
Coeficientes 38,9463 15,7735 19,1936 65,6577 1,0832 -0,8026 -0,3513 -0,1485
Error típico 3,660 5,351 5,535 5,726 0,283 0,400 0,400 0,400
t 10,640 2,948 3,468 11,466 3,832 -2,008 -0,879 -0,371
p-val 0,000 0,009 0,003 0,000 0,001 0,062 0,393 0,715
p-val 0,000
R^2 = 0,9796 Tabla 4.II.- Resultados del modelo lineal general
La tabla 4.III contiene los resultados del ajuste del modelo definitivo, es decir, de Y = α0 + α1t +
Regresión Residuos Total
Ord. Origen Q2 Q3 Q4 t
β2 Q 2 +
β3 Q3 +
β4 Q 4 +
ε
nu 4 19 23
S.C. 17064,626 460,359 17524,985
C.M. 4266,157 24,229
F 176,073
Coeficientes 42,5280 6,4674 15,2781 64,5555 0,7576
Error típico 2,580 2,846 2,857 2,876 0,147
t 16,484 2,273 5,347 22,447 5,151
p-val 0,000 0,035 0,000 0,000 0,000
R^2 = 0,97373 Tabla 4.III.- Resultados del modelo definitivo
© Los autores, 2001; © Edicions UPC, 2001.
p-val 0,000
p45
Modelización con variables categóricas
Los gráficos de residuos y probabilístico Normal se presentan en la figura 4.1, y no presentan ninguna peculiaridad especial. En consecuencia queda validado el modelo obtenido.
Res
Res
0
4
0
7
0
4
8
ˆ Y
%P
t
9
0
Res Fig. 4.1.- Gráficos de los residuos del modelo
Como resumen de todo lo anterior, el modelo que explica el comportamiento de la serie, y que va a ser utilizado para hacer previsiones de las ventas futuras, ha resultado ser # = 42,5280 + 0,7576 t+ 6,4674Q + 15,2781Q + 64,5555Q Y t 2 3 4 La interpretación de los coeficientes del modelo estacionalidad.
permite identificar tendencia y
En cuanto a la primera, se detecta un incremento de las ventas de 0,7576 unidades cada unidad de tiempo (trimestre); incremento que se mantiene constante sea cual sea la estación. En consecuencia, la estacionalidad sólo afecta a la ordenada en el origen de cada una de las cuatro estaciones (trimestres) que componen el período. Tomando como referencia el primer trimestre, en el que Q2 = Q3 = Q4 = 0, se observa que en él las ventas dependen del tiempo, según la ecuación # = 42,5280 + 0,7576 t Y con t = 1 + 4$ t
© Los autores, 2001; © Edicions UPC, 2001.
p46
Series temporales
Para un tiempo correspondiente a un segundo trimestre, las variables categóricas toman los valores Q2 = 1 y Q3 = Q4 = 0 y el modelo es # = 42,5280 + 0,7576 t + 6,4674 = 48,9954 + 0,7576 t Y t
con
t = 2 + 4$
Para un tiempo de tercer trimestre, las variables categóricas toman los valores Q3 = 1 y Q2 = Q4 = 0 y el modelo es # = 42,5280 + 0,7576 t + 15,2781 = 57,8061 + 0,7576 t Y t
con
t = 3 + 4$
Y, en el caso del cuarto trimestre, las variables categóricas toman los valores Q4 = 1 y Q2 = Q3 = 0; el modelo es # = 42,5280 + 0,7576 t + 64,5555 = 107,0835 + 0,7576 t con Y t
t = 4 + 4$
Así, para cada trimestre (estación del período), se obtiene un modelo del mismo tipo, rectilíneo con igual pendiente, en este caso, pero con distinta ordenada en el origen. Esto se puede interpretar como que, tomando siempre como referencia el primer trimestre, en el segundo el volumen de ventas añade a la función del tiempo 6,4674 unidades, en el tercero el incremento es de 15,2782 y en el cuarto de 64,5555 unidades. Estos valores son, evidentemente, los coeficientes de las variables categóricas. En consecuencia los coeficientes de las variables categóricas representan la cantidad en que una estación, sistemáticamente, supera (o no alcanza, según sea el signo) el valor de la primera estación del período. Es decir, estos coeficientes son una forma de medir el componente estacional. Para evaluar la bondad del modelo, en la figura 4.2 se muestra la comparación de los valores medidos con los estimados a partir del modelo ajustado; se observa la buena concordancia entre ambos. La modelización tiene como objetivo principal el poder hacer previsiones para un futuro próximo. En este caso se procede a calcular las previsiones para los próximos 2 años, a base de sustituir los valores del tiempo y de las variables categóricas en el modelo obtenido. Los resultados se muestran en la tabla 4.IV y en la figura 4.3. Y 130
100
70
40 0
4
8
12
16
20
Fig. 4.2.- Datos reales ( • ) y modelo ajustado ( )
© Los autores, 2001; © Edicions UPC, 2001.
24 t
p47
Modelización con variables categóricas
Aquí se detecta la coherencia de la previsión con los datos históricos, siempre que no cambie el modelo de comportamiento de la serie en el período previsto. Esto podría ocurrir, por ejemplo, si hubiese una recesión económica, la apertura de otro comercio de similares características en las inmediaciones, un cambio de hábitos en la población, una campaña propagandística con éxito de la competencia, etc. # = 42,5280 + 0,7576 t+ 6,4674Q + 15,2781Q + 64,5555Q Y t 2 3 4
Año
t
Q2
Q3
Q4
# Y t
1996
25
0
0
0
61,4680
26
1
0
0
68,6930
27
0
1
0
78,2613
28
0
0
1
128,2963
29
0
0
0
64,4984
30
1
0
0
71,7234
31
0
1
0
81,2917
32
0
0
1
131,3267
1997
Tabla 4.IV.- Previsiones para 1996 y 1997
Y
140
90
40 0
4
1990 ←
8
12
datos
16
20
24
28
32 t 1995 1996 1997 →← previsiones →
Fig. 4.3.- Datos, modelo y previsiones para los dos años siguientes
© Los autores, 2001; © Edicions UPC, 2001.
p48
Series temporales
4.1 Comparación del método de descomposición con el de variables categóricas Se han expuesto dos métodos para la descomposición de la serie y ambos se han aplicado a un caso de modelo aditivo puro, es decir, en el que la estacionalidad no afecta a la pendiente de la recta de tendencia. El de variables categóricas es más simple en cuanto a manipulación y cálculos, aunque, si el período tiene muchas componentes, adquiere mayor aparatosidad por el número de variables categóricas que se manejan. El clásico, que identifica los componentes del modelo por medio del uso de medias móviles, conduce a resultados similares, en un caso en que se insiste que es aditivo puro; en casos más generales la descomposición clásica no sería capaz de conseguir un buen modelo.
La comparación de ambos, sobre el ejemplo desarrollado, se presenta en las figuras 4.4 y 4.5. La primera compara los resultados de los dos modelos dentro del período de recogida de información; la segunda confronta los valores de los residuos obtenidos mediante los dos sistemas. Ambos gráficos confirman la gran concordancia de los resultados.
En las tablas 3.IX y 4.IV se han presentado las previsiones de ventas del material deportivo para los ocho trimestres siguientes a la recogida de información, es decir, para los años 1996 y 1997, siempre bajo el supuesto que el comportamiento de la serie no va a cambiar en este período de tiempo. La figura 4.6 da idea de la casi coincidencia de las previsiones para las dos formas de análisis estudiadas.
Valores modelizados
130
100
70
40 0
4
8
12
16
20
24
t
Fig. 4.4.- Modelo según la descomposición clásica ( • ) y las variables categóricas ( » )
© Los autores, 2001; © Edicions UPC, 2001.
p49
Modelización con variables categóricas
15
R(categóricas)
10 5 0 -5 -10 -10
-5
0
5
10
15
R(descomp. clásica)
Fig. 4.5.- Residuos de la descomposición frente a los del modelo en variables categóricas
Ya que el objetivo del sistema clásico es descomponer la serie como un modelo aditivo, o multiplicativo si fuese el caso, de tendencia, estacionalidad, ciclos y residuos, es necesario identificar cada componente.
Previsiones
140 115 90 65 40 24
28
t
32
Fig. 4.6.- Previsiones para los dos años siguientes según la descomposición clásica ( • ) y las variables categóricas ( » )
Refiriéndonos sólo a tendencia y estacionalidad, y considerando el modelo puramente aditivo, como es el caso de los datos de las ventas de material deportivo, se tratará de pasar del modelo en variables categóricas q
Yt = α 0 +
∑α
p
i
i t +
i =1
©
L o s
a u t o r e s ,
∑
β j Qj
j=2
2 0 0 1 ;
©
E d i c i o n s
U P C ,
2 0 0 1 .
p50
Series temporales
a otro con sus componentes aisladas. Considerando el modelo aditivo, y suponiendo que los ciclos, caso de existir, no sean identificables con los datos disponibles, tendremos Yt =Tt + Et En este caso, después de estabilizar la serie, se habrá modelizado la tendencia como Tt = a0
q
∑α
+
i=1
i
ti
Debido a que es posible tener dos contadores del tiempo, uno asociado al momento de toma de datos y otro que identifica la estación a la que pertenece el dato, cualquier instante t puede escribirse como t = s + k p = s + p$ , con k = 0, 1, 2, y s = 1, 2,..., p, es decir, t es un múltiplo del período, p, más el indicador de la estación, s. Así, resulta Yt = Tt + Et = a0 +
q
∑α i=1
i
ti +
Es
p
donde
∑E
s
= 0 ya que se ha definido cada componente estacional como la diferencia
s =1
respecto a la media del período. Se asume que, en caso de modelo aditivo puro, los coeficientes asociados a las potencias del tiempo deben ser los mismos, sea cual sea el procedimiento empleado para su estudio; en consecuencia, las posibles discrepancias entre los valores estimados por ambos métodos serán muy pequeñas. Desarrollando las ecuaciones del modelo clásico y del de variables categóricas para s = 1,. . . , p, igualándolas para cada s se obtiene q
∑ α i ti
Yt=1+ p$ = α0
+
Yt= 2+ p$ = α0
+
i=1 q
∑α i=1
i
ti +
i
ti +
= a0 +
q
∑α i=1
i
ti +
q
β 2=
a0 +
∑α
βp =
a0 +
∑α
i=1
E1
i
ti +
E2
i
ti +
Ep
A Yt=p+ p$ = α0
q
∑α
+
i=1
q
i=1
y sumando miembro a miembro, resulta p
p α0 +
p
∑
β j = p a0
⇒
a0 = α0 +
j= 2
∑
βj
j= 2
p
de donde se deduce la expresión que da directamente la tendencia global, T, en función de los parámetros estimados en el modelo de variables categóricas:
© Los autores, 2001; © Edicions UPC, 2001.
p51
Modelización con variables categóricas
p
Tt = α0 +
∑
βj
j= 2
q
+
p
∑α
i
ti
i=1
Para cualquier estación, s, componente del período p, el modelo en variables categóricas puede escribirse como Yt = α0 +
q
∑α i=1
Al ser la estacionalidad Es = Yt = s+ p$ −
ti + βs s = 1, … , p
i
t = s + p$
Tt= s+ p$ , restando las dos últimas expresiones de Yt y
Tt resulta p
Es = β s −
∑β j= 2
j
p
Para el caso del ejemplo del material deportivo, p = 4, con variables categóricas se obtuvo el modelo # = 42,5280 + 0,7576 t+ 6,4674Q + 15,2781Q + 64,5555Q Y t 2 3 4 4
∑ del cual resulta
βj
j= 2
= 21,57525 . A partir de este modelo la ecuación pura de la tendencia, 4 o esqueleto de la serie, es p
Tt = α0 +
∑ j= 2
p
βj
q
+
∑α i=1
i
ti = 42,5280 + 21,57525 + 0,7576 t = 64,10325 + 0,7576 t
Cuando, a partir de la estabilización por medias móviles, se estimó el modelo de tendencia (sistema clásico), el resultado fue Tt = 63,0065 + 0,8311 t Es evidente que ambos resultados, procedentes de técnicas de modelización distintas, son muy parecidos; su similitud ya ha quedado puesta de manifiesto en las comparaciones gráficas de modelos , residuos y previsiones de las figuras 4.4, 4.5 y 4.6. En cuanto a los valores de la estacionalidad, referidos a la media general, es decir, según los define el modelo clásico, se obtiene
E1 =
0 – 21,57525
E2 =
6,46475 – 21,57525 = –15,10785
E3 =
15,2781 – 21,57525 = – 6,29715
E4 =
64,5555 – 21,57525 = 42,98025
= –21,57525
© Los autores, 2001; © Edicions UPC, 2001.
p52
Series temporales
4
Se comprueba que ∑ Es = 0 . s =1
Estos valores, como era de esperar, son muy similares a los obtenidos por la descomposición clásica (capítulo 3), que resultaron ser −20,6426; −15,5836; −6,5264 y 42,7526, respectivamente. Como resumen, se puede reiterar la gran similitud de valores de los coeficientes del modelo de tendencia y de los índices estacionales obtenidos por los dos métodos desarrollados. Esta concordancia es buena para un caso como el que se acaba de estudiar, que se podría etiquetar como modelo aditivo puro. Si se hubiera dado la circunstancia de una serie donde la estacionalidad hubiese afectado a la tendencia de distinta forma en cada componente del período, es decir, variando ya la pendiente, ya la ordenada en el origen, la descomposición clásica no hubiese conseguido modelizarla correctamente. Es por todo ello que se puede afirmar que la modelización global con variables categóricas es un procedimiento mucho más general para el estudio del comportamiento de una serie temporal y la realización de previsiones.
4.2 Caso usuarios de un teléfono En la tabla 4.5 se exponen unos datos cronológicos correspondientes al número de usuarios de un teléfono de atención al cliente de lunes a viernes, recogidos durante las 12 primeras semanas de puesta en marcha del servicio.
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Y 99,30 65,27 48,27 20,58 75,17 104,76 58,96 67,18 28,44 83,71 121,13 51,52 64,30 25,60 76,50
t 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
Y 117,66 52,67 63,96 40,85 76,12 116,48 52,86 79,80 44,25 88,39 125,34 46,45 80,05 50,67 94,03
t 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
Y 127,52 30,42 92,71 60,22 88,61 136,60 32,16 104,76 60,62 93,53 142,92 33,34 103,53 68,86 92,50
Tabla 4.V.- Usuarios del teléfono de atención al cliente
© Los autores, 2001; © Edicions UPC, 2001.
t 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Y 149,66 34,13 118,31 64,06 106,09 150,28 25,74 114,62 74,64 106,34 149,02 29,06 121,42 76,33 114,29
p53
Modelización con variables categóricas
En la figura 4.7 se muestra la evolución de la demanda de utilización de este servicio, y se observa que la simplicidad del método clásico de considerar la serie aditiva o multiplicativa, no está nada clara pues el patrón estacional ni se mantiene constante ni se amplifica sistemáticamente. Es natural que, de haber estacionalidad, ésta sea de período 5, correspondiente a posibles diferencias de utilización de dicho servicio en los distintos días de la semana. La observación del gráfico confirma esta estacionalidad. En cuanto a la tendencia, tampoco se ve muy claro si la hay; si se observan los datos del primer día de cada semana (lunes) parece que haya un crecimiento sostenido de la demanda, mientras que viendo el comportamiento de los martes (tabla 4.V) la tendencia es a una disminución. Si sólo se dispusiese del método clásico de descomposición de la serie sería difícil analizar esta situación, ya que la tendencia general, allí definida como esqueleto de la serie, parece mantenerse más o menos constante. Y 160 120 80 40 0 0
20
60 t
40
Fig. 4.7.- Evolución cronológica de la demanda
Aplicando la sistemática de análisis de variables categóricas, corresponde definir 4 variables, Q2, Q3, Q4 y Q5, que identificarán cada uno de los cinco días de la semana. En la tabla 4.VI, se muestra un fragmento de los valores de dichas variables asociados a los datos disponibles. t 1 2 3 4 5 6 7 8 9 10 11 12
Y 99,3 65,27 48,27 20,58 75,17 104,76 58,96 67,18 28,44 83,71 121,13 51,52
Q2 0 1 0 0 0 0 1 0 0 0 0 1
Q3 0 0 1 0 0 0 0 1 0 0 0 0
Q4 0 0 0 1 0 0 0 0 1 0 0 0
Q5 0 0 0 0 1 0 0 0 0 1 0 0
...
...
...
...
...
...
Tabla 4. VI.- Variables categóricas
© Los autores, 2001; © Edicions UPC, 2001.
p54
Series temporales
El modelo inicial que debe plantearse es del tipo Y = α0 + α1t + β2Q2+
β3 Q3 +
β4 Q4 +
β 5Q 5 +
γ 2Q2 t+
γ 3Q3+t
γ 4Q4+t
γ 5Q+5t
ε
y los resultados de la estimación mínimo-cuadrática de los coeficientes se muestran en la tabla 4.VII. De ella se deduce que el término t=Q4 no es significativo (p-val > 0,05) y puede ser eliminado del modelo. Al recalcular el nuevo modelo se obtienen los resultados mostrados en la tabla 4.VIII.
Regresión Residuos Total
Ord. Origen Q2 Q3 Q4 Q5 t t*Q2 t*Q3 t*Q4 t*Q5
nu 9 50 59 Coef. 101,580 -38,364 -53,757 -83,296 -31,512 0,941 -1,636 0,385 0,106 -0,288
S.C. C.M. 73631,982 8181,331 1151,873 23,037 74783,855 Error típico 2,675 3,832 3,882 3,933 3,985 0,080 0,114 0,114 0,114 0,114
t 37,978 -10,012 -13,849 -21,179 -7,908 11,718 -14,408 3,387 0,935 -2,539
F 355,132
p-val 0,000
p-val 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,354 0,014
R^2 = 0,9846 Tabla 4.VII.- Resultados del modelo lineal inicial
Regresión Residuos Total
Ord. Origen Q2 Q3 Q4 Q5 t t*Q2 t*Q3 t*Q5
nu 8 51 59 Coef. 100,067 -36,851 -52,244 -80,110 -29,999 0,994 -1,689 0,331 -0,341
S.C. C.M. 73611,831 9201,479 1172,023 22,981 74783,855 Error típico 2,127 3,469 3,524 1,964 3,637 0,057 0,098 0,098 0,098
t 47,038 -10,622 -14,824 -40,780 -8,247 17,529 -17,198 3,376 -3,476
F 400,398
p-val 0,000 0,000 0,000 0,000 0,000 0,000 0,000 0,001 0,001
R^2 = 0,9843 Tabla 4.VIII.- Resultados del modelo lineal definitivo
© Los autores, 2001; © Edicions UPC, 2001.
p-val 0,000
p55
Modelización con variables categóricas
El modelo que explica el comportamiento de la serie presenta un elevado grado de ajuste 2 (R = 98,43%) y, según los coeficientes de la tabla 4.VIII, toma la expresión # = 100,07 − 36,85 Q − 52,24 Q − 80,11 Q − 30 Q Y t 2 3 4 5 + 0,99 t − 1,69 t Q2 + 0,33 t Q3 − 0,34 t Q5 La figura 4.8 presenta el modelo ajustado junto a los datos, y la figura 4.9 los residuos del modelo. Se observa que la mayoría de los valores están en el intervalo ± 4 unidades, y sólo en algún caso la discrepancias alcanza 10 unidades; ello confirma el buen ajuste.
Y
200 160 120 80 40 0
0
20
40
60 t
Fig. 4.8.- Datos experimentales ( • ) y modelo ajustado ( )
R 12 8 4 0 -4 -8 -12 0
20
40
60 t
# Fig. 4.9.- Residuos del modelo: R = Y − Y
La interpretación del modelo obtenido, se puede hacer determinando la ecuación de previsión asociada a cada uno de los días de la semana, es decir, a cada componente de la estación. A título de ejemplo, los modelos para el lunes y el viernes son:
© Los autores, 2001; © Edicions UPC, 2001.
p56
Lunes: Viernes:
Series temporales
s=1 s=5
Q2 = Q3 = Q4 = Q5 = 0 Q2 = Q3 = Q4 = 0 Q5 = 1
# = 100,07 + 0,99 t Y # = 70,07 + 0,65 t Y
con t = 5$ +1 con t = 5$ +5
En la figura 4.10, se puede observar cada una de las cinco rectas que componen el modelo, sobre el fondo de los datos experimentales. Cada recta, a la derecha del gráfico, lleva el indicador estacional que le corresponde (lunes: s =1; martes: s = 2… ). De la ecuación del modelo general y del estudio de este gráfico se puede concluir que el lunes y el jueves tienen la misma tendencia (las rectas 1 y 4 son paralelas); sin embargo el lunes tiene, sistemáticamente, un mayor número de usuarios que el jueves. Esta discrepancia constante es la diferencia de ordenadas de ambas rectas, o sea el coeficiente de Q4, que en este caso es igual a −80,11. La tendencia común indica un aumento sostenido de usuarios que se evalúa en un incremento de 0,99 usuarios al día (coeficiente de t en las rectas 1 y 4).
Y 160
1 3
120
5 4
80
40
2 0
0
20
40
60
t
Fig. 4.10.- Modelos asociados a cada día de la semana
En cuanto a los miércoles y viernes (rectas 3 y 5), se puede decir que tienen un comportamiento similar. En los primeros días había algo más de usuarios el viernes que el miércoles; sin embargo, dicho número ha aumentado en ambos, pero con mayor velocidad el miércoles, de forma que actualmente éste ya supera al viernes. Especial atención merece el martes (recta 2), ya que inicialmente tenía un número de usuarios situado más o menos en el promedio de los otros días, pero ha sufrido un decrecimiento progresivo que actualmente lo sitúa en un valor muy inferior a los demás días de la semana, los cuales, en mayor o menor grado, han presentado un incremento de demanda del servicio. Está claro que, en la práctica, una situación como ésta requeriría de un estudio en profundidad de las causas que han conducido a esta situación: quizás la persona que atiende la línea no es la misma, o hay mayores dificultades para establecer comunicación y el público deja de llamar los martes,... La obtención del modelo tiene como principal objetivo el poder hacer previsiones del comportamiento de la demanda del servicio durante los próximos días, a fin de programar un
© Los autores, 2001; © Edicions UPC, 2001.
p57
Modelización con variables categóricas
aumento del número de líneas telefónicas, del número de personas que atienden a los usuarios, plantearse una redistribución en el tiempo, etc. La tabla 4.IX muestra las previsiones para las dos semanas próximas, junto a los valores del tiempo y de las variables categóricas, necesarios para ser sustituidos en el modelo general. t 61 62 63 64 65 66 67 68 69 70
Q2 0 1 0 0 0 0 1 0 0 0
Q3 0 0 1 0 0 0 0 1 0 0
Q4 0 0 0 1 0 0 0 0 1 0
Q5 0 0 0 0 1 0 0 0 0 1
Y prevista 160,686 20,129 131,312 83,557 112,478 165,655 16,654 137,938 88,526 115,741
Tabla 4.IX.- Previsiones para dos semanas
En la figura 4.11 se pueden observar los valores de las previsiones como extrapolación del modelo ajustado sobre los datos disponibles, constatándose la gran disminución del número de usuarios del martes.
Y180 150 120 90 60 30 0 0
10
20
30
40
50
60
70 t
Fig. 4.11. - Datos ( • ), modelo ( --- ) y previsiones (1)
Dichas previsiones serán válidas siempre que se mantenga el modelo de comportamiento que han puesto de manifiesto los datos disponibles. Es evidente que si se encontrase la causa de la disminución de llamadas producida en los martes, y se corrigiese, sería necesario llevar a cabo una nueva recogida de información para elaborar los modelos correspondientes y hacer previsiones en la nueva situación.
© Los autores, 2001; © Edicions UPC, 2001.
p58
Series temporales
5 AUTOCORRELACIÓN En este capítulo se presenta una herramienta de análisis, el correlograma, o representación gráfica de la función de autocorrelación, que tiene una doble utilidad. Por una parte, puede servir para confirmar la presencia de estacionalidad y determinar su período; por otra, indica cuántas previsiones son admisibles, a partir del último tiempo de recogida de información. El concepto de autocorrelación es bien simple; supongamos que se dispone de la serie cronológica Y1, Y2,... , Y1+k,... , YN, y se desplaza dicha serie k unidades de tiempo; se pueden formar las parejas (Y1; Y1+k), (Y2; Y2+k), (Y3; Y3+k),..., (YN–k; YN). El coeficiente de correlación entre ambas series, es decir, de las parejas citadas, se denota por ρk y recibe el nombre de coeficiente de autocorrelación de orden k; el desplazamiento k también se denomina retardo, y representando gráficamente ρk en función del retardo k, se obtiene el autocorrelograma de la serie. De la estructura del planteamiento se deduce que ρk=ρ−k.
5.1 Correlograma Un valor no nulo de ρk indica que existe correlación entre informaciones separadas k unidades de tiempo, es decir, la historia se transmite k unidades de tiempo más allá. En consecuencia, si el último valor del tiempo del que se dispone de datos es el T, será admisible hacer previsiones para un tiempo igual a T+k. Evidentemente, si ρk fuese nulo, sería inadmisible una predicción para T+k, ya que los datos disponibles no transmiten ninguna información relevante a una distancia como la considerada. Sea que se dispone de una serie cronológica de datos y1, y2,..., yt,..., yN, para elaborar el correlograma o gráfico de la función de autocorrelación. Se estiman las siguientes características: N
̈
Media:
ˆ = y = m
∑
yi
i=1
N N− k
̈
Autocovariancia: γˆ k =
̈
Autocorrelación:
∑
(yi − y) (yi+ k − y)
i =1
N
ρˆ k = rk =
k = 0, 1,..., N–1
γˆ k γˆ 0
Para poder estimar la autocovariancia, γk, el número de componentes de la serie debe ser tal que N > k+1, y es recomendable N ≥ 50 y k ≤ N/4.
© Los autores, 2001; © Edicions UPC, 2001.
p59
Autocorrelación
Para identificar los coeficientes de autocorrelación que sean significativamente distintos de cero, es necesario estudiar el comportamiento estadístico de los estimadores. Bartlett ha estudiado el estadístico rk y, bajo el supuesto de que ρk = 0 para todo k ≥ K, obtiene que V(rk ) ≅
1 N
K −1
∑
−(K −1)
ρi2
∀k≥K
al sustituir ρi por su estimador, ri, y, dado que ρ0 = 1 y ρi = ρ−i, resulta que la estimación de la variancia de rk es igual a
ˆ k) ≅ V(r
1 N
K −1
∑
− (K −1)
ri
2
⇒
V(rk ) ≅ V(rk ) ≅
1 N 1 N
k ≥ K 1 + 2
K −1
∑r 1
i
2
K =1
k ≥ K
K > 1
Anderson indica que para valores de k tales que ρk = 0 y N suficientemente grande, rk se distribuye aproximadamente N(0; V(rk)). De esta forma, con una probabilidad del orden del 95%, si ρk = 0, su estimador rk se encontrará en el intervalo ± 2 S(rk), donde S(rk) representa ˆ k) . la desviación tipo estimada de r , es decir, S(rk ) = V(r k
El intervalo ± 2 S(rk) se denomina intervalo de no significación de ρk, y es el conjunto de valores que puede tomar rk para que, con un riesgo del 5%, se pueda admitir la ausencia de correlación entre valores de la serie, desplazados k unidades de tiempo. Por todo ello, al calcular la función de autocorrelación de una serie, es bueno representarla gráficamente junto al intervalo ± 2 S(rk), con objeto de considerar únicamente como coeficientes de autocorrelación no nulos aquellos cuya estimación esté fuera del citado intervalo. Las autocorrelaciones suelen disponerse matricialmente, lo que da lugar a la matriz de autocorrelaciones PN, simétrica, definida positiva, cuya estructura es 1 ρ1 ρ2 1 ρ1 ρ1 1 ρ1 PN = ρ 2 ... ... ... ρ N - 1 ρN - 2 ρN - 3
. . . . . ρN - 1 . . . . . ρN - 2 . . . . . ρN - 3 ..... ... ..... 1
Como aplicación se va a analizar la serie cronológica de la tabla 5.I, que corresponde al valor de los stocks en I.C.I. (Serie D* de Time Series Analysis and Forecasting, O.D. Anderson, ed. Butterworths, 1977). Su evolución se muestra en la figura 5.1.
© Los autores, 2001; © Edicions UPC, 2001.
p60
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
Series temporales
Y 304 303 307 299 296 293 301 293 301 295 284 286 286 287 284 282 278 281
t 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Y 278 277 279 278 270 268 272 273 279 279 280 275 271 277 278 279 283 284
t 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
Y 282 283 279 280 280 279 278 283 278 270 275 273 273 272 275 273 273 272
t 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
Y 273 272 273 271 272 271 273 277 274 274 272 280 282 292 295 295 294 290
t 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Y 291 288 288 290 293 288 289 291 293 293 290 288 287 289 292 288 288 285
t 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107
Y 282 286 286 287 284 283 286 282 287 286 287 292 292 294 291 288 289
Tabla 5.I.- Valor de los stocks en I.C.I
Y
310 300 290 280 270 260 0
40
80
120
t
Fig. 5.1.- Evolución de la serie de la tabla 5.I
En la tabla 5.II se presenta el detalle del cálculo de las autocorrelaciones para los casos de k =1 y k = 2, de los valores de la tabla 5.I. En primer lugar es necesario calcular la media de todos los datos ˆ= y = m
1 ( 304 + . . . + 295 ) = 299,2 10
© Los autores, 2001; © Edicions UPC, 2001.
p61
Autocorrelación
k=0
k=1
k=2
t
1
2
3
4
5
y
304
303
307
299
296
y-y
20,44
19,44
23,44
15,44
12,44
y
304
303
307
y-y
20,44
19,44
y y-y
...
105
106
107
291
288
289
...
7,44
4,44
5,44
299
...
294
291
288
23,44
15,44
...
10,44
7,44
4,44
304
303
307
...
292
294
291
20,44
19,44
23,44
...
8,44
10,44
7,44
Tabla 5.II.- Detalle del cálculo de las autocorrelaciones de la tabla 5.I
Las estimaciones se obtienen como
γˆ1 =
1 107
107
∑ (y
i
∑ (y
i
- y )2 =
1
- y ) ( y i - 1 - y )=
2
r1 = ρˆ1 =
γˆ2 =
1 107
107
∑ (y
i
20,442
107
1 107
γˆ0 =
= 74,695
19,44 × 20,44 + ... + 5,44 × 4,44 107
23,44 × 20,44 + ... + 5,44 × 7,44 107
3
γˆ2 59,775 = = 0,800 γˆ0 74,695
etc. Según Bartlett las desviaciones tipo estimadas para r1 y r2 son: S(r1) = S(r2 ) =
1 N
= 66,123
γˆ1 66,123 = = 0,885 γˆ0 74,695
- y ) ( y i - 2 - y )=
r2 = ρˆ2 =
+ ... + 5,442 107
1 N
=
(1 + 2 r12 ) =
1 107
= 0,097
1 + 2 × 0,8852 107
etc.
© Los autores, 2001; © Edicions UPC, 2001.
= 0,155
= 59,775
p62
Series temporales
Y los intervalos ± 2 S(rk) son, respectivamente, ± 0,194 y ± 0,310 para k=1 y k=2. En consecuencia, con un riesgo del 5%, ρ1 y ρ2 pueden ser significativamente distintos de cero. Analizando los 107 valores de la serie completa para k = 1, 2,..., 10, se obtienen los valores mostrados en la tabla 5.III y presentados en la figura 5.2. De estos resultados, se verifica que a partir de k = 7 ya se puede considerar ρk como nulo, es decir, no es admisible hacer previsiones separadas en más de 7 unidades de tiempo del último momento de recogida de datos.
k
1
2
3
4
5
6
7
8
9
10
rk
0,89
0,80
0,70
0,63
0,58
0,55
0,48
0,40
0,31
0,23
S(rk)
0,10
0,15
0,19
0,21
0,23
0,24
0,25
0,26
0,27
0,27
Tabla 5.III.- Valores de las autocorrelaciones y sus desviaciones tipo
rk
1
0,5
0 k
-0,5
-1
Fig. 5.2.- Correlograma
Con los valores de la tabla 5.III, se puede escribir la matriz de autocorrelaciones que, para k =3, adquiere la siguiente forma: ˆ = P3
1
0,885
0,800
0,885 0,800
1 0,885
0,885 1
0,699
0,800
0,885
©
L
o
s
0,800 0,885 1 0,699
a
u
t
o
r
e
s
,
2
0
p63
Autocorrelación
5.2 Interpretacion de los correlogramas
En la figura 5.3 se muestran los correlogramas de las series analizadas hasta ahora.
El primero, que corresponde a los datos de la figura 1.2 de la evolución del índice IBEX35, muestra que sólo son significativos los tres primeros coeficientes de autocorrelación; por tanto, las previsiones dejan de ser válidas a partir de tres unidades de tiempo después del último dato. Es decir, lo que ocurra en un instante se transmite hasta tres unidades de tiempo más adelante.
El segundo, de los datos de la tabla 3.I y de la figura 3.1 sobre las ventas trimestrales de material deportivo, confirma la estacionalidad de período cuatro, ya que cada cuatro barras de autocorrelación se repite la misma estructura de comportamiento. En este caso es posible hacer previsiones a cuatro trimestres vista, ya que para k = 4 el coeficiente de autocorrelación es significativamente distinto de cero, aunque no lo sean los de k = 1, 2 y 3. Este hecho se puede interpretar como que la información de un trimestre se transmite directamente hasta una distancia temporal de cuatro trimestres, sin que afecte el comportamiento de los tres trimestres intermedios. Así, por ejemplo, una vez conocidas las ventas de invierno, se puede hacer la previsión para el invierno próximo puesto que lo que ocurra en primavera, verano y otoño no afectará al invierno siguiente.
El tercero y el cuarto corresponden, respectivamente, a las temperaturas medias mensuales (tabla 3.X y figura 3.6), y a los usuarios mensuales de un transporte público (tabla 3.XIV y figura 3.12). En ambos casos se confirma la estacionalidad de período 12, y se pueden hacer previsiones a 18 meses para la temperatura, y a 13 para los usuarios. A diferencia del segundo caso, en el último la información de un mes afecta directamente al resto de meses del mismo grupo de 12; es decir, si bien es cierto que se puede predecir el número de usuarios para dentro de un año, lo que ocurra en los meses venideros puede afectar esta previsión; por tanto interesa incorporar los datos disponibles lo más rápidamente posible al modelo, para una mayor fiabilidad de las previsiones.
El último de los correlogramas es el de los usuarios de un teléfono de atención al cliente, (tabla 4.V y figura 4.7). Además de confirmar la estacionalidad de período 5, pone de manifiesto que es aceptable hacer previsiones para los próximos 10 días, es decir, a dos semanas vista.
© Los autores, 2001; © Edicions UPC, 2001.
p64
Series temporales
IBEX rk
DEPORTE
1
rk 1,0
0,5
0,5
0
0,0
-0,5
-0,5 -1,0
-1
k
k
TEMPERATURAS rk
USUARIOS TRANSPORTE
1
rk 1,0
0,5
0,5
0
0,0
-0,5
-0,5
-1
-1,0 k
k
USUARIOS TELÉFONO rk
1 0,5 0 -0,5 -1
k
Fig. 5.3.- Correlogramas
© Los autores, 2001; © Edicions UPC, 2001.
Otras técnicas de previsión: ponderación exponencial
p65
6 OTRAS TÉCNICAS DE PREVISIÓN: PONDERACIÓN EXPONENCIAL Cuando la serie presenta componente estacional y tendencia que se mantienen de forma sostenida a lo largo de todo el período de recogida de datos, se han expuesto dos formas de modelizarla y poder hacer previsiones: la descomposición clásica y las variables categóricas. Sin embargo, son frecuentes las situaciones en que la tendencia, caso de existir, puede ser difícil modelizarla a través de un simple modelo polinómico de menor o mayor grado. Podría entonces pensarse en un modelo de evolución que cambiase a lo largo del tiempo; en estos casos las técnicas asociadas a la metodología de la ponderación exponencial son útiles para hacer previsiones sobre la evolución futura.
6.1 Suavizado exponencial La ponderación exponencial, o suavizado exponencial, es otra técnica destinada también a estabilizar la serie, eliminando en lo posible la influencia del componente aleatorio. Para ello se construye una nueva serie, la serie suavizada St , a partir de los datos iniciales, Yt , de manera que con 0 < λ < 1 St = λ Yt + ( 1 − λ ) St −1 Para que la serie suavizada quede definida, es necesario concretar los valores de S0, que generalmente se considera igual a Y1, y el del coeficiente de ponderación λ. En la selección del valor de λ se pueden emplear distintos criterios de minimización de errores, que se expondrán a continuación. Sustituyendo repetitivamente St-1, St-2,... por su expresión de St, se obtiene St = λYt + λ (1− λ )Yt −1+ λ (1− λ )2 Yt− 2+ @+ λ (1 − λ )i Yt−+i @ + λ (1− λ )t −1Y1+ λ (1− λ )t S0
# El valor de St es la previsión para el tiempo siguiente, es decir, Y t + 1 = St . El análisis de la expresión anterior permite interpretar este tipo de suavizado, de forma que el valor de Y previsto para el período t+1, es decir St, se obtenga como promedio ponderado de los valores reales que ha presentado la serie cronológica desde el inicio de la recogida de información. La discrepancia entre los valores obtenidos y los previstos, Yt+1 − St, es atribuible en parte al componente aleatorio y, posiblemente, a cambios bruscos en el comportamiento de la serie. El coeficiente de ponderación λ juega el siguiente papel: cuanto mayor sea su valor, tanto más peso se dará a los valores recientes, en detrimento de los antiguos; mientras que valores de λ próximos a cero dan gran peso a la historia y poca importancia a los valores próximos.
© Los autores, 2001; © Edicions UPC, 2001.
p66
Series temporales
Así, si la serie se mantiene estable, serán interesantes valores pequeños del coeficiente de ponderación ya que amortiguarán fuertemente la oscilación aleatoria, mientras que si la serie presentara cambios bruscos, la serie suavizada tardaría mucho en detectarlos si su λ fuese pequeña, mientras que respondería prontamente a ellos con valores altos del coeficiente λ. Analizando la expresión del valor suavizado, para distintos valores de λ, se puede escribir, por ejemplo, λ = 0,10
⇒
# = S = 0,10 Y + 0,09 Y + 0,081 Y + 0,729 Y Y 5 4 4 3 2 1
λ = 0,50
⇒
# = S = 0,50 Y + 0,25 Y + 0,125 Y + 0,125 Y Y 5 4 4 3 2 1
λ = 0,90
⇒
# = S = 0,90 Y + 0,09 Y + 0,009 Y + 0,001 Y Y 5 4 4 3 2 1
Es decir, con un valor del factor de ponderación de 0,10, la previsión para t = 5 está constituida por un 10% del valor observado en t = 4, un 9% del de t = 3, un 8,1% del de t = 2 y un 72,9 % del de t = 1; o sea, con un valor pequeño de λ, la previsión está constituida mayoritariamente por el valor más antiguo. Cuando λ es igual a 0,50, los pesos aplicados a cada valor recogido están más uniformemente repartidos y, cuando λ es grande, por ejemplo 0,90, el mayor componente de la previsión es el último valor observado; los demás tendrán un valor de ponderación tanto más pequeño cuanto más alejados estén en el tiempo. El suavizado exponencial puede verse como un método alternativo a las medias móviles, con sus ventajas e inconvenientes. Entre las primeras hay que citar que con la ponderación exponencial no se pierde ninguna información, al contrario que con las medias móviles, pues cuanto mayor era la longitud del período a promediar, tanta más información se perdía, en el inicio y en el fin de la serie. Además una serie con cambios de tendencia, más o menos bruscos, se puede modelizar por suavizado exponencial y no podría hacerse ni por descomposición ni por variables categóricas. Por el contrario, si la serie presenta estacionalidad con las medias móviles, siempre que se escoja correctamente el período, ésta desaparece totalmente y da lugar a una serie estabilizada que permite modelizar directamente la tendencia, hecho que no ocurre con la ponderación exponencial simple, que no es capaz de suavizar la oscilación debida a la estacionalidad. Para solucionar este inconveniente, se han desarrollado técnicas basadas en el suavizado exponencial, que permiten incorporar un modelo de tendencia o bien una componente estacionaria; éstas son las técnicas de Brown, para el primer caso, o de Winters para el segundo.
© Los autores, 2001; © Edicions UPC, 2001.
p67
Otras técnicas de previsión: ponderación exponencial
6.2 Selección del factor de ponderación Tal como se ha expuesto, en función del valor de λ, se puede dar mayor o menor peso a la historia, y detectar con más o menos rapidez cambios bruscos en la serie; es por ello que la selección del valor más adecuado para el factor de ponderación es crucial en el éxito de la modelización de la serie y la previsión de valores futuros. Todos los métodos utilizados para esta selección se basan en minimizar alguna función de los errores de ponderación. % = S , los errores más destacables son: Recordando que Y t t −1 n
Error medio: promedio de los errores de previsión; atendiendo a que para hacer previsiones hay que disponer de datos, el primer valor previsto posible será el de t = 2: n
∑(
ME= n
Y t - St )
t=2
n -1
Error cuadrático medio: promedio de los cuadrados de los errores de previsión: n
MSE= n
∑(
2 Y t - St )
t=2
n -1
Error absoluto medio: promedio de los valores absolutos de los errores de previsión: n
M AE=
n
Y t - St
t=2
n -1
Media del porcentaje del error: promedio de los porcentajes de los errores relativos de previsión: n
MPE = n
∑
∑ t=2
Yt
% − Y t Yt n -1
× 100
Media del porcentaje de error absoluto: promedio de los porcentajes de los valores absolutos de los errores de previsión relativos: n
M APE =
∑ t=2
%t Yt - Y x 100 Yt n -1
Hay que insistir en que en una serie en la que el tiempo es t = 1, 2,..., n, el suavizado exponencial no ofrece ninguna previsión para t = 1, y, por tanto, no existe error de previsión
© Los autores, 2001; © Edicions UPC, 2001.
p68
Series temporales
en este punto; consecuentemente, en este caso los errores siempre son promedios de n −1 valores. De los errores expuestos, aquellos que no toman valor absoluto, ME y MPE, tienen poco interés ya que, a causa de la compensación de valores positivos y negativos, pueden dar valores de los promedios muy próximos a cero aun cuando existan errores de previsión muy grandes. En general, se selecciona aquel valor de λ para el cual los valores del error absoluto medio y del cuadrático medio, MAE y MSE, alcancen los valores más bajos. Como ejemplo consideremos los datos de la tabla 6.I, serie cronológica de 50 valores, cuya representación gráfica puede verse en la figura 6.1.
t
Yt
t
Yt
t
Yt
t
Yt
t
Yt
1 2 3 4 5 6 7 8 9 10
9,958 10,096 11,552 9,113 13,898 11,487 11,114 9,505 17,934 12,339
11 12 13 14 15 16 17 18 19 20
16,510 12,674 17,504 13,462 16,945 18,653 18,942 15,084 16,568 20,733
21 22 23 24 25 26 27 28 29 30
26,267 20,401 18,748 20,800 21,683 27,069 23,728 24,890 26,132 24,663
31 32 33 34 35 36 37 38 39 40
25,217 24,653 28,062 27,317 26,122 29,837 28,854 27,129 30,194 34,104
41 42 43 44 45 46 47 48 49 50
28,448 35,726 30,602 31,011 31,732 31,538 32,175 35,543 35,534 37,336
Tabla 6.I.- 50 valores de una serie cronológica
Y 40 30 20 10 0 0
10
20
30
40
Fig. 6.1.- Evolución cronológica de los datos de la tabla 6.I
© Los autores, 2001; © Edicions UPC, 2001.
50 t
p69
Otras técnicas de previsión: ponderación exponencial
Observando el gráfico, difícilmente se aprecia una estacionalidad, mientras que es evidente una tendencia creciente y casi seguramente lineal. La figura 6.2 es el correlograma de la serie que pone de manifiesto la ausencia de estacionalidad, junto con una autocorrelación significativa hasta un retardo de 4 unidades de tiempo. rk 1,0 0,5 0,0 -0,5 -1,0 k Fig. 6.2.- Correlograma de la serie de la tabla 6.I
Aplicando la ponderación exponencial a estos datos, en función del valor de λ, los errores evolucionan según muestra la tabla 6.II. λ 0,100 0,150 0,200 0,250 0,300 0,350 0,400 0,450 0,500 0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950
ME 4,278 3,092 2,416 1,984 1,685 1,467 1,300 1,169 1,062 0,974 0,899 0,835 0,780 0,731 0,689 0,651 0,617 0,586
MSE 25,408 15,628 11,731 9,904 8,975 8,496 8,270 8,200 8,233 8,341 8,507 8,722 8,981 9,283 9,628 10,019 10,461 10,961
MAE 4,363 3,196 2,627 2,351 2,217 2,174 2,171 2,183 2,214 2,251 2,289 2,330 2,371 2,418 2,470 2,525 2,581 2,643
MPE 17,577 12,719 9,817 7,896 6,531 5,510 4,716 4,079 3,556 3,119 2,746 2,425 2,145 1,898 1,677 1,479 1,299 1,133
Tabla 6.II.- Evolución de los errores en función de λ.
© Los autores, 2001; © Edicions UPC, 2001.
MAPE 18,494 13,812 11,622 10,632 10,214 10,157 10,271 10,449 10,696 10,960 11,233 11,508 11,786 12,082 12,396 12,723 13,052 13,406
p70
Series temporales
Analizando detenidamente la evolución de errores mostrada en la citada tabla, se observa que, tanto el error medio (ME) como la media del porcentaje del error (MPE) disminuyen al aumentar λ, mientras que los otros errores (MSE, MAE y MAPE) alcanzan el mínimo para el intervalo 0,35 ≤ λ ≤ 0,45. Dado que el error cuadrático medio (MSE) es el que, en general, presenta mejores propiedades, se va a tener en cuenta para seleccionar definitivamente el coeficiente de ponderación; así, en el caso del ejemplo, se va a trabajar con λ = 0,45. Para entender mejor lo que representa la selección de uno u otro valor de λ, en la figura 6.3 se pueden comparar las evoluciones de las series ponderadas respecto a los datos cronológicos para distintos valores del parámetro de ponderación. λ=0,10
λ=0,30
40
40
30
30
20
20
10
10 0
0 0
10
20
30
40
50
0
60 t
λ=0,45
10
20
30
40
50
60 t
20
30
40
50
60 t
λ=0,95
40
40
30
30
20
20
10
10
0
0 0
10
20
30
40
50
60 t
0
10
) para distintas λ. Fig. 6.3.- Serie original (•) y suavizada (
Directamente se observa que, en este caso, para valores pequeños de λ la serie suavizada va por detrás de la real, es decir, tarda mucho en responder a la evolución. Sin embargo, cuando λ = 0,95, la suavizada está totalmente ligada a la oscilación aleatoria de la serie, es decir, la previsión para el tiempo inmediato siguiente es prácticamente igual al último valor medido. Cuando λ = 0,45, valor para el que ha resultado un error cuadrático medio mínimo, la serie suavizada exponencialmente, sigue más claramente el esqueleto de la serie cronológica y queda amortiguada la oscilación aleatoria.
© Los autores, 2001; © Edicions UPC, 2001.
p71
Otras técnicas de previsión: ponderación exponencial
# = Y − S , para tres valores de λ. En ella se La figura 6.4 muestra los residuos, Rt = Yt − Y t t t-1 observa que para λ = 0,10 la mayoría de los residuos son positivos, es decir, la previsión va por detrás del valor real, mientras que para λ = 0,45 están, casi siempre, entre los de λ = 0,10 y los de λ = 0,90, es decir, son más próximos a cero, y por tanto, más pequeños. R 12
6
0
-6 0
10
20
Fig. 6.4.- Residuos en función de λ.
30
λ = 0,10 (…◊…)
40 λ = 0,45 ( −• − )
50 t λ = 0,90 (…× ) …
Para el valor del coeficiente de ponderación seleccionado (λ = 0,45), se calculan los valores # = S ) y los residuos de la serie suavizada, (St = 0,45 × Yt + 0,55 × St-1), las previsiones ( Y t t-1 # (R =Y − Y ), cuyos valores se muestran parcialmente en la tabla 6.III. En dicha tabla figuran t
t
t
también los valores previstos para los tiempos 51, 52 y 53, de los que ya no se dispone de datos.
La previsión para cualquier valor de t = 51, se ha calculado como ˆ51 = S50 = λ Y 50 + ( 1- λ ) S49 = 0,45 x 37,3364 + 0,55 x 34,4142 = 35,7292 Y La estimación para cualquier otro valor de t superior a éste, se tendrá que hacer tomando como Yt el valor de la previsión, ya que no se dispone de datos reales. Así ˆ51 = S50 = λ Y 50 + ( 1- λ ) S49 = 0,45 x 37,3364 + 0,55 x 34,4142 = 35,7292 Y es decir, con este sistema la previsión es idéntica para cualquier tiempo futuro, tal como se aprecia en las últimas filas de la tabla 6.III. Ello evidencia que la previsión no concuerda con la evolución cronológica presente (figura 6.5), aunque dentro del período estudiado la serie suavizada sigue de forma muy razonable a los datos disponibles.
© Los autores, 2001; © Edicions UPC, 2001.
p72
Series temporales
t 1 2 3 …… 48 49 50 51 52 53
Yt 9,958 10,096 11,552 …… 35,543 35,534 37,336 − − −
# Y t − 9,958 10,020 …… 31,825 33,498 34,414 35,729 35,729 35,729
St 9,958 10,020 10,709 …… 33,498 34,414 35,729 35,729 35,729 35,729
Rt − 0,138 1,532 …… 3,718 2,036 2,922 − − −
Tabla XXIII.- Datos, previsiones y residuos
40
30
20
10
0 0
5
10
15
20
25
30
35
40
45
50
55 t
Fig. 6.5.- Suavizado exponencial ( • ) y previsión ( 1 ), con λ = 0,45
Aquí se manifiesta la necesidad de incorporar de alguna forma la tendencia al suavizado exponencial, tal como hace el método de Brown que se expondrá en el apartado siguiente.
6.3 Método de Brown Cuando la serie cronológica presenta tendencia, el suavizado exponencial simple no es capaz de incorporarla para poder hacer previsiones. Este problema fue abordado por Brown, que elaboró la metodología necesaria para aunar a la ponderación exponencial la estimación de la tendencia. Así, supongamos una tendencia lineal tipo Yt = a + b t + ε que puede interpretarse como un componente aleatorio (ε) unido a un modelo o previsión # = a + b t. # ), es decir, Y (Y t En el apartado 6.1. se ha expuesto que la serie suavizada exponencialmente puede escribirse como
© Los autores, 2001; © Edicions UPC, 2001.
p73
Otras técnicas de previsión: ponderación exponencial
t−1
St = λ∑ (1− λ)i Yt−i i=0
+ (1− λ)t S0
y sustituyendo en ella Yt-i por su expresión de tendencia, Yt-i = a + b (t−i), se obtiene t−1
St = λ∑ (1− λ)i i=0
= λ (a + bt)
[a + b(t − i)] t −1
∑ i=0
+ (1− λ)t S0 = t −1
(1− λ)i − λb∑ i (1− λ)i + (1− λ)t S0 i=0
Considerando que se dispone de suficiente información como para considerar que t es grande, la convergencia de las series anteriores es tal que t −1
∑
(1 − λ )i →
i= 0
t −1
1 λ
∑
i (1 − λ )i →
i= 0
En consecuencia, St = (a + bt) − λb
1− λ λ2
1 − λ y λ2
1− λ λ
%− = Y t
(1 − λ ) t → 0
b
Se observa que la serie ponderada de unos datos cronológicos con tendencia lineal es una 1- λ recta paralela a los datos con un desplazamiento igual a − b. λ Análogamente, la serie resultante de volver a suavizar St, será S(2) = λ St t
+ (1 − λ ) S(2) t −1
que, por desarrollo análogo con el del primer suavizado, se puede expresar como S(2) = St t
−
1 − λ λ
% b = Y t
−
1 − λ λ
2
b
Restando las expresiones de St y S(2) se obtiene la estimación, asociada al instante t, de t la pendiente de la recta que ajusta la tendencia: bˆ t =
λ 1 −λ
(
St
−
S(2) t
)
Si se dispone del valor de la serie para el tiempo t, se puede calcular la pendiente estimada en ese instante, es decir, bˆ t , que representa el incremento del valor de la serie por unidad de tiempo. En ese momento, la previsión para un valor del tiempo igual a t + T se puede obtener como el valor previsto para el tiempo t, más T veces bˆ t , es decir, % % + bˆ T . Y = Y t+ T
t
t
% hace las veces de ordenada cuando se toma como origen del En la ecuación anterior Y t tiempo el valor t, es decir, equivale a aˆ t .
© Los autores, 2001; © Edicions UPC, 2001.
p74
Series temporales
A partir de esta consideración y de las expresiones del primer y segundo suavizado, se puede escribir 1 − λ 1 − λ # # # = aˆ = 2 Y 2St − S(2) b − Y b = Y t t − t− 2 t t λ λ Como consecuencia, a partir de los datos disponibles hasta un cierto instante se puede predecir el inmediato siguiente. De esta manera la serie cronológica formada por las previsiones (estimaciones) de Y, según el modelo lineal suavizado, estará constituida por los valores # = â Y + bˆ− × 1 = â − + bˆ− − t
t 1
t 1
t 1
t 1
y los residuos, o errores de ponderación, se podrán evaluar como Rt = Yt
−
# Y t
Cuando la última información disponible es la del tiempo t, y se desea hacer la previsión para T unidades de tiempo a partir de este instante, suponiendo que se mantenga el mismo comportamiento de la serie, la previsión será # Y = aˆt t+ T
+
bˆt T
Como ejemplo, se va a aplicar esta metodología a los datos de la tabla 6.I. Para ello hay que ˆ ˆ # y Rt . La evolución dar valores a λ y, para cada valor de t, calcular St , S(2) t , a t , bt , Yt de los errores en función de λ se muestra en la figura 6.6.
MSE
λ 0,10 0,15 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90
MSE 7,164 6,563 6,848 7,979 9,466 11,325 13,684 16,752 20,879 26,643
MAE 1,995 2,004 2,094 2,266 2,443 2,683 2,956 3,258 3,577 4,047
30
20
10
0 0
0,2
0,4
0,6
0,8
1
λ
Fig. 6.6.- Selección de λ con tendencia lineal
El factor de ponderación seleccionado es λ = 0,15; con él la aplicación del método de Brown conduce a las ponderaciones que numéricamente se detallan, para los últimos datos en la tabla 6.IV.
© Los autores, 2001; © Edicions UPC, 2001.
p75
Otras técnicas de previsión: ponderación exponencial
Las previsiones desde t = 51 hasta t = 55, (T = 1,..., 4), que son las aceptables según indicó el correlograma de la figura 6.2, se obtienen a partir de la expresión de las previsiones, es decir, # Y = aˆt t+ T
+
bˆt T = 35,794 + 0,549 × T
La evolución gráfica de las series suavizada y prevista se muestran en la figura 6.7, donde se observa una muy buena concordancia entre los datos reales y los suavizados, y se aprecia que la previsión sigue la tendencia marcada por la serie cronológica real. t
Yt
St
S(2) t
... 48 49 50
... 35,543 35,534 37,336
... 31,216 31,864 32,685
... 28,526 29,027 29,576
ât ... 33,906 34,701 35,794
bˆt
# Y t
... 0,475 0,501 0,549
... 33,278 34,381 35,202
Tabla 6.IV.- Ponderaciones con λ=0,15 y tendencia lineal
40 30 20 10 0 0
20
40
60
t
Fig. 6.7.- Suavizado exponencial de Brown (•) y previsión (1), con λ = 0,15
# , y da idea de la La figura 6.8 contiene los residuos del modelo, o sea Rt = Yt − Y t buena concordancia entre los datos reales y el modelo resultante del suavizado exponencial de Brown. Este hecho avala la veracidad de las previsiones siempre y cuando no se modifique el patrón de comportamiento que regía durante el período de recogida de datos.
© Los autores, 2001; © Edicions UPC, 2001.
p76
Series temporales
R 8 6 4 2 0 -2 -4
t Fig. 6.8.- Residuos
En el próximo capítulo se expondrán otros casos prácticos de análisis de series temporales para efectuar su modelización y realizar las previsiones oportunas.
© Los autores, 2001; © Edicions UPC, 2001.
p77
Otros ejemplos
7 OTROS EJEMPLOS En este capítulo se van a desarrollar algunos casos prácticos de aplicación de las técnicas propuestas anteriormente.
7.1 Ventas de papel La tabla 7.I contiene las ventas mensuales de papel de impresión, en cientos de francos. (Forecasting. Methods and Applications.; Makridakis, Wheelwright, McGee; página 433.) En todos los ejemplos desarrollados hasta ahora, se disponía de unos datos, se procedía a su modelización y a hacer previsiones, pero en ningún caso se han podido contrastar dichas previsiones. De los 120 valores disponibles en el presente ejemplo se van a hacer dos grupos, los 108 primeros, 9 años, serán utilizados para modelizar la serie y hacer previsiones y los últimos 12 datos, un año, se utilizarán para validar las previsiones efectuadas
t
Y
t
Y
t
Y
t
Y
t
Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
562,674 599,000 668,516 597,798 579,889 668,233 499,232 215,187 555,813 586,935 546,136 571,111 634,712 639,283 712,182 621,557 621,000 675,989 501,322 220,286 560,727 602,530 626,379 605,508
25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
646,783 658,442 712,906 687,714 723,916 707,183 629,000 237,530 613,296 730,444 734,925 651,812 676,155 748,183 810,681 729,363 701,108 790,079 594,621 230,716 617,189 691,389 701,067 705,777
49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
747,636 773,392 813,788 766,713 728,875 749,197 680,954 241,424 680,234 708,326 694,238 772,071 795,337 788,421 889,968 797,393 751,000 821,255 691,605 290,655 727,147 868,355 812,390 799,556
73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
843,038 847,000 941,952 804,309 840,307 871,528 656,330 370,508 742,000 847,152 731,675 898,527 778,139 856,075 938,833 813,023 783,417 828,110 657,311 310,032 780,000 860,000 780,000 807,993
97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
895,217 856,075 893,268 875,000 835,088 934,595 832,500 300,000 791,443 900,000 781,729 880,000 875,024 992,968 976,804 968,697 871,675 1006,852 832,037 345,587 849,528 913,871 868,746 993,733
Tabla 7.I.- Ventas mensuales de papel
Las figuras 7.1 y 7.2 muestran, respectivamente, la evolución cronológica de los datos y el correlograma. De ellas se deduce la existencia de una estacionalidad de período 12, naturalmente ligada a la evolución mensual de los datos, y una tendencia creciente en los primeros años y más estables en los últimos; esto hace pensar en la posibilidad de un
© Los autores, 2001; © Edicions UPC, 2001.
p78
Series temporales
modelo parabólico. Las previsiones, según el correlograma, son aceptables a tres años vista.
Y 1000 800 600 400 200 0 0
24
48
72
96
120 t
Fig. 7.1.- Evolución cronológica de los datos de los primeros 9 años
1
0,5
0
-0,5
-1 k Fig. 7.2.- Correlograma
Dada la generalidad del método, para tratar modelos aditivos, multiplicativos o mixtos, se optará por la modelización con variables categóricas. Inicialmente se plantea el modelo que incluye el término lineal y el cuadrático del tiempo, las 11 variables categóricas y su conjunción con el tiempo, es decir: Y = α0 + α1 t + α2 t + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q5 + β6 Q6 + β7 Q7 + β8 Q8 2
+ β9 Q9 + β10 Q10 + β11 Q11 + β12 Q12 + γ2 Q2 t + γ3 Q3 t +γ4 Q4 t +γ5 Q5 t +γ6 Q6 t +γ7 Q7 t +γ8 Q8 t +γ9 Q9 t +γ10 Q10 t +γ11 Q11 t +γ12 Q12 t + ε
© Los autores, 2001; © Edicions UPC, 2001.
p79
Otros ejemplos
Después de eliminar todos los términos no significativos, el modelo definitivamente ajustado 2 se presenta en la tabla 7.II donde es destacable el buen ajuste (R = 95,59%) obtenido. El modelo definitivo es Yˆ= 579,34 + 4,12 t – 0,011 t2 +80,1576 Q3 −113,66 Q7 − 399,06 Q8 − 83,26 Q9 − 1,55 t Q8 −0,83 t Q11 es decir, se trata de un modelo mixto, en donde la ecuación de la tendencia es distinta para algunos meses. Así los meses de enero (Q1), febrero (Q2), abril (Q4), mayo (Q5), junio (Q6), octubre (Q10) y diciembre (Q12) tienen el mismo comportamiento puesto que sus variables categóricas no aparecen en el modelo, hecho que los haría distinguibles entre sí. Los meses de marzo (Q3), julio (Q7), agosto (Q8) y septiembre (Q9) tienen distinta ordenada en el origen, es decir, su volumen de ventas tiene la misma evolución parabólica con el tiempo pero con distinto valor inicial de salida. Además agosto (Q8) y noviembre (Q11) tienen distinta pendiente que los demás; al ser su coeficiente negativo, indica que su velocidad de crecimiento es sistemáticamente inferior a la del resto de meses del año.
nu Regresión Residuos Total
Ord. Origen t t^2 Q3 Q7 Q8 Q9 tQ8 tQ11
8 99 107 Coeficientes 570,3432 4,1152 -0,0113 80,1576 -113,6589 -399,0648 -83,2560 -1,5549 -0,8270
S.C. 2782737,3 128237,3 2910974,6 Error típico 10,9786 0,4487 0,0040 12,8019 12,8057 25,9335 12,8143 0,4051 0,1932
C.M. 347842,16 1295,33
t 51,9503 9,1704 -2,8242 6,2614 -8,8756 -15,3880 -6,4971 -3,8384 -4,2797
F 268,54
p-val 1,5011E-63
p-val 0,0000 0,0000 0,0057 0,0000 0,0000 0,0000 0,0000 0,0002 0,0000
R^2 = 0,9559
Tabla 7.II.- Modelo resultante
La figura 7.3. muestra el ajuste del modelo obtenido sobre los datos reales de los nueve años estudiados, y la 7.4 los residuos, diferencia entre el valor real y el modelizado, observándose un buen ajuste general a todos los puntos. En la figura 7.3, a través de los triángulos de los valores modelizados, se ve claramente la homogeneidad de comportamiento de un conjunto de meses, frente a la disparidad de los otros
© Los autores, 2001; © Edicions UPC, 2001.
p80
Series temporales
1000 900 800 700 600 500 400 300 200 100 0 0
20
40
60
80
100
120 t
100
120 t
Fig. 7.3.- Datos reales ( • ) y modelizados ( u )
R 100 75 50 25 0 -25 -50 -75 -100 0
20
40
60
80
Fig. 7.4.- Residuos
Con el modelo disponible se puede proceder a hacer previsiones, por ejemplo para los próximos doce meses. En la tabla 7.III se presentan los valores previstos junto a los que realmente se obtuvieron en estos meses y que han sido separados y guardados a la hora de hacer la modelización anterior; también se han calculado las diferencias entre ellas y el porcentaje de error de previsión sobre el valor real. Hay que resaltar que las pequeñas discrepancias entre la previsión y el valor real, en parte, deben ser atribuidas al componente aleatorio, cuya presencia en cada momento no hay que olvidar. La figura 7.5 muestra ambos conjuntos de datos, de los que sólo hay que comentar la gran concordancia entre la previsión y la realidad, lo cual valida lo precedente de la aplicación de la metodología del análisis mediante variables categóricas.
© Los autores, 2001; © Edicions UPC, 2001.
p81
Otros ejemplos
t 109 110 111 112 113 114 115 116 117 118 119 120
Y 875,024 992,968 976,804 968,697 871,675 1006,852 832,037 345,587 849,528 913,871 868,746 993,733
Previsión 884,998 886,645 968,430 889,872 891,451 893,008 780,882 316,626 814,283 899,010 802,041 901,876
Diferencia -9,974 106,323 8,374 78,825 -19,776 113,844 51,155 28,961 35,245 14,861 66,705 91,857
% -1,14 10,71 0,86 8,14 -2,27 11,31 6,15 8,38 4,15 1,63 7,68 9,24
Tabla 7.III. - Previsiones y valores reales obtenidos en el mismo período
1200 1000 800 600 400 200 108
110
112
114
116
118
120
122 t
Fig. 7.5.- Previsiones ( u ) y valores reales ( • ) del año siguiente
7.2 Generacion de electricidad En la tabla 7.IV se presenta la generación mensual de electricidad, por la industria eléctrica de Estados Unidos, durante 8 años, (Forecasting. Methods and Applications.; Makridakis, Wheelwright, McGee; página 469). Como en el caso anterior, de los 96 valores disponibles en el presente ejemplo se van a hacer dos grupos, los 84 primeros, 7 años, serán utilizados para modelizar la serie y hacer previsiones y los últimos 12 datos, resaltados en cursiva en la tabla y que corresponden al último año, se utilizarán para validar las previsiones efectuadas
© Los autores, 2001; © Edicions UPC, 2001.
p82
Series temporales
t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Y 144,58 137,3 140,06 132,14 137,75 145,52 147,85 162,82 147,36 143,74 143,87 154,35 157,24 142,46 150,02 142,02 153,49 156,13 177,91 173,81 152,16 151,87 149,73 159,6
t 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
Y 164,33 147,08 155,48 146,22 153,23 162,44 176,82 179,72 155,22 154,94 152,79 169,35 178,31 156,67 164,16 153,15 157,35 173,36 186,41 186,38 164,97 163,63 168,99 183,09
t 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
Y 196,37 162,73 169,16 156,85 169,33 180,79 198,92 196,09 176,26 166,39 167,07 184,21 197,83 173,5 173,19 159,74 175,24 188,31 202,68 206,41 185,57 175,8 176,17 191,87
t 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96
Y 209,69 186,35 182,85 169,96 178,07 186,68 202,25 204,85 180,75 179,71 177,5 188,71 200 188,72 187,47 168,72 175,73 189,43 216,78 215,39 191,48 178,56 178,55 195,59
Tabla 7.IV.- Generación mensual de electricidad
Las figuras 7.6 y 7.7 corresponden, respectivamente, a la evolución cronológica de los datos de los siete años utilizados en la modelización, y su correlograma. Al ser los datos mensuales, parece que de haber alguna estacionalidad, ésta debería ser de período 12, es decir anual, sin embargo no es esta la situación del caso estudiado. El correlograma muestra de forma inequívoca que existe una estacionalidad de período 6, la cual, aunque menos evidente, también se detecta en la evolución cronológica. Intentando buscar una explicación a dicha periodicidad, quizás sería posible pensar que el consumo eléctrico, y por tanto la electricidad generada por las centrales, tiene similar comportamiento en los meses cálidos que en los fríos como consecuencia del consumo por los aires acondicionados, mientras que la parte del consumo atribuible a la industria en general, no tiene porque presentar distinto comportamiento de un mes a otro. En cuanto a la tendencia, es posible que sea cuadrática, tal como se detecta en la evolución cronológica de los datos.
© Los autores, 2001; © Edicions UPC, 2001.
p83
Otros ejemplos
Y 220 200 180 160 140 120 100 0
12
24
36
48
60
72
84 t
Fig.7.6.- Evolución cronológica de la electricidad generada en siete años
rk
1 0,5
0
-0,5
-1 k Fig.7.7.- Correlograma
El modelo inicial por variables categóricas debe incluir la tendencia, la estacionalidad, reflejada en las variables Q, y sus posibles cambios en el tiempo, términos Qj t, es decir: Y = α0 + α1 t + α2 t2 + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q5 + β6 Q6 + γ2 Q2 t + γ3 Q3 t +γ4 Q4 t +γ5 Q5 t + γ6 Q6 t + ε Después de eliminar los términos no significativos, regresión paso a paso, el modelo resultante se presenta en la tabla 7.V. Hay que destacar especialmente el buen ajuste, reflejado en un coeficiente de determinación, R2, del 86,64 %.
© Los autores, 2001; © Edicions UPC, 2001.
p84
Series temporales
Regresión Residuos Total
Ord. Origen t Q4 tQ2 tQ3 tQ4 tQ5 tQ6
nu 7 76 83
S.C. 24674,8398 3803,6637 28478,5035
C.M. 3524,9771 50,0482
F 70,4316
Coeficientes 143,8383 0,9072 -8,7533 -0,2042 -0,4053 -0,4006 -0,4800 -0,2707
Error típico 1,7040 0,0511 4,2164 0,0567 0,0562 0,0934 0,0553 0,0549
t 84,4105 17,7608 -2,0760 -3,6025 -7,2125 -4,2904 -8,6822 -4,9352
p - val 0,0000 0,0000 0,0413 0,0006 0,0000 0,0001 0,0000 0,0000
p-val 1,2626E-30
R^2 = 0,8664 Tabla 7.V.- Modelo resultante
En consecuencia, el modelo es Yˆ= 143,838 + 0,907 t − 8,753 Q4 − 0,204 Q2 t − 0,405 Q3 t − 0,401 Q4 t − 0,480 Q5 t − 0,271 Q6 t y de él se deduce que el término cuadrático del tiempo no ha resultado significativo, pero la serie presente una tendencia lineal y creciente, pendiente igual a 0,907. La figura 7.8 muestra la modelización de la energía eléctrica producida para cada uno de los 6 meses que componen un período. El comportamiento estacional no es fácil de interpretar; el cuarto mes de cada período pierde 8,753 unidades (coeficiente de Q4) respecto a todos los demás, que tienen una ordenada en el origen común. En cada mes la evolución con el tiempo es distinta, pero frente al primer mes al que correspondería un crecimiento asociado a una pendiente de 0,907, se podrían hacer dos agrupaciones, los meses 2 y 6, con una pérdida de pendiente del orden de 0,2÷0,3, (rectas casi coincidentes en la figura 7.8) y los 3, 4 y 5 con una pérdida, respecto al primero, de 0,4÷0,5 unidades en la pendiente, que dan lugar a una evolución similar, tal como se observa en el gráfico. Y 240 220 200 180 160 140 120 0
12
24
36
48
60
72
Fig. 7.8.- Modelo para cada componente del período estacional
© Los autores, 2001; © Edicions UPC, 2001.
84 t
p85
Otros ejemplos
La figura 7.9 contiene el gráfico del modelo ajustado sobre los datos iniciales, y la 7.10 los residuos. En ambas se puede apreciar la buena adecuación del modelo a los datos. Quizás se podría destacar que en el inicio de los datos (figura 7.9), hay algunos valores reales de producción de energía eléctrica claramente distintos, en cuanto a su comportamiento del resto. Esto incide en un mayor valor del residuo, y si no es posible conocer las causas de estas producciones más altas que lo previsto deberían atribuirse al azar.
Y 240 220 200 180 160 140 120 100 0
12
24
36
48
60
72
84 t
72
84 t
Fig. 7.8.- Datos reales • y modelizados >
R 20 15 10 5 0 -5 -10 -15 -20 0
12
24
36
48
60
Fig. 7.9.- Residuos
Con el modelo resultante, se pueden hacer previsiones para un período no superior al año, según evidencia el correlograma. Esto es suficiente para comprobar la adecuación de la previsión, según el modelo obtenido, con los 12 datos reales de los que se dispone y que han sido reservados en la modelización para comprobar la fiabilidad de las predicciones. La tabla 7.VI contiene los valores reales las previsiones según el modelo obtenido y el error respecto al valor medido, salvo el primero, los demás presentan una buena aproximación
© Los autores, 2001; © Edicions UPC, 2001.
p86
Series temporales
t 85 86 87 88 89 90 91 92 93 94 95 96
Y 200 188,72 187,47 168,72 175,73 189,43 216,78 215,39 191,48 178,56 178,55 195,59
Previsión 220,95 204,30 187,50 179,67 181,86 201,12 226,40 208,52 190,51 182,70 184,00 204,31
Diferencia -20,95 -15,58 -0,03 -10,95 -6,13 -11,69 -9,62 6,87 0,97 -4,14 -5,45 -8,72
% -10,48 -8,25 -0,02 -6,49 -3,49 -6,17 -4,44 3,19 0,50 -2,32 -3,05 -4,46
Tabla 7.VI.- Previsiones y valores reales obtenidos en el mismo período
La figura 7.10 muestra ambos conjuntos de valores, en donde a pesar de la buena aproximación, es destacable que los valores reales, casi siempre son inferiores a los previstos. En esta situación cabría la posibilidad de pensar en un posible cambio en el comportamiento del modelo, es decir, quizás la tendencia al crecimiento ha sufrido un frenazo en el último año; esto se confirmaría con la evolución futura, sin embargo si se examina la historia, se puede detectar que en los últimos 12 meses incluidos en la modelización, los residuos negativos predominan sobre los positivos, figura 7.9, o sea que, en muchos casos, los valores del modelo superan a los valores reales. La figura 7.11, une a los datos reales y las previsiones, las líneas de evolución del modelo en cada componente del período, mostrando el mismo hecho de una situación de los valores reales por debajo de la previsión. Y 230 220 210 200 190 180 170 160 84
86
88
90
92
94
Fig. 7.10.- Previsiones > y valores reales • del año siguiente
© Los autores, 2001; © Edicions UPC, 2001.
96 t
p87
Otros ejemplos
Y 240 220 200 180 160 84
86
88
90
92
Fig. 7.11.- Previsiones y valores reales junto al modelo
© Los autores, 2001; © Edicions UPC, 2001.
94
96
t
p89
Práctica 1. Descomposición clásica de una serie aditiva
PRÁCTICAS DE SERIES TEMPORALES CON EXCEL En este texto se presentan un conjunto de cuatro prácticas realizadas sobre unos archivos de datos disponibles en formato Excel. El objetivo de estas prácticas es mostrar, en cada caso, la sistemática de análisis de los datos utilizando la hoja de cálculo. No pretenden ser un manual de Excel, pero sí dar una información detallada de cómo se puede llevar a cabo el estudio en cuestión, a demás de servir de guía para la realización de la práctica que cada alumno tiene encomendada.
PRÁCTICA 1. DESCOMPOSICIÓN CLÁSICA DE UNA SERIE ADITIVA OBJETIVO: Se dispone del valor diario de la caja resultante de las ventas de un supermercado a lo largo de 12 semanas. Es necesario analizar los datos de esta serie cronológica, estimar el modelo de comportamiento, estudiar su ajuste y hacer las previsiones necesarias. Todo ello se realizará mediante la hoja de cálculo Excel 97 de Microsoft.
1.1 Recuperacion de los datos Desde Excel se debe recuperar el archivo que contiene los datos objeto de la práctica, y que se encuentran en el directorio habitual de la red. Para ello, se debe seguir la secuencia (figura 1.1): Archivo 6 Abrir y, ahora, ir al directorio donde se encuentra el archivo Práctica 1.xls, seleccionarlo y presionar Abrir.
Fig. 1.1
Una vez tenemos el archivo abierto, observamos que consta de una hoja llamada Datos donde figuran 3 columnas de 72 valores cada una, con la estructura mostrada parcialmente en la figura 1.2. En cada columna hay 72 valores, es decir, cada columna comienza en la fila 1 (con el título) y acaba en la 73. La columna A, llamada Semana contiene valores de 1 a 12 correspondientes a las 12 semanas en que se ha recogido la información; la B, Día, indica el día de la semana; y la C contiene los valores de las ventas diarias, que se llaman Y.
© Los autores, 2001; © Edicions UPC, 2001.
p90
Series temporales
Fig. 1.2
En primer lugar, se debe preparar una nueva hoja donde es situarán los sucesivos gráficos, y que se denominará Gráficos. Para ello, al hacer doble clic en la pestaña Hoja2 (figura 1.3), esta palabra quedará en vídeo inverso y permitirá escribir Gráficos.
Fig. 1.3
De forma similar, a la Hoja3 la denominaremos Tendencia-Modelo.
1.2 Análisis de la evolución de la serie cronológica Situados en la hoja Datos, es necesario crear una columna con los valores consecutivos del tiempo y, para mayor facilidad al hacer los gráficos, es bueno que esta columna preceda a la de los valores de las ventas (Y). Hacer clic sobre la letra C del encabezado de la columna que quedará toda negra; pulsando el botón derecho, seleccionar Insertar (figura 1.4). En este momento la columna de los datos se habrá desplazado a la D y habrá dejado la C vacía; aquí es donde se introducirán los valores correlativos del tiempo. En C1 escribir C2 = 1 y arrastrar (tecleando también Ctrl) desde C2+ hasta C73; aquí tiempo, hacer aparecerá el valor 72 (página 108 de esta práctica). Para obtener el gráfico de la evolución de las ventas frente al tiempo, se selecciona desde C1 hasta C73 (tiempo), y desde D1 hasta D73 (ventas =Y) y se pincha el icono de gráficos o también, en la barra de herramientas, Insertar y después Gráfico. Entonces surge el Asistente para Gráficos (figura 1.5), donde se debe seleccionar XY (Dispersión) y, entonces la opción (3; 1), es decir, Dispersión con puntos conectados por líneas y Siguiente.
© Los autores, 2001; © Edicions UPC, 2001.
p91
Práctica 1. Descomposición clásica de una serie aditiva
Fig. 1.4
Fig. 1.5
© Los autores, 2001; © Edicions UPC, 2001.
p92
Series temporales
En el paso 2 del asistente de gráficos se hace directamente Siguiente y en el paso 3 (figura 1.6), se pueden editar los títulos a voluntad.
Fig. 1.6
Por ejemplo, en la pestaña Títulos Título del gráfico: Eje de categorías (X): Eje de valores (Y):
Evolución cronológica tiempo ventas
En la pestaña Leyenda eliminar la marca Z de Mostrar leyenda, pinchando sobre la misma, para dejar sólo ̊. Siguiente
El paso 4 (figura 1.7), permite situar el gráfico donde se desee, para ello se marca ¿ Como objeto en y pinchando la marca v aparece el conjunto de hojas disponibles; allí se selecciona Gráficos. Finalmente Terminar
© Los autores, 2001; © Edicions UPC, 2001.
p93
Práctica 1. Descomposición clásica de una serie aditiva
Fig. 1.7
Con el gráfico seleccionado (de forma que se muestre recuadrado externamente con las marcas ̈ en el entorno), se puede situar en el lugar adecuado y darle el tamaño que sea necesario.
Si se quiere editar el gráfico y, por ejemplo, eliminar el fondo gris del mismo: ̈
Pinchar sobre este fondo, Área de trazado
̈
Presionar el botón derecho
̈
Formato del área de trazado
̈
Área
̈
¿ Ninguna
Aceptar
Para cambiar la escala del eje vertical y aprovechar toda la superficie de la figura:
̈
Situar el cursor sobre el eje de ordenadas, Eje de valores
̈
Hacer doble clic o bien presionar el botón derecho
̈
Formato de ejes (figura 1.8)
Pestaña Escala: Poner el mínimo a 0, el máximo a 12000, la unidad mayor a 4000 y la menor a 1000 Aceptar
© Los autores, 2001; © Edicions UPC, 2001.
p94
Series temporales
Fig. 1.8
Si se quiere cambiar la escala del tiempo, por ejemplo para que vaya de 6 en 6 unidades, que son los valores que forman una semana, hay que situar el cursor sobre el eje de abscisas (Eje de valores (X)) y con el botón derecho seguir los mismos pasos que antes, para dejar un mínimo de 1, un máximo de 78, la unidad mayor a 6 y la menor a 1.
El resultado es el gráfico de la página 111 de esta práctica.
Conclusiones: Se detecta una clara estacionalidad, de período p=6, y posiblemente una tendencia decreciente.
1.3 Estabilización de la serie Para poder modelizar la serie, en primer lugar se debe estabilizar calculando las medias móviles de período p; en el caso del ejemplo p=6.
̈
Cálculo de las medias móviles
Situados en la casilla E1 escribir como título de la columna Y(p=6). Al ser de período 6, la media de los 6 primeros valores se debe situar entre el tercer y el cuarto lugar, filas 4 y 5;
© Los autores, 2001; © Edicions UPC, 2001.
p95
Práctica 1. Descomposición clásica de una serie aditiva
como eso no lo podemos hacer en la hoja de cálculo optamos por empezar en la casilla 5. Situados entonces en E5, hacemos = Promedio (D2:D7)
↵
(aparece como resultado 6135)
Arrastramos hasta E71, que contendrá la media de los 6 últimos valores de la serie (Promedio(D68:D73)), en este caso 5256,33. Al ser de período par debemos volver a la media de 2 en 2: la primera media móvil ocupará el cuarto valor (5ª fila), y la última el 69º (70ª fila), ya que en total se pierden 3 valores al inicio y 3 al final. Situados en F5 escribiremos = Promedio (E5:E6)
↵
(aparece como resultado 6103,75)
Arrastramos hasta F70, que contendrá la media de los 2 últimos valores de la columna anterior (Promedio(E70:E71)), en este caso 5262,33. Titularemos la columna F, Y móvil, y lo escribiremos en F1. En las páginas 107 y 108 se puede ver el conjunto de valores que resultan.
̈
Gráfico de medias móviles
Seleccionar, manteniendo presionada la tecla Control, desde C2 hasta C73, (tiempo), desde D2 hasta D73, (Y) y desde F2 hasta F73, (Y móvil). Con el icono de gráficos Paso 1: Asistente para Gráficos (figura 1.5), XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo medias móviles (p=6), sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja gráficos.
Terminar
Es aconsejable editar el gráfico, tal como se ha hecho con el anterior, para que la escala de ordenadas vaya de cero a doce mil; también se puede cambiar la escala de tiempo como antes. El resultado es el gráfico de la página 111.
Conclusiones: Se detecta una tendencia decreciente, casi seguramente lineal, pero ¿podría ser cuadrática? Se deberá estudiar en el momento oportuno.
© Los autores, 2001; © Edicions UPC, 2001.
p96
Series temporales
1.4 Estacionalidad El estudio de la estacionalidad incluye el cálculo de los índices estacionales, en modelo aditivo que es el caso del ejemplo, y su representación gráfica.
̈
Cálculo de los índices estacionales
Este cálculo es muy cómodo hacerlo con una tabla dinámica. En primer lugar se deben obtener los valores de W, que son las diferencias entre los valores de la serie (Y, columna C) y las medias móviles (Y móvil, columna E). Estos valores se situarán en la columna G. En la casilla G1 escribir W. Situados en G5, hacer = D5 – F5
(Y – Y móvil)
y arrastrar hasta G70.
En la barra de herramientas
Datos 6 Asistente para tablas dinámicas Paso 1: ¿Dónde están los datos? ¿ Lista o base de datos de Microsoft Excel Siguiente
Paso 2: ¿Dónde están los datos que desea usar? Rango: $AEL:$G$73 (es la opción por defecto, que incluye todos los datos) Siguiente
Paso 3: arrastrar W a DATOS y Día a FILA (figura 1.9) Doble clic sobre Contar de W Promedio Aceptar (ahora el cuadro es Promedio de W ) Siguiente
© Los autores, 2001; © Edicions UPC, 2001.
p97
Práctica 1. Descomposición clásica de una serie aditiva
Fig. 1.9
Paso 4: ¿Dónde desea situar la tabla dinámica? (figura 1.10) ¿ Hoja de cálculo existente Indicar una casilla tal que ella y las B80 contiguas estén libres para situar la tabla
Fig. 1.10
© Los autores, 2001; © Edicions UPC, 2001.
p98
Series temporales
El resultado es la siguiente tabla, copiada de la página 108. A 80 81 82 83 84 85 86 87 88
B
C
Promedio de W día lunes martes miércoles jueves viernes sábado Total general
Total -2331,37 -939,924 -1963,33 304,7803 3098,348 1898,394 11,14899
D
Los valores de las casillas C82 – C87 son, respectivamente, E*1, E*2, …, E*6; la casilla C88 (llamada Total general en B88) es la media de las anteriores, o sea, E * . Para calcular los índices estacionales, en la casilla E81 se escribe Ind. Est. como título, y se define E82 con la expresión = C82 - $C$88
(anclar la casilla C88 de la media para que no cambie al arrastrar la fórmula)
Arrastrar hasta E87 Los resultados obtenidos se pueden observar en las páginas 107 y 108. Repetir los valores de la estacionalidad por los 72 valores de la serie. Situados en la columna H, en H1 escribir Ind. Est. Seleccionar las casillas E82 – E87 Edición 6 Copiar Situarse en H2 Edición 6 Pegado especial 6 Valores
Aceptar
Llenar toda la columna (72 valores) cortando de H2 a H7 y pegando sucesivamente desde H8 hasta H73; también se puede hacer marcando como bloque H2− −H7 y, presionando la tecla de Ctrl, arrastrarlo desde el extremo inferior derecho del cuadro (+) hasta H73. ̈
Gráfico de la estacionalidad
Seleccionar los valores de los índices estacionales, casillas E82 hasta E87 (o también desde H2 hasta H7). Con el icono de gráficos Paso 1: Líneas6 6 Línea con marcadores (2, 1) de la figura 1.11
© Los autores, 2001; © Edicions UPC, 2001.
Siguiente
p99
Práctica 1. Descomposición clásica de una serie aditiva
Fig. 1.11
Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Índices estacionales, quitar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja Gráficos.
Terminar
Situar el gráfico en la posición y con tamaño deseado. Si se quiere que los valores del eje de abscisas queden fuera del gráfico, situar el cursor sobre el eje de ordenadas (Eje de valores), y haciendo doble clic sale la pantalla Formato de ejes (figura 1.12). En la pestaña Escala se debe entrar al Eje de categorías (X) cruza en: y cambiar el 0 por −3000
Fig. 1.12
El resultado es el gráfico de la página 113. Conclusiones: Analizar qué se puede decir de cada día de la semana referente a la estacionalidad. ¿Cuál es el día con más ventas?, ¿y el de menor número? ¿En cuánto difieren de la media semanal cada uno de estos días?
© Los autores, 2001; © Edicions UPC, 2001.
p100
Series temporales
1.5 Estimación de la tendencia Observando el gráfico de las medias móviles, superpuesto a la evolución de los datos cronológicos de la página 111, no se ve nada claro si la tendencia es de tipo lineal o cuadrático; eso, en parte puede ser atribuido al hecho de que la escala vertical del citado gráfico no es adecuada para estudiar las medias móviles. De modo que, lo primero que se debe hacer es un nuevo gráfico con una escala lo más amplia posible. Seleccionar, manteniendo presionada la tecla Ctrl, desde C2 hasta C73 (Tiempo), y desde F2 hasta F73 (Y móvil) de la hoja Datos. Con el icono de gráficos Asistente para Gráficos (figura 1.5) XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Media móvil (tendencia), sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja gráficos.
Terminar
Es necesario editar el gráfico, tal como se ha hecho con el anterior, para que la escala de ordenadas vaya desde cinco mil hasta siete mil. El resultado es el gráfico de la página 112. Con la nueva escala parece bastante claro que puede haber una tendencia cuadrática, por eso, se ha de proceder a ajustar un modelo parabólico con el bien entendido de que si el término cuadrático no fuese significativo ya se detectaría en el análisis de los resultados, y se procedería en consecuencia; es decir, se debería ajustar un nuevo modelo sin el término que ha resultado no significativo. Para aligerar la presentación de la hoja de cálculo, realizaremos el estudio de la tendencia, de los residuos y de las previsiones en una nueva hoja, que ya tenemos preparada desde el inicio con el nombre Tendencia-Modelo. En primer lugar copiaremos todo lo que nos haga falta de la hoja Datos. Situados aquí: Seleccionar las columnas Tiempo, Y, Y móvil y Ind. Est., es decir, C1− −C73, D1− −D73, (y manteniendo presionada la tecla Ctrl) F1− −F73 y H1− −H73 Edición 6 Copiar Acceder a la hoja de Tendencia-Modelo, haciendo clic sobre la pestaña con su nombre. Situados en la casilla A1 Edición 6 Pegar En este momento están ocupadas las columnas A, B, C y D. Para poder hacer el ajuste mínimo cuadrático para la tendencia, mediante un modelo parabólico, se debe disponer de
© Los autores, 2001; © Edicions UPC, 2001.
p101
Práctica 1. Descomposición clásica de una serie aditiva
una columna con los valores del tiempo al cuadrado, que necesariamente ha de estar situada al lado de la columna del tiempo; por eso tendremos que insertarla entre las columnas A y B. Hacer clic sobre la letra B del encabezado de la columna, que quedará toda negra; presionar el botón derecho para seleccionar Insertar (figura 1.4). La columna de los datos se ha desplazado a la C y ha dejado la B vacía; aquí se introducirán los valores del tiempo al cuadrado. En B1 escribir Tiempo^2 Situados en B2 escribir la expresión =A2*A2 Arrastrar hasta B73; aquí habrá el valor 5184, que es el cuadrado de 72. En las páginas 109 y 110, se puede ver la disposición de los valores. Abrir
Herramientas 6 Análisis de datos 6 Regresión
Llenar los campos según se presenta en la figura 1.13, es decir: Rango Y de entrada Rango X de entrada
D5:D70 A5:B70
(medias móviles) (tiempo y tiempo^2)
Opciones de salida: ¿ Rango de salida: A93
(casilla vacía, a partir de donde se presentarán los resultados de la regresión)
Fig. 1.13
© Los autores, 2001; © Edicions UPC, 2001.
p102
Series temporales
Los resultados obtenidos se muestran en la figura 1.14, extraída de la página 110.
Conclusiones: El nivel de significación (valor p) de los coeficientes asociados al tiempo y al tiempo^2 es inferior a 0,05. Por lo tanto, con un riesgo de la primera especie del 5%, se debe aceptar el modelo cuadrático, que en este caso es: Tˆ = 6311,51 − 27,30 t + 0,18 t2 con un R2 del 85,6 %.
A 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113
B
C
D
E
F
G
Resumen stad st cos R R^2 R^2 ajust Error típico n
0,92513 0,85587 0,85130 114,20021 66
ANOVA u Regresión Residuos Total
Ord. Origen Tiempo Tiempo^2
S de C C ao p 2 4879153,47 2439576,7 187,059889 3,1646E-27 63 821626,351 13041,688 65 5700779,82
Coefs 6311,5139 -27,3032 0,1832
o t p co 51,8296 3,2473 0,0433
t Va o p 121,7743 1,7087E-76 -8,4079 6,9185E-12 4,2298 7,7177E-05
Fig. 1.14
Una vez obtenida la ecuación de la tendencia, podemos calcular su valor para los diferentes tiempos de los que se dispone de información. Para ello crearemos una nueva columna. Situados en F1 escribir Tendencia, que será el título de la columna En F2 escribir la expresión que acabamos de obtener, = 6311,51 − 27,3*A2 + 0,18*B2 y arrastrarla hasta F73 Para ver la bondad del ajuste, se puede hacer un gráfico que compare los valores de las medias móviles y los de la tendencia ajustada. Por eso seleccionar, presionando la tecla Ctrl, desde A1 hasta A73, desde D1 hasta D73 y desde F1 hasta F73
© Los autores, 2001; © Edicions UPC, 2001.
p103
Práctica 1. Descomposición clásica de una serie aditiva
Con el icono de gráficos Asistente para Gráficos (figura 1.5) XY (Dispersión) (3; 1) Dispersión con puntos conectados por líneas Siguiente Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Tendencia, sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja Gráficos.
Terminar
Es necesario editar el gráfico, tal como se ha hecho con el anterior, para que la escala de ordenadas vaya desde cinco mil hasta a siete mil. Si se quiere, situados sobre uno de los puntos de la Serie “tendencia”, con el botón derecho seleccionar Formato de punto de datos Marcador ¿ Ninguno El resultado es el gráfico de la página 112, donde se puede valorar el ajuste.
1.6 Modelo y residuos En una serie aditiva, el modelo se obtiene como resultado de sumar la tendencia y la estacionalidad de cada punto. Situados en G1 escribir, como título, Y mod. En G2 la expresión
= F2 + E2
(tendencia + estacionalidad)
Arrastrar hasta G73, que evidentemente contendrá la expresión F73+E73 Los residuos son la diferencia entre los valores originales, Y, y el modelo, Y mod. Situados en H1 escribir, como título, Residuos En H2 la expresión
= C2 − G2
(Y − Y mod)
Arrastrar hasta H73
Para hacer la representación gráfica del modelo ajustado en comparación con los valores originales, se debe seleccionar, de la hoja Tendencia− −Modelo, los valores del tiempo, de la Y y de la Y modelizada, o sea, A1− −A73, C1− −C73 y G1− −G73.
© Los autores, 2001; © Edicions UPC, 2001.
p104
Series temporales
Con el icono de gráficos Asistente para Gráficos (figura 1.5) XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Modelo ajustado, sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja Gráficos.
Terminar
Si se desea dejar con puntos la serie original y con línea la del modelo ajustado, hay que situarse sobre uno de los puntos de la Serie “Y”, y con el botón derecho del ratón seleccionar: Formato de punto de datos Línea ¿ Ninguna Situarse, luego, sobre un punto de la Serie “Y mod”, y con el botón derecho seleccionar Formato de punto de datos Marcador ¿ Ninguno El resultado es el gráfico de la página 113, donde se puede valorar el modelo. Para hacer la representación gráfica de los residuos en función del tiempo, seleccionar, de la hoja Tendencia− −Modelo, los valores del tiempo y de los residuos, o sea, A1− −A73 y H1− −H73. Con el icono de gráficos Asistente para Gráficos (figura 1.5) XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Residuos, sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja Gráficos.
Terminar
Editar el gráfico para, entre otras cosas, sacar los valores del eje de abscisas fuera del mismo, para ello se sitúa el cursor sobre el eje de ordenadas, Eje de valores (Y), y haciendo doble clic sale la pantalla Formato de ejes.
© Los autores, 2001; © Edicions UPC, 2001.
Práctica 1. Descomposición clásica de una serie aditiva
p105
En la pestaña Escala, modificar Mínimo: −800 Eje de Valores (X) cruza en: −800 En la pestaña Número, en Posiciones decimales poner un cero. El resultado es el gráfico de la página 114. Conclusiones: La correspondencia entre los datos y el modelo es lo suficientemente buena. No se detecta ningún punto especialmente alejado del comportamiento modelizado por el conjunto. La mayoría de los residuos se mueven en el intervalo de −400 a 400, el más alejado de cero correspondiendo a los valores del tiempo 2, 27 y 33, que no parecen especialmente anómalos en el gráfico del modelo ajustado.
1.7 Previsiones Si se quieren conocer las previsiones de las ventas del supermercado que estamos estudiando, a lo largo de las tres próximas semanas (18 días) en la hoja Tendencia− −Modelo prolongar las columnas del tiempo, la tendencia, la estacionalidad y crear una nueva columna para las previsiones. Para la columna A, Tiempo, arrastrar presionando la tecla Ctrl desde la casilla A73 hasta la A91, donde ha de aparecer el valor 90. En la E74, Estacionalidad, el primer valor que se debe añadir es el que corresponde al tiempo 73, es decir múltiple de 6 más 1; por tanto, hay que copiar desde el primer valor del índice hasta el 18. Marcar como bloque las casillas E2−E19 y hacer Edición 6 Copiar. Situados en E74, Edición 6 Pegar. En la F, Tendencia, arrastrar la expresión desde el último valor disponible, el 73, hasta el deseado, el 91. Situados en I1, poner como título Previsiones. En I74 escribir la expresión = E74 + F74 y arrastrarla hasta E91. Haciendo eso, obtenemos los resultados que se muestran en la página 110. El gráfico de las previsiones, junto con la serie original, se obtendrá seleccionando A1− −A91, C1− −C91 y I1− −I91 de la hoja Tendencia− −Modelo. Con el icono de gráficos Asistente para Gráficos (figura 1.5) XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente
© Los autores, 2001; © Edicions UPC, 2001.
p106
Series temporales
Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Serie y previsiones, tiempo y ventas, sacar la leyenda y Siguiente Paso 4: Situar el gráfico como ¿ Objeto en la hoja Gráficos.
Terminar
Puede ser necesario editar el gráfico por que la escala de abscisas vaya desde cero hasta ochenta, y también modificar los tipos de líneas y puntos de la serie Y y de la serie previsiones, para destacar claramente los dos grupos de puntos. El resultado es el gráfico de la página 114.
Conclusiones: Las previsiones siguen el mismo tipo de comportamiento que los datos originales y, dada la bondad del modelo, pueden considerarse lo suficientemente fiables. Pero, ¿tenemos derecho a hacer previsiones de aquí a 18 días?; ¿podríamos hacer previsiones a más largo plazo? La práctica 2 nos dará herramientas para contestar a estas preguntas.
© Los autores, 2001; © Edicions UPC, 2001.
p107
Práctica 1. Descomposición clásica de una serie aditiva
1.8 Resultados
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
A Semana 1 1 1 1 1 1 2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 5 6 6 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 8 9
B Dia lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes
C Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
D Y 3968 4572 3964 6326 9673 8307 3593 5367 3763 6703 9485 8207 3717 4712 3538 5758 9112 7501 3108 4771 3643 6616 8907 7993 3618 4427 4314 5616 8778 7322 2899 4918 4226 6025 8712 7685 3408 4869 3589 5437 8239 7360 2915 4237 3679 6060 8755 7475 2979
E Y(p=6)
6135,00 6072,50 6205,00 6171,50 6234,33 6203,00 6186,33 6207,00 6097,83 6060,33 5902,83 5840,67 5723,00 5621,50 5631,33 5648,83 5791,83 5757,67 5839,67 5924,67 5867,33 5979,17 5812,50 5791,00 5679,17 5559,33 5641,17 5626,50 5694,67 5683,67 5744,17 5829,00 5820,83 5714,67 5616,67 5537,83 5483,67 5401,50 5296,17 5311,17 5415,00 5501,00 5520,17 5530,83 5486,50 5421,83
Hoja: Datos
© Los autores, 2001; © Edicions UPC, 2001.
F Y móvil
6103,75 6138,75 6188,25 6202,92 6218,67 6194,67 6196,67 6152,42 6079,08 5981,58 5871,75 5781,83 5672,25 5626,42 5640,08 5720,33 5774,75 5798,67 5882,17 5896,00 5923,25 5895,83 5801,75 5735,08 5619,25 5600,25 5633,83 5660,58 5689,17 5713,92 5786,58 5824,92 5767,75 5665,67 5577,25 5510,75 5442,58 5348,83 5303,67 5363,08 5458,00 5510,58 5525,50 5508,67 5454,17 5361,50
G W
222,25 3534,25 2118,75 -2609,92 -851,67 -2431,67 506,33 3332,58 2127,92 -2264,58 -1159,75 -2243,83 85,75 3485,58 1860,92 -2612,33 -1003,75 -2155,67 733,83 3011,00 2069,75 -2277,83 -1374,75 -1421,08 -3,25 3177,75 1688,17 -2761,58 -771,17 -1487,92 238,42 2887,08 1917,25 -2257,67 -708,25 -1921,75 -5,58 2890,17 2056,33 -2448,08 -1221,00 -1831,58 534,50 3246,33 2020,83 -2382,50
H Ind. Est -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52
p108
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Series temporales
A 9 9 9 9 9 10 10 10 10 10 10 11 11 11 11 11 11 12 12 12 12 12 12
B martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado
C 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
D 3971 3291 5336 8392 6790 3539 4694 3120 6026 7792 7294 3254 4725 3227 5588 8320 6995 3229 4648 3450 5129 8159 6923
Promedio de W dia Total lunes -2331,37 martes -939,924 miércoles -1963,33 jueves 304,7803 viernes 3098,348 sábado 1898,394 Total general 11,14899
E 5301,17 5240,67 5126,50 5219,83 5340,33 5311,83 5426,83 5326,83 5410,83 5363,33 5368,50 5386,33 5313,33 5401,33 5351,50 5347,33 5334,50 5371,67 5295,17 5268,33 5256,33
Ind. Est -2342,5202 -951,07323 -1974,4823 293,631313 3087,19949 1887,24495
Hoja: Datos (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
F 5270,92 5183,58 5173,17 5280,08 5326,08 5369,33 5376,83 5368,83 5387,08 5365,92 5377,42 5349,83 5357,33 5376,42 5349,42 5340,92 5353,08 5333,42 5281,75 5262,33
G -1299,92 -1892,58 162,83 3111,92 1463,92 -1830,33 -682,83 -2248,83 638,92 2426,08 1916,58 -2095,83 -632,33 -2149,42 238,58 2979,08 1641,92 -2104,42 -633,75 -1812,33
H -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24
p109
Práctica 1. Descomposición clásica de una serie aditiva
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50
A Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49
B Tiempo^2 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 400 441 484 529 576 625 676 729 784 841 900 961 1024 1089 1156 1225 1296 1369 1444 1521 1600 1681 1764 1849 1936 2025 2116 2209 2304 2401
C Y 3968 4572 3964 6326 9673 8307 3593 5367 3763 6703 9485 8207 3717 4712 3538 5758 9112 7501 3108 4771 3643 6616 8907 7993 3618 4427 4314 5616 8778 7322 2899 4918 4226 6025 8712 7685 3408 4869 3589 5437 8239 7360 2915 4237 3679 6060 8755 7475 2979
D Y móvil
6103,75 6138,75 6188,25 6202,92 6218,67 6194,67 6196,67 6152,42 6079,08 5981,58 5871,75 5781,83 5672,25 5626,42 5640,08 5720,33 5774,75 5798,67 5882,17 5896,00 5923,25 5895,83 5801,75 5735,08 5619,25 5600,25 5633,83 5660,58 5689,17 5713,92 5786,58 5824,92 5767,75 5665,67 5577,25 5510,75 5442,58 5348,83 5303,67 5363,08 5458,00 5510,58 5525,50 5508,67 5454,17 5361,50
E F Ind. Est Tendencia -2342,52 6284,39 -951,07 6257,63 -1974,48 6231,23 293,63 6205,19 3087,20 6179,51 1887,24 6154,19 -2342,52 6129,23 -951,07 6104,63 -1974,48 6080,39 293,63 6056,51 3087,20 6032,99 1887,24 6009,83 -2342,52 5987,03 -951,07 5964,59 -1974,48 5942,51 293,63 5920,79 3087,20 5899,43 1887,24 5878,43 -2342,52 5857,79 -951,07 5837,51 -1974,48 5817,59 293,63 5798,03 3087,20 5778,83 1887,24 5759,99 -2342,52 5741,51 -951,07 5723,39 -1974,48 5705,63 293,63 5688,23 3087,20 5671,19 1887,24 5654,51 -2342,52 5638,19 -951,07 5622,23 -1974,48 5606,63 293,63 5591,39 3087,20 5576,51 1887,24 5561,99 -2342,52 5547,83 -951,07 5534,03 -1974,48 5520,59 293,63 5507,51 3087,20 5494,79 1887,24 5482,43 -2342,52 5470,43 -951,07 5458,79 -1974,48 5447,51 293,63 5436,59 3087,20 5426,03 1887,24 5415,83 -2342,52 5405,99
Hoja: Tendencia−Modelo
© Los autores, 2001; © Edicions UPC, 2001.
G H I Y mod Residuos Previsiones 3941,87 26,13 5306,56 -734,56 4256,75 -292,75 6498,82 -172,82 9266,71 406,29 8041,43 265,57 3786,71 -193,71 5153,56 213,44 4105,91 -342,91 6350,14 352,86 9120,19 364,81 7897,07 309,93 3644,51 72,49 5013,52 -301,52 3968,03 -430,03 6214,42 -456,42 8986,63 125,37 7765,67 -264,67 3515,27 -407,27 4886,44 -115,44 3843,11 -200,11 6091,66 524,34 8866,03 40,97 7647,23 345,77 3398,99 219,01 4772,32 -345,32 3731,15 582,85 5981,86 -365,86 8758,39 19,61 7541,75 -219,75 3295,67 -396,67 4671,16 246,84 3632,15 593,85 5885,02 139,98 8663,71 48,29 7449,23 235,77 3205,31 202,69 4582,96 286,04 3546,11 42,89 5801,14 -364,14 8581,99 -342,99 7369,67 -9,67 3127,91 -212,91 4507,72 -270,72 3473,03 205,97 5730,22 329,78 8513,23 241,77 7303,07 171,93 3063,47 -84,47
p110
51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112
Series temporales
A 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
B 2500 2601 2704 2809 2916 3025 3136 3249 3364 3481 3600 3721 3844 3969 4096 4225 4356 4489 4624 4761 4900 5041 5184
C 3971 3291 5336 8392 6790 3539 4694 3120 6026 7792 7294 3254 4725 3227 5588 8320 6995 3229 4648 3450 5129 8159 6923
D 5270,92 5183,58 5173,17 5280,08 5326,08 5369,33 5376,83 5368,83 5387,08 5365,92 5377,42 5349,83 5357,33 5376,42 5349,42 5340,92 5353,08 5333,42 5281,75 5262,33
E -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24 -2342,52 -951,07 -1974,48 293,63 3087,20 1887,24
F 5396,51 5387,39 5378,63 5370,23 5362,19 5354,51 5347,19 5340,23 5333,63 5327,39 5321,51 5315,99 5310,83 5306,03 5301,59 5297,51 5293,79 5290,43 5287,43 5284,79 5282,51 5280,59 5279,03 5277,83 5276,99 5276,51 5276,39 5276,63 5277,23 5278,19 5279,51 5281,19 5283,23 5285,63 5288,39 5291,51 5294,99 5298,83 5303,03 5307,59 5312,51
Resumen stad st cos R R^2 R^2 ajust Error típico n
0,92513 0,85587 0,85130 114,20021 66
ANOVA u Regresión Residuos Total
Ord. Origen Tiempo Tiempo^2
S de C C Va o p 2 4879153,47 2439576,7 187,059889 3,1646E-27 63 821626,351 13041,688 65 5700779,82
Coefs 6311,5139 -27,3032 0,1832
o t p co 51,8296 3,2473 0,0433
t Va o p 121,7743 1,7087E-76 -8,4079 6,9185E-12 4,2298 7,7177E-05
Hoja: Tendencia−Modelo (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
G 4445,44 3412,91 5672,26 8457,43 7249,43 3011,99 4396,12 3365,75 5627,26 8414,59 7208,75 2973,47 4359,76 3331,55 5595,22 8384,71 7181,03 2947,91 4336,36 3310,31 5576,14 8367,79 7166,27
H -474,44 -121,91 -336,26 -65,43 -459,43 527,01 297,88 -245,75 398,74 -622,59 85,25 280,53 365,24 -104,55 -7,22 -64,71 -186,03 281,09 311,64 139,69 -447,14 -208,79 -243,27
I
2935,31 4325,92 3302,03 5570,02 8363,83 7164,47 2935,67 4328,44 3306,71 5576,86 8372,83 7175,63 2948,99 4343,92 3324,35 5596,66 8394,79 7199,75
p111
Práctica 1. Descomposición clásica de una serie aditiva
Evolución cronológica 12000 V e n t a s
8000
4000
0 0
12
24
36
48
60
72
tiempo
Medias móviles (p=6) 12000
8000
4000
0 0
12
24
36
48
Tiempo Hoja: Gráficos
© Los autores, 2001; © Edicions UPC, 2001.
60
72
p112
Series temporales
Media móvil (tendencia) 7000
6000
5000 0
12
24
36
48
60
72
48
60
72
tiempo
Tendencia 7000
6000
5000 0
12
24
36 tiempo
Hoja: Gráficos (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
p113
Práctica 1. Descomposición clásica de una serie aditiva
Índices estacionales 4000 3000 2000 1000 0 -1000 -2000 -3000 1
2
3
4
5
6
Modelo ajustado 12000
V e n t a s
8000
4000
0 0
12
24
36 tiempo
Hoja: Gráficos (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
48
60
72
p114
Series temporales
Residuos 800 400 0 -400 -800 0
12
24
36
48
60
72
tiempo
Serie y previsiones 12000 10000 V e n t a s
8000 6000 4000 2000 0 0
30
60 tiempo
Hoja: Gráficos (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
90
p115
Práctica 2. Autocorrelación y correlograma
PRÁCTICA 2. AUTOCORRELACIÓN Y CORRELOGRAMA OBJETIVO: Con los datos del valor diario de la caja, resultado de las ventas de un supermercado a lo largo de 12 semanas, que han sido analizados en la práctica anterior, se han de calcular los coeficientes de autocorrelación, estudiar su significación estadística y obtener el correlograma; el objetivo final es ver hasta qué valor del tiempo se pueden hacer previsiones. Todo eso se realizará mediante la hoja de cálculo Excel 97 de Microsoft.
2.1 Recuperacion de los datos Desde Excel hay que recuperar el archivo que contiene los datos objeto de la práctica, y que se encuentra en el directorio habitual de la red, siguiendo la secuencia, Archivo 6 Abrir y ahora ir al directorio donde se encuentra el archivo Practica 2.xls, seleccionarlo y presionar sobre Abrir. Una vez tenemos el archivo abierto, observamos que consta de una hoja llamada Datos donde figuran 3 columnas de 72 valores cada una. En cada columna hay 72 valores, es decir, empieza en la fila 1 (con el título) y acaba en la 73. Recordemos que son los mismos valores de la práctica 1.
2.2 Cálculo de los coeficientes de autocorrelación Según hemos visto en el texto sobre series temporales, el coeficiente de autocorrelación se calcula como γˆ rk = k s γˆ 0 N−k
donde
γˆ k =
∑ i=1
N
(Yi − Y ) (Yi+k − Y ) y
N
γˆ 0 =
∑ i=1
(Yi − Y)2 N
con la recomendación de N > 50 y k ≤ N/4. En el caso de la práctica, el número de observaciones es N = 72, hecho que nos permite llegar hasta un valor de k igual a 18. En primer lugar debemos disponer de los valores de la variable centrada, o sea de Yi − Y . Escribimos Y− −Ybar como título en la casilla D1, y en la D2 la expresión = C2 - PROMEDIO(C$2:C$73)
© Los autores, 2001; © Edicions UPC, 2001.
p116
Series temporales
Observaremos que se ha fijado el conjunto de valores de Y (columna C) con el símbolo $, con la finalidad de que al arrastrar la fórmula no vayan cambiando los valores con los que se calcula la media. Extendemos la expresión hasta D73. En la casilla G1 escribimos como título gamma_0, y en la G2 la expresión que permite calcular su valor = VARP(C2:C73) Aquí se ha utilizado VARP en lugar de VAR para que el divisor sea N y no N−1 como sería en el otro caso. Para comenzar a preparar la tabla de resultados, se titulan F8 Ä k J8 ÄV(r_k)
G8 Ä gamma_k K8 Ä −2S(r_k)
H8 Ä r_k L8 Ä +2S(r_k)
I8 Ä r_k^2
En F9 se introduce el valor 1, y se arrastra en forma de incremento (presionando simultáneamente la tecla de Ctrl) hasta F26; aquí habrá un 18. En la columna G introducimos la expresión de la covariancia, γk, de la página anterior, que en el numerador tiene el producto escalar de dos vectores: el primero va desde Y1− Y hasta Y72−K − Y , o sea, de D2 a D(73–k), y el segundo de Y1+k − Y hasta Y72 − Y , o sea, de D(2+k) a D73. Esto es un problema para arrastrar la fórmula de una casilla a las siguientes, ya que al aumentar el desplazamiento k un subíndice aumenta, (el 2+k), pero el otro disminuye, (el 73−k). Este hecho obligará a escribir la fórmula, arrastrarla y, después, manualmente, y casilla a casilla, modificar el contador que tiene que decrecer. Ateniéndonos a ello en G9 debemos introducir la expresión de la covariancia para Kl, que se puede hacer mediante la función SUMAPRODUCTO; es decir, presionaremos sobre el icono de y seleccionaremos, de entre las Matemáticas y trigonométricas, la funciones SUMAPRODUCTO (figura 2.1), que no es más que el producto escalar de dos vectores,
Fig. 2.1
© Los autores, 2001; © Edicions UPC, 2001.
p117
Práctica 2. Autocorrelación y correlograma
En el cuadro siguiente (figura 2.2), especificaremos los valores que vamos a utilizar, teniendo cuidado de fijar las posiciones inamovibles ($2 del primer vector y $73 por el segundo), ya que, como se ha comentado, el primer vector siempre empieza en el primer valor de la Y centrada, eso es, D2, mientras que el segundo siempre acaba en el último valor de Y centrada, o sea, D73. Así el primer vector va de D$2 hasta D72 y el segundo de D3 hasta D$73. Una vez se presiona la tecla Aceptar, en la ventana superior queda escrita la expresión = SUMAPRODUCTO(D$2... D$73): dicha expresión hay que ponerla entre paréntesis y dividirla por el número total de observaciones (72 en este caso) a fin de obtener la autocovariancia para k=1. En la figura 2.3 se muestra cómo finalmente queda definida la casilla G9.
Fig. 2.2
Fig. 2.3
Esta expresión se debe arrastrar hasta G26 y, de momento, no hacer caso de lo que resulte. Ahora hay que cambiar la posición final del segundo elemento de la fórmula en cada casilla de esta columna. Así
© Los autores, 2001; © Edicions UPC, 2001.
p118
Series temporales
Celda k
expresión actual
expresión definitiva
G10
2
=(SUMAPRODUCTO(D$2:D73 ...
=(SUMAPRODUCTO(D$2:D71...
G11
3
=(SUMAPRODUCTO(D$2:D74 ...
=(SUMAPRODUCTO(D$2:D70...
•••
•••
••• G25
17
=(SUMAPRODUCTO(D$2:D88 ...
=(SUMAPRODUCTO(D$2:D56...
G26
18
=(SUMAPRODUCTO(D$2:D89 ...
=(SUMAPRODUCTO(D$2:D55...
Observar los valores resultantes en la página 120. En H9, escribir la expresión del coeficiente de autocorrelación, eso es: = G9/G$2, y arrastrar hasta H26, donde figurará =G26/G$2. La columna I tiene los cuadrados de los coeficientes de autocorrelación; para ello hay que hacer I9 =H9*H9 y extenderlo hasta I26. En la columna J se ha de calcular la variancia de cada coeficiente, que según el texto de teoría es k −1 1 1 V(rk ) ≅ 1 2 ri2 y + V(r1 ) ≅ ∑ N N i=1 Hacer
J9 J10
= 1/72 = (1+2*SUMA(I$9:I9))/72
y arrastrar hasta J26 donde habrá la expresión =(1+2*SUMA(I$9:I25))/72. Los extremos del intervalo de no significación, ± 2S(r_k), estarán en las columnas K y L. K9 L9
= −2*RAIZ(J9) = 2*RAIZ(J9)
Arrastrar estas expresiones hasta K26 y L26. La tabla completa de resultados está en las páginas 120 y 121.
2.3 Autocorrelograma El gráfico se obtiene seleccionando F9 − F26, H9 − H26, K9 − K26 y L9 − L26. Con el icono de gráficos Asistente para Gráficos XY (Dispersión) (3; 1), Dispersión con puntos conectados por líneas Siguiente Paso 1: Siguiente
© Los autores, 2001; © Edicions UPC, 2001.
p119
Práctica 2. Autocorrelación y correlograma
Paso 2: Siguiente Paso 3: Poner los títulos, por ejemplo Autocorrelograma, quitar la leyenda y Siguiente Paso 4: Situar el gráfico con ¿ Objeto en la actual hoja Datos.
Terminar
Situar el gráfico en la posición y el tamaño deseado, y editarlo para que presente el aspecto habitual de un correlograma. Seleccionando un punto de la Serie 1, y haciendo clic con el botón derecho del ratón, sale el cuadro de la figura 2.4. Seleccionar: Tipo de gráfico 6 Columnas
Aceptar
Fig. 2.4
Igualmente, sobre un punto de la Serie 2, en la pantalla de la figura 2.4, hacer Formato de serie de datos Carpeta Tramas: Z Línea suavizada
Marcador
¿Ninguno
Repetir la misma operación, una vez situados en un punto de la Serie 3. Si es necesario, se pueden quitar decimales del eje de ordenadas; para eso tendremos que situarnos sobre el Eje de valores, y entonces, con doble clic, o presionando el botón derecho del ratón, seguir la secuencia Formato de ejes Carpeta Número
Posiciones decimales
y para quitar los valores de k de dentro del gráfico, en el Eje de categorías, eje de abscisas, Formato de ejes Carpeta Tramas
Rótulos de marca de graduación ¿ Ninguno
El resultado es el gráfico de la página 121. Comentarios: En el correlograma se confirma claramente la estacionalidad de período 6. El coeficiente de autocorrelación asociado a k=18 aún es significativo, por eso se pueden hacer previsiones para los próximos 18 días, o sea, 3 semanas de ventas.
© Los autores, 2001; © Edicions UPC, 2001.
p120
Series temporales
2.4 Resultados A B 1 Seman Dia 2 1 lunes 3 1 martes 4 1 miércoles 5 1 jueves 6 1 viernes 7 1 sábado 8 2 lunes 9 2 martes 10 2 miércoles 11 2 jueves 12 2 viernes 13 2 sábado 14 3 lunes 15 3 martes 16 3 miércoles 17 3 jueves 18 3 viernes 19 3 sábado 20 4 lunes 21 4 martes 22 4 miércoles 23 4 jueves 24 4 viernes 25 4 sábado 26 5 lunes 27 5 martes 28 5 miércoles 29 5 jueves 30 5 viernes 31 5 sábado 32 6 lunes 33 6 martes 34 6 miércoles 35 6 jueves 36 6 viernes 37 6 sábado 38 7 lunes 39 7 martes 40 7 miércoles 41 7 jueves 42 7 viernes 43 7 sábado 44 8 lunes 45 8 martes 46 8 miércoles 47 8 jueves 48 8 viernes 49 8 sábado 50 9 lunes 51 9 martes
C Y 3968 4572 3964 6326 9673 8307 3593 5367 3763 6703 9485 8207 3717 4712 3538 5758 9112 7501 3108 4771 3643 6616 8907 7993 3618 4427 4314 5616 8778 7322 2899 4918 4226 6025 8712 7685 3408 4869 3589 5437 8239 7360 2915 4237 3679 6060 8755 7475 2979 3971
D E F G H Y-Ybar gamma_0 -1653,36 4003801 -1049,36 -1657,36 704,639 4051,64 2685,64 k gamma_k r_k -2028,36 -254,361 1 1089260,8 0,2721 -1858,36 2 -1528643 -0,3818 1081,64 3 -2302898 -0,5752 3863,64 4 -1654914 -0,4133 2585,64 5 873463,57 0,2182 -1904,36 6 3551137,5 0,8869 -909,361 7 978459,2 0,2444 -2083,36 8 -1429667 -0,3571 136,639 9 -2118164 -0,5290 3490,64 10 -1510880 -0,3774 1879,64 11 775336,95 0,1937 -2513,36 12 3213971,1 0,8027 -850,361 13 902365,54 0,2254 -1978,36 14 -1276624 -0,3189 994,639 15 -1892155 -0,4726 3285,64 16 -1373896 -0,3431 2371,64 17 700396,45 0,1749 -2003,36 18 2879249,8 0,7191 -1194,36 -1307,36 -5,36111 3156,64 1700,64 -2722,36 -703,361 -1395,36 403,639 3090,64 2063,64 -2213,36 -752,361 -2032,36 -184,361 2617,64 1738,64 -2706,36 -1384,36 -1942,36 438,639 3133,64 1853,64 -2642,36 -1650,36
Hoja: Datos
© Los autores, 2001; © Edicions UPC, 2001.
I
J
r_k^2 0,0740 0,1458 0,3308 0,1708 0,0476 0,7867 0,0597 0,1275 0,2799 0,1424 0,0375 0,6444 0,0508 0,1017 0,2233 0,1178 0,0306 0,5171
V(r_k) 0,0139 0,0159 0,0200 0,0292 0,0339 0,0353 0,0571 0,0588 0,0623 0,0701 0,0740 0,0751 0,0930 0,0944 0,0972 0,1034 0,1067 0,1075
K
L
- 2S(r_k) + 2S(r_k) -0,2357 0,2357 -0,2525 0,2525 -0,2828 0,2828 -0,3417 0,3417 -0,3684 0,3684 -0,3755 0,3755 -0,4779 0,4779 -0,4848 0,4848 -0,4992 0,4992 -0,5294 0,5294 -0,5442 0,5442 -0,5480 0,5480 -0,6098 0,6098 -0,6144 0,6144 -0,6236 0,6236 -0,6432 0,6432 -0,6533 0,6533 -0,6559 0,6559
p121
Práctica 2. Autocorrelación y correlograma
52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76
A 9 9 9 9 10 10 10 10 10 10 11 11 11 11 11 11 12 12 12 12 12 12
B miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado lunes martes miércoles jueves viernes sábado
C 3291 5336 8392 6790 3539 4694 3120 6026 7792 7294 3254 4725 3227 5588 8320 6995 3229 4648 3450 5129 8159 6923
D E F -2330,36 -285,361 2770,64 1168,64 -2082,36 -927,361 -2501,36 404,639 2170,64 1672,64 -2367,36 -896,361 -2394,36 -33,3611 2698,64 1373,64 -2392,36 -973,361 -2171,36 -492,361 2537,64 1301,64
G
H
I
Hoja: Datos (continuación)
AUTOCORRELOGRAMA 1,0 0,5
0,0 -0,5
-1,0
© Los autores, 2001; © Edicions UPC, 2001.
J
K
L
p122
Series temporales
PRÁCTICA 3. MODELIZACIÓN DE UNA SERIE CON VARIABLES CATEGÓRICAS OBJETIVO: Se dispone de la evolución de un indicador económico a lo largo de 62 trimestres. Tenemos que analizar los datos de esta serie cronológica, estimar el modelo de comportamiento con variables categóricas, estudiar su ajuste y hacer las previsiones pertinentes. Todo esto se realizará mediante la hoja de cálculo Excel 97 de Microsoft.
3.1 Recuperación de los datos Desde Excel recuperar el archivo que contiene los datos objeto de la práctica, y que se encuentran en el directorio habitual de la red. Por esto hemos de seguir la secuencia (figura 3.1): Archivo 6 Abrir Y ahora ir al directorio donde se encuentra el archivo Practica 3.xls, seleccionarlo y Abrir.
Fig. 3.1
Una vez tenemos el archivo abierto, observamos que consta de una hoja denominada Datos donde figuran 2 columnas de 62 valores cada una, con la estructura mostrada parcialmente en la figura 3.2. En cada columna hay 62 valores, es decir, se empieza en la fila 1 (con el título) y se acaba en la 63. La columna A, llamada t, contiene valores de 1 a 62, correspondientes a los 62 intervalos de tiempo (trimestres) en que se ha recogido la información, y la B, con el nombre de Y, contiene los valores del indicador económico que se está estudiando.
Fig. 3.2
© Los autores, 2001; © Edicions UPC, 2001.
Práctica 3. Modelización de una serie con variables categóricas
p123
3.2 Análisis de la evolución de la serie cronológica En primer lugar, hemos de analizar la evolución de la serie, cosa que ya hemos hecho en la práctica nº1, pero es suficientemente rápido como para hacerlo de nuevo. Se selecciona desde A1 hasta B63 (columnas t y Y) y se presiona el icono de gráficos en la barra de herramientas, Insertar y después Gráfico.
, o también,
En el Asistente para Gráficos (figura 3.3) hemos de seleccionar XY (Dispersión) y ahora la opción (3; 1), es decir, Dispersión con puntos de datos conectados con líneas y Terminar. Situar el gráfico en el lugar que se desee, y editarlo según convenga.
Fig. 3.3
El resultado es el primer gráfico de la página 134 de esta práctica. Parece detectarse una estacionalidad de período 4, hecho que debemos confirmar mediante el correlograma. Este gráfico ha sido el objetivo de la práctica 2; aplicando la metodología expuesta a los datos actuales resulta el correlograma mostrado en la página 132, donde se puede ver, por una parte, la evidencia de una estacionalidad de período 4 y, por otra, que es admisible hacer previsiones para cinco intervalos de tiempo. Conclusiones: Se detecta una clara estacionalidad, de período p=4, y posiblemente una tendencia creciente y cuadrática. El modelo que se tendrá que estudiar será Y = α0 + α1 t + α2 t2 + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q2 t + β6 Q3 t + β7 Q4 t + ε
© Los autores, 2001; © Edicions UPC, 2001.
p124
Series temporales
3.3 Modelización con variables categóricas ̈
Creación de las variables
Para poder modelizar la serie, en primer lugar hemos de crear las variables categóricas, o indicatrices, teniendo en cuenta que, en el caso de la práctica, el período p es igual a 4. Para ello, se preparan los títulos de las columnas que contendrán los valores de las variables categóricas. Recordando que las representamos por Q y que sus índices van desde 2 hasta p (teoría de series temporales), en las casillas C1, D1 y E1 escribiremos Q2, Q3, y Q4, tal como muestra la figura 3.4. A continuación rellenaremos cada variable categórica con sus valores. Al ser el período igual a 4, hay 4 combinaciones diferentes de ceros y unos, una para cada componente del período, y sabiendo que Qi vale la unidad si el orden del tiempo asociado es igual a i, y vale cero en cualquier otro caso, el conjunto de valores es el que se muestra en el bloque C2− E5, de la figura 3.4. Una vez lleno el bloque anterior, sólo hemos de seleccionarlo y con Cortar y Pegar, llenar todas las casillas C ... E hasta la fila 63, o bien arrastrar el bloque presionando simultáneamente el Ctrl (página 130). Además, para estudiar el modelo, es necesario disponer de las columnas con los valores tQ2, tQ3 y tQ4, tiempo (t) y tiempo al cuadrado (t^2). Estos valores están en las columnas F, ... J. Para llenar estas columnas, es ya evidente que lo que debemos hacer es definirlas como y H2 = A2*A2. F2 = A2*C2, G2 = A2*D2, H2 = A2*E2, I2 =A2 Después arrastrar hasta la fila 63. En la figura 3.4 se puede ver la estructura que toman estas columnas, y en la página 130 todos los valores. Es una exigencia de Excel que todas las columnas de los términos que constituyen el modelo hayan de ser consecutivas y contiguas.
Fig. 3.4
© Los autores, 2001; © Edicions UPC, 2001.
p125
Práctica 3. Modelización de una serie con variables categóricas
̈
Obtención del modelo
De acuerdo con la naturaleza de los datos hay que plantear el modelo 2 ˆ ˆ ˆ ˆ ˆ ˆ ˆ = αˆ + αˆt + α ˆ Y 0 1 2 t + β2 Q2 + β3 Q3 + β4 Q4 + β5 Q2 t + β6 Q3 t + β7 Q4 t
Para estimar los coeficientes y estudiar su significación, el procedimiento es: Herramientas 6 Análisis de datos 6 Regresión En este momento aparece la pantalla de la figura 3.5, donde debemos rellenar los campos siguientes Rango Y de entrada: $B$1:$B$63
(los valores de Y)
Rango X de entrada: $C$1:$J$63
(los valores de los regresores)
Z Rótulos n Rango de salida $A$125
(una casilla que esté vacía)
Los resultados se pueden ver en la página 133, con el título • Primer paso Conclusiones: El coeficiente del término Q2 no es significativo (su nivel de significación es p = 0,292 > 0,05). Debemos eliminarlo del modelo lineal y volver a estimar los coeficientes.
Fig. 3.5
© Los autores, 2001; © Edicions UPC, 2001.
p126
Series temporales
Para eliminar el término Q2 y rehacer la regresión, con la rutina Regresión de Excel, es necesario que todos los términos del modelo estén juntos; por tanto hemos de eliminar la columna de Q2. Hacerlo así directamente podría ocasionar problemas y modificaciones en otras columnas ligadas a ésta. Para evitarlo recomendamos lo siguiente: ̈
Seleccionar con el ratón desde B1 hasta J63, presionar el botón derecho y hacer Copiar.
̈
Situarse, por ejemplo, en la casilla S1 (fila a partir de la cual todo está vacío) y desplegar el menú Insertar (figura 3.6).
Fig. 3.6
̈
Seleccionar Pegado especial y ahora ¿Valores (figura 3.7)
Fig. 3.7
© Los autores, 2001; © Edicions UPC, 2001.
p127
Práctica 3. Modelización de una serie con variables categóricas
̈
Ahora eliminar la columna asociada a Q2 (la T en el caso del ejemplo): para ello se pincha sobre la letra T distintiva de la columna, que quedará enmarcada por una línea que parpadea; entonces se presiona el botón derecho y se selecciona Eliminar. De esta manera las columnas siguientes avanzan un lugar y vuelven a estar todas juntas, es decir, empiezan en la S (valores de Y) y acaban en la Z (valores de t^2)
Y ahora hay que proceder como antes: Herramientas 6 Análisis de datos 6 Regresión modificando los campos siguientes: Rango X de entrada: $S$1:$Z$63
(los nuevos regresores)
n Rango de salida $A$150
(una casilla que esté vacía)
Los resultados se pueden ver en la página 133 con el título • Segundo paso
Conclusiones: El modelo definitivo es Yˆ = 97,81 + 2,03 t + 0,014 t2 − 7,75 Q3 + 20,57 Q4 + 0,39 t Q2 + 0,85 t Q3 + 0,99 t Q4 • Analizar y comentar los valores de los coeficientes del modelo, su significación y el valor del coeficiente de determinación (R^2) del ajuste.
3.4 Estimaciones y residuos ̈
Valores estimados
Una vez establecido el modelo tenemos que examinar el ajuste entre los datos y los valores estimados según el modelo ajustado. Por eso, en primer lugar cogemos un bloque con los términos y los coeficientes del modelo definitivamente obtenido y hacemos un Cortar y Pegar en L2; en L1 escribimos Modelo: resultarán las casillas destacadas en azul en la página 131. Después, en N1 escribimos el título de la columna, Yest, y en N2 el modelo, es decir = M$2+M$3*D2+M$4*E2+M$5*F2+M$6*G2+M$7*H2+M$8*I2+M$9*J2 Debemos destacar la exigencia de fijar las celdas que contienen los coeficientes del modelo, para que al arrastrar la fórmula se mantengan constantes. Arrastrando la casilla N2 hasta la N63 se obtienen los valores calculados, como estimaciones de la variable estudiada, que se pueden ver en la página 131.
© Los autores, 2001; © Edicions UPC, 2001.
p128
̈
Series temporales
Gráfico de los valores reales enfrente de los estimados
Es necesario seleccionar desde B2 hasta B63 y, presionando la tecla Ctrl, desde N2 hasta N63. Después se presiona el icono de los gráficos Asistente para Gráficos Líneas (2, 1) Línea con marcadores…
y
Terminar
Situaremos el gráfico como Objeto en la misma hoja, y lo editaremos, en la posición, la amplitud y el estilo deseados. El resultado se puede ver en el segundo gráfico de la página 134.
̈
Gráfico de residuos
En primer lugar debemos calcular los residuos; para esto es prepara la columna con el título y se calculan los valores: O1 : Res
O2 = B2 − N2 (arrastrar hasta O63 (página 131))
Para hacer el gráfico se selecciona desde O2 hasta O63, se presiona Asistente para Gráficos Líneas (2, 1) Línea con marcadores…
y
Terminar
Situaremos el gráfico como Objeto en la misma hoja, y lo editaremos, en la posición, la amplitud y el estilo deseados. El resultado se puede ver en el primer gráfico de la página 135. Conclusiones: Observar y analizar detalladamente la evolución de los dos gráficos.
3.5 Previsiones Atendiendo a que, según el correlograma (página 132), se pueden hacer previsiones para los próximos 5 valores del tiempo, es necesario ampliar las columnas de las variables categóricas y del tiempo con los 5 valores nuevos, del 63 hasta el 67. Estos valores se han de incorporar al final de la columna A, es decir desde A64 hasta A68 (página 130). El primer valor para el que hay que hacer previsiones corresponde a t = 63, que es un múltiple de 4 (15×4 = 60) más 3. Por tanto, la variable categórica Q3 valdrá 1 y las demás 0. Situados en C64 podemos copiar el bloque C4 – E8, que es el de las categóricas que se inicia en una tercera estación. Ahora seleccionaremos con el ratón desde F63 hasta J63 y arrastraremos hasta llenar la fila 68, que corresponde a la última previsión (página 130).
© Los autores, 2001; © Edicions UPC, 2001.
p129
Práctica 3. Modelización de una serie con variables categóricas
Prepararemos la columna de las previsiones: K1 = Y Prev
(título)
y en K64 escribiremos el modelo , es decir, =M$2+M$3*D64+M$4*E64+M$5*F64+M$6*G64+M$7*H64+M$8*I64+M$9*J64 arrastraremos hasta K68 y tendremos los valores de las 5 previsiones (página131).
Para hacer el gráfico se selecciona desde B2 hasta B68 y, presionando el Ctrl, desde K2 hasta K68 y desde N2 hasta N68. Se presiona el icono de los gráficos
y
Asistente para Gráficos Líneas (2, 1) Línea con marcadores… Terminar
Situaremos el gráfico como Objeto en la misma hoja, y lo editaremos, en la posición, el tamaño y el estilo deseados. El resultado se puede ver en el segundo gráfico de la página 135.
Conclusiones: Analizar detalladamente el gráfico de las observaciones y las previsiones. Pensando que los datos corresponden a un indicador económico medido trimestralmente, comentar su evolución actual y futura así como el comportamiento diferencial propio de cada trimestre.
© Los autores, 2001; © Edicions UPC, 2001.
p130
Series temporales
3.6 Resultados
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
A t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 A 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
B Y 105,86 97,79 96,1 127,44 108,78 112,61 111,43 145,71 118,37 121,89 124,25 159,55 125,41 135,4 137,86 171,44 132,38 147,59 153,92 B 232,76 256,84 271,36 311,42 243,9 268,42 291,25 331,96 255,46 283,53 307,82 354,72 276,58 304,72
C Q2 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 C 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0
D Q3 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 D 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1
E Q4 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 E 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0 1 0 0 0
F tQ2 0 2 0 0 0 6 0 0 0 10 0 0 0 14 0 0 0 18 0 F 0 50 0 0 0 54 0 0 0 58 0 0 0 62 0 0 0 66 0
Hoja: Datos
© Los autores, 2001; © Edicions UPC, 2001.
G tQ3 0 0 3 0 0 0 7 0 0 0 11 0 0 0 15 0 0 0 19 G 0 0 51 0 0 0 55 0 0 0 59 0 0 0 63 0 0 0 67
H tQ4 0 0 0 4 0 0 0 8 0 0 0 12 0 0 0 16 0 0 0 H 0 0 0 52 0 0 0 56 0 0 0 60 0 0 0 64 0 0 0
I t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 I 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
J t^2 1 4 9 16 25 36 49 64 81 100 121 144 169 196 225 256 289 324 361 J 2401 2500 2601 2704 2809 2916 3025 3136 3249 3364 3481 3600 3721 3844 3969 4096 4225 4356 4489
p131
Práctica 3. Modelización de una serie con variables categóricas
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
K Y Prev
K 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
L Modelo Ord. Origen Q3 Q4 tQ2 tQ3 tQ4 t t^2
L
M 97,8112 -7,7472 20,5667 0,3863 0,8484 0,9877 2,0302 0,0143
M
N Y est 99,856 102,701 98,828 130,677 108,319 112,823 110,913 143,433 117,238 123,402 123,454 156,645 126,613 134,437 136,451 170,314 136,445 145,928 149,905 N 231,526 254,283 273,960 313,863 245,464 269,881 291,520 332,095 259,859 285,935 309,537 350,782 274,710 302,445
328,010 369,926 290,018 319,412 346,939 Hoja: Datos (continuación)
© Los autores, 2001; © Edicions UPC, 2001.
O Res 6,004 -4,911 -2,728 -3,237 0,461 -0,213 0,517 2,277 1,132 -1,512 0,796 2,905 -1,203 0,963 1,409 1,126 -4,065 1,662 4,015 O 1,234 2,557 -2,600 -2,443 -1,564 -1,461 -0,270 -0,135 -4,399 -2,405 -1,717 3,938 1,870 2,275
p132
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
Series temporales
A t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
B Y 105,86 97,79 96,1 127,44 108,78 112,61 111,43 145,71 118,37 121,89 124,25 159,55 125,41 135,4 137,86 171,44 132,38 147,59 153,92 179,39 141,59 159,6 163,23 205,54 161,71 172,24 173,17
C Y-Ybar -94,918 -102,988 -104,678 -73,338 -91,998 -88,168 -89,348 -55,068 -82,408 -78,888 -76,528 -41,228 -75,368 -65,378 -62,918 -29,338 -68,398 -53,188 -46,858 -21,388 -59,188 -41,178 -37,548 4,762 -39,068 -28,538 -27,608
D
E
F gamma_0 4277,898
k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
gamma_k 3562,405 3408,788 3149,145 3466,645 2791,202 2671,875 2435,804 2711,854 2076,334 1964,898 1745,883 1990,675 1385,336 1281,548 1082,582 1282,895 717,469 636,614
G
H
I
J
r_k 0,833 0,797 0,736 0,810 0,652 0,625 0,569 0,634 0,485 0,459 0,408 0,465 0,324 0,300 0,253 0,300 0,168 0,149
r_k^2 0,693 0,635 0,542 0,657 0,426 0,390 0,324 0,402 0,236 0,211 0,167 0,217 0,105 0,090 0,064 0,090 0,028 0,022
V(r_k) 0,016 0,038 0,059 0,076 0,098 0,111 0,124 0,134 0,147 0,155 0,162 0,167 0,174 0,178 0,180 0,182 0,185 0,186
- 2S(r_k) -0,254 -0,392 -0,486 -0,553 -0,625 -0,667 -0,704 -0,733 -0,768 -0,787 -0,804 -0,818 -0,835 -0,843 -0,850 -0,854 -0,861 -0,863
AUTOCORRELOGRAMA 1,0
0,5
0,0
-0,5
-1,0 Hoja: Correl
© Los autores, 2001; © Edicions UPC, 2001.
K
+ 2S(r_k) 0,254 0,392 0,486 0,553 0,625 0,667 0,704 0,733 0,768 0,787 0,804 0,818 0,835 0,843 0,850 0,854 0,861 0,863
p133
Práctica 3. Modelización de una serie con variables categóricas
̈
Resultados de la regresión
Primer paso
Coef. de determinación R^2 0,99803327 ANÁLISIS DE VARIANZA nu 8 Regresión 53 Residuos 61 Total
Ord. Origen Q2 Q3 Q4 tQ2 tQ3 tQ4 t t^2
S.C. 264708,064 521,636 265229,699
C.M. 33088,508 9,842
F 3361,908
Coefs Error típico 98,9145 1,7628 -2,3396 2,1976 -8,8900 2,2637 19,4201 2,2980 0,4416 0,0602 0,8756 0,0633 1,0150 0,0634 2,0067 0,0965 0,0142 0,0014
t 56,1129 -1,0646 -3,9271 8,4508 7,3341 13,8337 16,0203 20,7852 10,1580
p-val 6,95E-49 2,92E-01 2,50E-04 2,15E-11 1,31E-09 3,15E-19 5,78E-22 3,82E-27 4,85E-14
S.C. 264696,908 532,791 265229,699
C.M. 37813,844 9,867
F 3832,546
Coefs Error típico 97,8112 1,4278 -7,7472 1,9955 20,5667 2,0325 0,3863 0,0304 0,8484 0,0580 0,9877 0,0580 2,0302 0,0941 0,0143 0,0014
t 68,5071 -3,8823 10,1186 12,6897 14,6299 17,0261 21,5725 10,1963
p-val 3,52E-54 2,84E-04 4,50E-14 7,78E-18 1,97E-20 2,29E-23 3,26E-28 3,42E-14
p-val 7,37E-69
Segundo paso
Coef. de determinación 0,99799121 R^2 ANÁLISIS DE VARIANZA nu 7 Regresión 54 Residuos 61 Total
Ord. Origen Q3 Q4 tQ2 tQ3 tQ4 t t^2
© Los autores, 2001; © Edicions UPC, 2001.
p-val 2,00E-70
p134
Series temporales
Evolución cronológica de los datos Y 370 330 290 250 210 170 130 90 0
8
16
24
32
40
48
56
64 t
Datos reales y modelizados Model Serie2
Serie1 Real
Y 370 330 290 250 210 170 130 90 0
8
16
24
32
40
© Los autores, 2001; © Edicions UPC, 2001.
48
56
64 t
p135
Práctica 3. Modelización de una serie con variables categóricas
Residuos R 10 5 0 -5 -10 0
8
16
24
32
40
48
56
64 t
64
72
Valores reales, modelizados y previsiones
Real Serie1
Model Serie2
Serie3 Prev
Y 410 370 330 290 250 210 170 130 90 0
8
16
24
32
40
48
© Los autores, 2001; © Edicions UPC, 2001.
56
t
p136
Series temporales
PRÁCTICA 4. MODELIZACIÓN Y PREVISIONES POR SUAVIZADO EXPONENCIAL (MÉTODO DE BROWN) OBJETIVO: Se dispone de la evolución de un indicador económico durante 31 días. Hay que analizar los datos de esta serie cronológica, estimar el modelo de comportamiento y hacer las previsiones pertinentes. Todo esto se realizará mediante la hoja de cálculo Excel 97 de Microsoft.
4.1 Recuperación de los datos Desde Excel recuperar el archivo que contiene los datos objeto de la práctica, y que se encuentran en el directorio habitual de la red. Para ello, debemos seguir la secuencia (figura 4.1) Archivo 6 Abrir y ahora ir al directorio donde se encuentra el archivo Práctica 4.xls, seleccionarlo y presionar Abrir.
Fig. 4.1
Una vez está abierto el archivo, observamos que consta de una hoja denominada Datos con 2 columnas de 31 valores cada una y la estructura mostrada en la figura 4.2. La columna A, llamada Tiempo, contiene valores de 1 a 31 y la B, llamada Y, contiene los valores del índice económico que se está estudiando.
Fig. 4.2
© Los autores, 2001; © Edicions UPC, 2001.
Práctica 4. Modelización y previsiones por suavizado exponencial
p137
4.2 Análisis de la evolución de la serie cronológica En primer lugar, hay que analizar la evolución de la serie: para ello se selecciona desde B1 hasta B32 (valores de Y) y se presiona el icono de gráficos , o también, en la barra de herramientas, Insertar y después Gráfico. En el Asistente para Gráficos (figura 4.3), seleccionar Líneas.
Fig. 4.3
Y ahora la opción (2; 1), es decir, Línea con marcadores en cada valor de datos y Terminar.
Situar el gráfico como Objeto en la misma hoja, y editarlo en la posición y el tamaño deseados. El resultado es el gráfico de la página 142. Se muestra una tendencia creciente y no parece detectarse ningún tipo de estacionalidad, cosa que se confirmará mediante el correlograma. Este gráfico ha sido el objetivo de la práctica 2; para obtenerlo copiamos todos los datos de la práctica en una nueva hoja que llamaremos Correl. Aplicando la sistemática se obtienen los resultados mostrados en la páginas 143 y 144, que confirman la no estacionalidad y la posibilidad de hacer previsiones para los tres próximos días. Se debe recalcar que no se está en las mejores condiciones para hacer un correlograma, porque tan sólo se dispone de 30 valores.
Conclusiones: Sin estacionalidad y con tendencia creciente, se puede estudiar la serie aplicando el suavizado exponencial según el método de Brown que incorpora una tendencia rectilínea y cambiante a lo largo del tiempo.
© Los autores, 2001; © Edicions UPC, 2001.
p138
Series temporales
4.3 Método de Brown Para modelizar una serie con este procedimiento hemos de seleccionar un valor del parámetro λ y calcular la serie suavizada, la doble suavizada, la ordenada en el origen, la pendiente, el valor de la serie estimada, el error en cada instante y el error cuadrático medio. Cambiando el valor de λ se repite el proceso y se selecciona, como parámetro de modelización, el que minimice el error cuadrático medio. Selección de λ
̈
En la casilla A40 escribimos el valor inicial de λ, λ = 0,1 para empezar, y etiquetamos las columnas según el contenido que tenemos destinado. Así:
A 1 Tiempo 2
B Y
C S
D S(2)
E a^
F b^
G Y est
H Error
I Y prevista
Las expresiones utilizadas serán según el texto de series temporales, y su ubicación en la hoja de cálculo será:
casilla
Expresión
S1 = Y1
C2
= B2
St = λ Yt + ( 1 - λ) St−1
C3
−$A$40)*C2 = $A$40*B3+(1−
D2
= B2
St = λ St + ( 1 - λ) S
D3
−$A$40)*D2 = $A$40*C3+(1−
arrastrar hasta D32
aˆt = 2St − S(2) t
E2
−D2 = 2*C2−
arrastrar hasta E32
λ bˆt = (S − S(2) t ) 1− λ
F2
−$A$40))*(C2− −D2) = ($A$40/(1−
arrastrar hasta F32
ˆ = aˆ − + bˆ− Y t t 1 t 1
G3
= E2+F2
arrastrar hasta G32
ˆ Rt = et = Yt − Y t
H3
−G3 = B3−
arrastrar hasta H32
(2) 1
S
= Y1
(2)
(2) t−1
arrastrar hasta C32
La casilla G33 se etiqueta como ECM para escribir en H34 la expresión = SUMA.CUADRADOS(H3:H32) / 30
(error cuadrático medio)
Observaremos que se dispone de 31 valores de la serie y sólo hay 30 estimaciones y, por tanto, 30 errores.
© Los autores, 2001; © Edicions UPC, 2001.
p139
Práctica 4. Modelización y previsiones por suavizado exponencial
Se deben guardar los valores de cada λ y su ECM, a fin de escoger la óptima. En casillas vacías preparamos una tabla como la que muestra la figura 4.4, donde etiquetamos C40 como Lambda y D40 como E.C.M. A continuación escribimos en C41 el valor 0,1 ( λ utilizada en los cálculos) y en D41 7,777, valor resultante de ECM según ha salido en la casilla H34. (Esto lo podemos hacer manualmente o con Cortar y Pegar sólo valores). Sustituyendo el valor de λ de la casilla A40 por 0,2, automáticamente cambiarán todos los valores de los cálculos de las columnas C − H. Ahora anotamos 0,2 en C42 y el valor de H34 (2,679 en este caso) en D42. Sucesivamente se van cambiando los valores de λ (A40) por 0,3,… 0,9, y anotando junto con sus ECM, desde C43− −D43 hasta C49− −D49. Con los datos actuales, se detecta que el óptimo estará entre 0,4 y 0,5; por tanto, ponemos 0,45 en A40 y lo pasamos a C50 juntamente con su ECM (H34), que en este caso es igual a 1,822 y que anotamos en D50.
A 39 40 41 42 43 44 45 46 47 48 49 50 51
0,45
B
C
D
Lambda 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,45
E.C.M. 7,777 2,679 1,989 1,836 1,833 1,917 2,077 2,321 2,669 1,822
E
F
ECM
G
H
8 6 4 2 0 0
0,5
1
λ
Fig. 4.4
̈
Previsiones
Una vez escogida la λ de trabajo, se puede pasar a calcular los valores previstos para los próximos tres días, según se ha deducido del correlograma. Por eso prolongamos la columna A con los tres nuevos valores del tiempo (A33 = 32; A34 =33; A35 = 34). El valor previsto para el instante t + T (31+T, en el caso de la práctica) es # ˆ ˆ Y t + T = a t + bt
T
En la casilla I33, perteneciente a la columna I etiquetada como Y prevista, se deberá escribir la expresión = E$32+F$32*(A33-A$32)
© Los autores, 2001; © Edicions UPC, 2001.
p140
Series temporales
y arrastrarla hasta I35. Así acabamos de calcular los valores previstos para los próximos tres días del índice económico estudiado. Todos los resultados se muestran en la página 141.
̈
Análisis de los gráficos
Seguidamente, y como ya es habitual, se procederá a la obtención del gráfico de los valores reales, los modelizados y los previstos, y del gráfico de los errores. Para ello se selecciona, presionando la tecla Ctrl, desde B1 hasta B32 (valores de Y), desde G1 hasta G32 (valores de Y estimada) y desde I1 hasta I35 (valores de Y prevista), y se presiona el icono de gráficos después Gráfico.
, o también, en la barra de herramientas, Insertar y
En el Asistente para Gráficos seleccionar XY (Dispersión) (3,1) Dispersión con puntos de datos conectados por líneas Terminar Situaremos el gráfico como Objeto en la misma hoja, y lo editaremos en la posición y el tamaño deseados. El resultado es el gráfico de la página 142. Para obtener el gráfico de los errores se procede seleccionando desde H1 hasta H32 (valores de los errores) y exactamente igual que en el gráfico anterior. El resultado es el gráfico de la página 143.
Conclusiones: Las previsiones siguen muy bien todos los datos, a lo largo del tiempo de recogida de información. Los errores no muestran ninguna particularidad destacable.
© Los autores, 2001; © Edicions UPC, 2001.
p141
Práctica 4. Modelización y previsiones por suavizado exponencial
4.4 Resultados
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
A Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34
0,45
B Y 9,51 7,71 6,39 6,67 9,14 7,66 7,74 9,36 10,03 8,38 7,12 9,06 9,6 11,44 10,93 13,1 13,51 13,93 13,54 15,65 15,13 17,06 19,03 21,38 22,82 22,76 23,02 23,62 23,45 24,57 24,17
C S 9,51 8,70 7,66 7,21 8,08 7,89 7,82 8,51 9,20 8,83 8,06 8,51 9,00 10,10 10,47 11,65 12,49 13,14 13,32 14,37 14,71 15,77 17,24 19,10 20,77 21,67 22,28 22,88 23,14 23,78 23,96
Lambda 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 0,45
D S(2) 9,51 9,15 8,48 7,91 7,99 7,94 7,89 8,17 8,63 8,72 8,42 8,46 8,70 9,33 9,85 10,66 11,48 12,23 12,72 13,46 14,02 14,81 15,90 17,34 18,89 20,14 21,10 21,90 22,46 23,05 23,46
E.C.M. 7,777 2,679 1,989 1,836 1,833 1,917 2,077 2,321 2,669 1,822
E a^ 9,51 8,25 6,84 6,52 8,18 7,84 7,76 8,86 9,76 8,94 7,70 8,56 9,30 10,86 11,10 12,65 13,50 14,05 13,92 15,27 15,40 16,73 18,57 20,86 22,66 23,20 23,45 23,86 23,82 24,51 24,45
ECM
F b^ 0,00 -0,36 -0,67 -0,57 0,08 -0,04 -0,05 0,28 0,46 0,09 -0,30 0,04 0,24 0,63 0,51 0,81 0,82 0,74 0,49 0,74 0,56 0,79 1,09 1,44 1,55 1,25 0,96 0,80 0,56 0,60 0,41
G Y est 9,51 7,89 6,18 5,95 8,25 7,80 7,70 9,14 10,22 9,03 7,40 8,60 9,54 11,49 11,61 13,46 14,32 14,79 14,41 16,02 15,96 17,51 19,66 22,30 24,21 24,45 24,41 24,66 24,37 25,11 ECM =
H Error -1,800 -1,500 0,494 3,188 -0,593 -0,057 1,657 0,890 -1,842 -1,906 1,661 1,004 1,901 -0,562 1,487 0,045 -0,390 -1,253 1,240 -0,887 1,099 1,517 1,717 0,519 -1,448 -1,430 -0,795 -1,212 0,197 -0,936 1,822
8 6 4 2 0 0
Hoja: Datos
© Los autores, 2001; © Edicions UPC, 2001.
0,5
λ
1
I Y prevista
24,86 25,27 25,67
p142
Series temporales
Evolución cronológica Y
30 20 10 0 0
10
20
30
40
Tiempo
Valores medidos y previsiones Y
Y est
Y prevista
30 20 10 0 0
10
20 Tiempo
© Los autores, 2001; © Edicions UPC, 2001.
30
40
p143
Práctica 4. Modelización y previsiones por suavizado exponencial
Errores 4 3 2 1 0 -1 -2 -3 0
10
20
30
40
Tiempo
A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Tiempo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
B Y 9,51 7,71 6,39 6,67 9,14 7,66 7,74 9,36 10,03 8,38 7,12 9,06 9,6 11,44 10,93 13,1 13,51 13,93 13,54 15,65 15,13 17,06 19,03 21,38 22,82 22,76 23,02 23,62 23,45 24,57 24,17
C Y - Ybar -4,602 -6,402 -7,722 -7,442 -4,972 -6,452 -6,372 -4,752 -4,082 -5,732 -6,992 -5,052 -4,512 -2,672 -3,182 -1,012 -0,602 -0,182 -0,572 1,538 1,018 2,948 4,918 7,268 8,708 8,648 8,908 9,508 9,338 10,458 10,058
D
E
F gamma_0 37,975
k
gamma_k 35,107 31,592 28,034 24,355 20,478 16,437 12,353 8,665 5,129 1,730
1 2 3 4 5 6 7 8 9 10
G
r_k 0,924 0,832 0,738 0,641 0,539 0,433 0,325 0,228 0,135 0,046
Hoja: Correl
© Los autores, 2001; © Edicions UPC, 2001.
H
r_k^2 0,855 0,692 0,545 0,411 0,291 0,187 0,106 0,052 0,018 0,002
I
J
K
V(r_k) -2S(r_k) +2S(r_k) 0,032 -0,359 0,359 0,087 -0,591 0,591 0,132 -0,727 0,727 0,167 -0,818 0,818 0,194 -0,880 0,880 0,213 -0,922 0,922 0,225 -0,948 0,948 0,231 -0,962 0,962 0,235 -0,969 0,969 0,236 -0,972 0,972
p144
Series temporales
Autocorrelograma 1,0 0,5 0,0 -0,5 -1,0
© Los autores, 2001; © Edicions UPC, 2001.
p145
Evaluaciones
EVALUACIONES DE SERIES TEMPORALES
ÍNDICE TEMÁTICO 1. DESCOMPOSICIÓN CLÁSICA 13.5.98................................................................... 1 − 2 − 3 − 4 3.5.99..................................................................... 1 − 2 − 3 23.6.99................................................................... 1 − 2 − 6 12.1.00................................................................... 1 − 2 − 3 17.5.00................................................................... 1 − 2 − 10
2. MODELIZACIÓN CON VARIABLES CATEGÓRICAS 13.5.98................................................................... 7 − 8 − 9 3.5.99..................................................................... 4 − 5 − 6 23.6.99................................................................... 3 − 4 12.1.00................................................................... 4 − 5 17.5.00................................................................... 3 − 4 − 5
3. AUTOCORRELACIÓN 13.5.98................................................................... 5 − 10 3.5.99..................................................................... 7 23.6.99................................................................... 7 12.1.00................................................................... 6 − 7 17.5.00................................................................... 6 − 7
4. SUAVIZADO EXPONENCIAL 13.5.98................................................................... 6 3.5.99..................................................................... 8 − 9 − 10 23.6.99................................................................... 5 − 8 12.1.00................................................................... 8 − 9 17.5.00................................................................... 8 − 9
© Los autores, 2001; © Edicions UPC, 2001.
p146
Series temporales
1 EVALUACIONES PROPUESTAS
Respuesta correcta +1; incorrecta −0,2 ? 1. El modelo de tendencia ha sido T = 76,23 + 0,54 t − 0,02 t2. Los respectivos niveles de 2 significación de los términos t y t han sido 0,002 y 0,423. El modelo definitivo es 2
76,23+0,54t−0,02t ̊ 76,23+0,54t ̊
Hay que recalcularlo ̊
© Los autores, 2001; © Edicions UPC, 2001.
….……………. ̊
p147
Evaluaciones
13.5.98
? 1 Los valores disponibles de una serie temporal son: 11,2; 13,4; 9,9; 11,9; 14,2; 11,0; 13,1; 14,8; 12,2; 14,1; 16,3; .... Se trata de un modelo: multiplicativo ̊ tendencia rectilínea ̊ estacionalidad de p=2 ̊ aditivo ̊ tendencia parabólica ̊ estacionalidad de p=3 ̊ .......... ̊ ninguna tendencia ̊ estacionalidad de p=4 ̊ ................ ̊ ................. ̊ ?2
Por los datos anteriores, el valor de la tercera media móvil es: 11,75 ̊ 12 ̊ 12,15 ̊ 13,36 ̊
.......... ̊
?3
Los primeros datos de una serie multiplicativa p = 4 son: 32; 26; 22; 45; 52; 42; 29; ... El valor de la media móvil asociada a t = 4 es: 31,25 ̊ 36,25 ̊ 38,25 ̊ 40,25 ̊ .......... ̊
?4
En una serie multiplicativa de p = 4, E1* = 43.4 E*2 = 37.9 E3* = 52.5 E*4 = 66.2 ; ¿cuál es el valor de E3? 2.5 ̊ 44.6 ̊ 52.5 ̊ 105 ̊ ..........̊
? 5. Sobre 106 valores, la tendencia estimada es 254,9 + 0,25 t ; los índices estacionales son E1 = 35,5; E2 = 72,8; E3 = –60,7 y E4 = –47,6 y el último coeficiente de autocorrelación significativo es ρ3. El valor más alejado que se puede prever de la serie es: 317,65 ̊ 282,15 ̊ 221,45 ̊ 194,95 ̊ . ........ ̊ ? 6. Se dispone de los datos cronológicos: Y1 = 45,74; Y2 = 47,95; Y3 = 49,23; Y4 = 51,47; ... Para un valor λ = 0,8, cuál es el cuarto valor de la serie suavizada (S4)? 48,89 ̊ 51,37 ̊ 41,18 ̊ 50,95 ̊ .......... ̊ ? 7. Un modelo aditivo de período 3, ha dado los siguientes índices estacionales: E1 = 10; E2 = 20 y E3 = –30. Los coeficientes β2 y β3 del modelo en variables categóricas se estiman como: 20 y 30 ̊ 10 y –40 ̊ 25 y 45 ̊ –10 y 10 ̊ ...........̊ ? 8. La modelización de una serie aditiva con variables categóricas ha dado Yˆ = 104,8 –0,5 t –8,2 Q2 + 15,4 Q3. El valor previsto para t = 50 es: 71,6 ̊
87 ̊
95,2 ̊
79,8 ̊
........... ̊
? 9. En la serie de la pregunta anterior, el último valor observado ha sido y = 81,5 para t = 49. ¿Qué valor tiene el residuo? –13,2 ̊ 0 ̊ 1,2 ̊ 9,4 ̊ ........... ̊ ? 10 Con 252 datos se han obtenido los coeficientes de autocorrelación: r1= 0,983; r2= 0,537; r3= 0,684; r4= 0,322; ... ¿En qué intervalo de valores se puede considerar nulo ρ3? ±0,266 ̊ ±0,236 ̊ ±0,299 ̊ ±0,225 ̊ ........... ̊
© Los autores, 2001; © Edicions UPC, 2001.
p148
Series temporales
3.5.99 ???Se dispone de 100 valores de una serie siendo los 6 últimos 53,0; 89,3; 66,6; 29,1; 194,8 y 61,2. Se detecta que tiene una estacionalidad de periodo 5 y que es de tipo multiplicativo. ? 1. El valor de la última media móvil es: 74,02 ̊ 86,56 ̊ 88,2 ̊ 87,38 ̊ ...................... ̊ ? 2. Se ha obtenido E1 = 108,3; E2 = 75,1; E4 = 220,6 y E5 = 65,6. ¿Qué valor tiene E3? 25,8 ̊
−469,6 ̊
30,4 ̊
220,6 ̊
....…………… ̊
? 3. Por la tendencia se han probado los modelos rectilíneo y parabólico, obteniendo Modelo Coeficientes p− −value 2 R
a = 65,24 −
T=a+bt b = 0,79 0,0000 0,893
2
a = 65,62 −
¿Cuál es la previsión para t = 104? 420,07 ̊ 97,21 ̊ 126,05 ̊
T=a+bt+ct b = 0,68 c= 0,0050 0,0221 0,6943 0,900
325,16 ̊
......………… . ̊
??? Una serie de la que tenemos 92 valores se ha modelizado con variables categóricas obteniéndose Yˆ = 250,83 + 1,27t − 0,006t2 + 5,35Q2 − 8,27Q3 − 10,2Q4 + 15,60Q5 ? 4. ¿Cuál es la longitud de la estacionalidad (p)? 3̊ 4̊ 5̊ 6̊ no se sabe ̊ ..............................̊ ? 5. Siendo Y92 = 320, ¿qué valor tiene su residuo? −2,236 ̊ 13,154 ̊ 11,224 ̊
−6,137 ̊
..............................̊
? 6. ¿Qué valor tiene el índice estacional E2? no se sabe ̊ −0,496 ̊ 4,854 ̊
−8,766 ̊
..............................̊
? 7. En una serie de 100 datos, los coeficientes de autocorrelación calculados son r1 = 0,952 r2 = 0,741 r3 = 0,583 r4 = 0,492. ρ4 será considerado nulo si r4 , en valor absoluto, es menor que 0,2792 ̊ 0,4050 ̊ 0,4285 ̊ 0,5412 ̊ ..............................̊ ?? Los valores de una serie son 40,22; 54,89; 63,51; .... ? 8. En un suavizado exponencial con λ = 0,4, ¿cuál es el valor de S3? 58,338 ̊ 53,0568 ̊ 49,0220 ̊ 52,1252 ̊ ? 9. Según el método de Brown, ¿cuál es el valor modelado para t = 3 63,790 ̊
56,614 ̊
51,956 ̊
40,220 ̊
.................. ̊ ( Yˆ 3 ) ? .................. ̊
? 10. Los valores de una serie son 67,38; 56,09; 75,11; 55,90 y 61,25 y los estimados según el modelo resultante del análisis han sido 56,44; 62,29; 72,13; 59,60; y 65,45.¿Cuál es el valor del error cuadrático medio (MSE)? 42,931 ̊ 40,697 ̊ 40,374 ̊ 39,667 ̊ ............................... ̊
© Los autores, 2001; © Edicions UPC, 2001.
p149
Evaluaciones
23.6.99 ????? Los primeros valores de una serie, de la que se dispone de 141 observaciones, son: 225; 219; 196; 197; 235; 208; 191; 212; 216; .... Se trata de un modelo aditivo con estacionalidad de período 4. Por el sistema clásico se ha obtenido como tendencia Tt = 200 + 0,10 t y como índices estacionales E1 = 0,73; E2 = 0,87 y E3 = –0,4.
? 1. ¿Cuál es el valor de la primera media móvil? 207,500 ̊ 208,250 ̊ 208,375 ̊
209,625 ̊
210,500 ̊ ............... ̊
? 2. ¿Y cuál el del residuo para t = 8? 12,20 ̊ 12,30 ̊ 12,32 ̊
12,40 ̊
12,42 ̊
............... ̊
? 3. ¿Cuáles son los valores de les variables categóricas asociadas a t = 10? (0; 0; 0) ̊ (1; 0; 0) ̊ (0; 1; 0) ̊ (0; 0; 1) ̊ (1; 1; 1) ̊
.............. ̊
? 4. Si se hubiese modelado con variables categóricas, ¿cuál habría sido el valor de la constante α0? 200,63 ̊ 200,65 ̊ 200,73 ̊ 200,75 ̊ 200,83 ̊ ................̊ ? 5. En una ponderación exponencial simple ha resultado S3 = 211,96. ¿Cuál es el valor de λ? 2,63 ̊ 3,20 ̊ 3,30 ̊ 4,50 ̊ 5,43 ̊ ................̊
2
? 6. En la modelización de una serie multiplicativa de p = 3, se ha obtenido Tt = 50 + 0,2 t + 0,1 t ; E1 = 150; E2 = 50 y para t=3 el residuo ha sido R3 = 0,8. ¿Cuál es el valor de Y3? 72,10 ̊ 61,80 ̊ 55,75 ̊ 46,35 ̊ 52,30 ̊ ............... ̊
50
? 7. Con los 50 valores de una serie se ha obtenido
∑ (y
i
− y)2 = 4 ;
48
(yi+ 2 − y) = − 3,2 y
0,0600 ̊
0,0652 ̊
i
i=1
47
∑ (y − y) i
i
(yi+1 − y) = 3,6 ;
i=1
i=1
∑ (y − y)
49
∑ (y − y)
(yi+ 3 − y) = −2,8 ¿Qué valor tiene la variancia de r3?
i=1
0,0712 ̊
0,0754 ̊
0,0780 ̊
.............. ̊
? 8. Los valores de una serie sin estacionalidad y con tendencia rectilínea son 7,3; 7,8; 8,1; 8,5; 8,8; 9,0; .... Con λ = 0,4, ¿cuál es el valor modelizado para t=3? 7,700 ̊ 7,380 ̊ 7,004 ̊ 7,540 ̊ 7,860 ̊ ............... ̊
© Los autores, 2001; © Edicions UPC, 2001.
p150
Series temporales
12.1.00 2
?? Unos datos cronológicos trimestrales han dado lugar a una tendencia T=120+1,4 t−0,2 t y a una estacionalidad E1 = −10; E2 = −8; E3 = 15 y E4 = 3. ? 1. ¿Qué diferencia existirá entre los valores estimados del primer trimestre del primer año y el segundo del año siguiente? −2 ̊ −25 ̊ −13 ̊ −4 ̊ 18 ̊ ……… ̊ ? 2. El último dato disponible es el de t = 47. ¿Cuál es el valor previsto para t = 50? −310 ̊ −348 ̊ −378 ̊ −318 ̊ −345 ̊ ……… ̊ ?3. En una serie aditiva de p= 7, los pares de valores (t, Yt) son (1; 15), (2; 19), (3; 17),… , (6;25), (7; 28), (8; 32), (9; 35), ... La media móvil para t = 4 es igual a 26. ¿Qué vale la de t = 5? faltan datos ̊ 28,86 ̊ 28,43 ̊ 29,52 ̊ ……… ̊ ?? Un modelo en variables categóricas, con ordenada en el origen igual a 500, ajustado sobre una serie de período p=3, ha evidenciado que la serie crece 0,5 unidades por unidad de tiempo y que la segunda estación supera a la primera en 20 unidades, mientras que la tercera está 30 unidades por debajo de la segunda. ? 4. El valor del coeficiente Q3 es igual a −30 ̊ −35 ̊ −5 ̊
−10 ̊
−15 ̊
……… ̊
? 5. La previsión para t = 53 es 528 ̊ 529,5 ̊
548 ̊
549,5 ̊
… .…… ̊
546,5 ̊ 100
? 6. En una serie de 100 valores se ha obtenido
∑y
i
= 0;
i=1
¿Qué vale r3? faltan datos ̊ 0 ̊
0,80 ̊
100
∑y i=1
2 i
0,96 ̊
= 125 y
97
∑y
i
yi+ 3 = 120 .
i=1
1 ̊
……… . ̊
? 7. En una serie con 80 datos se ha obtenido r1 = 0,90; r2 = 0,80; r3 = 0,70; r4 = 0,60. ¿Cuál es el valor absoluto límite de r5 para ser considerado distinto de cero? 0,43 ̊ 0,50 ̊ 0,53 ̊ 0,61 ̊ 0,64 ̊ ……… . ̊ ? 8. Los valores de una serie son 16,4; 16,9; 18,1; 18,5; 19,3; 19,8;… en un suavizado exponencial con λ = 0,6. ¿Cuál es el error de previsión para t = 4? 0,805 ̊ 0,925 ̊ 0,960 ̊ 1,115 ̊ 1,300 ̊ ...…… . ̊ ? 9. En la misma serie del apartado anterior y con igual factor de ponderación, ¿cuál sería el valor estimado para t = 4 ( Yˆ ) utilizando el método de Brown? 4
17,920 ̊
19,076 ̊
18,672 ̊
© Los autores, 2001; © Edicions UPC, 2001.
19,137 ̊
…………… ̊
p151
Evaluaciones
17.5.00 ?? En la descomposición clásica de una serie aditiva de período estacional p = 7, se ha obtenido como tendencia T=223,82 + 0,63 t. La previsión para t = 102 ha sido 187,25. ? 1. ¿Qué vale la previsión para t = 109? faltan datos ̊ 292,49 ̊ 191,66 ̊
182,66 ̊
..................... ̊
? 2. Siendo Ei la i-ésima estacionalidad, y sabiendo que E6 = E4 − 27,16. ¿Cuál es la previsión para t = 104? faltan datos ̊ 262,18 ̊ 305,18 ̊ 161,35 ̊ 195,35 ̊ ................ ̊ ??? Unos datos bimensuales se modelizan como Y =187,52 + 0,42 t + 10 Q2 +12 Q3 + 16 Q4 −8 Q5 −2 Q6 ? 3.¿En qué cantidad se diferencian el segundo y el sexto bimestre de un mismo año? (6 − 2 ) −12 ̊ −10,32 ̊ −18 ̊ −16,74 ̊ ........................... ̊ º
º
? 4. Si el último valor disponible es Y106 = 250,27, ¿ qué vale el residuo de este punto? −9,77 ̊ −30,27 ̊ 5,73 ̊ 2,23 ̊ ........................... ̊ ? 5. ¿Cuál es la previsión para t = 107? 232,88 ̊ 250,69 ̊ 230,61 ̊ 94
?? Con 100 datos se ha obtenido
∑
224,46 ̊
(yi − y ) (yi+ 6 − y ) = −483,22
100
y
−0,371 ̊
∑ (y − y)
2
i
= 793,42
i=1
i=1
? 6. ¿Qué vale r6? hay un error ̊
............................̊
−0,609 ̊
−0,684 ̊
............̊
? 7. ¿Cuál es el intervalo de no significación para r6 si r1 = −0,95; r2 = 0,32; r3 = −0,84; r4 = 0,60 y r5 = 0,90? ±0,464 ̊ ±0,179 ̊ ±0,520 ̊ ±1,323 ̊ ............̊ ? 8. Se dispone de los valores 23,87; 15,22; 42,75; 54,23 y 50,80. En una ponderación exponencial simple con λ = 0,8, ¿qué vale el error cuadrático medio? 410,17 ̊ 350,72 ̊ 254,34 ̊ 180,69 ̊ ........................... ̊ ? 9. En un suavizado exponencial por Brown, con λ = 0,7, sobre 50 datos, ha resultado Y50 = 55,87; S50 = 49,32; S(2) 50 = 47,54. ¿Cuál es la previsión para t = 52? 70,25 ̊ 59,41 ̊ 40,23 ̊ 36,44 ̊
........................... ̊
? 10. En una serie multiplicativa de período p = 3, se ha obtenido E1* = 15,25; E*2 = 30,50 y
E*3 = 45,75. ¿Cuál es el valor del primer índice estacional? 25 ̊
50 ̊
100 ̊
150 ̊
© Los autores, 2001; © Edicions UPC, 2001.
200 ̊
............̊
p123
Evaluaciones
2 EVALUACIONES RESUELTAS
Respuesta correcta +1; incorrecta −0,2
l 1. En un análisis de componentes principales los valores propios, de la matriz de correlaciones, son {2,78; 2; 0,16; 0,05; 0,01} y g13 = 0,768. ¿Qué vale r13 ?.
0,143 ¨
0,527 ¨
0,12 ¨
0,3072 n
.............................................. ¨
Puesto que Σ di = 5 es un valor entero, coincidente con el número de valores propios, necesariamente se trabaja con variables estandarizadas y se ha diagonalizado la matriz de correlaciones. Entonces, r1 3 = g1 3
d3
©
= 0,768
L
o
s
= 0,3072
0,16
a
u
t
o
r
e
s
,
2
0
0
1
;
©
E
d
i
c
i
p124
Estadística industrial
17.3.99 En una tabla de correspondencias la 3ª columna es 13; 23; 17 y 20, y los totales de les columnas son 100; 97; 73; 133 y 152. l 1. ¿Cuántos valores propios no triviales hay?
2¨
3n
4¨
5¨
......................................................................... ¨
Dado que hay p = 4 files y q = 5 columnas, resulta min (p–1, q–1) = 3.
l 2. ¿Cuál es la masa de la 2ª columna?
0,314 ¨
0,240 ¨
0,175 n
0,711 ¨
.............................................. ¨
Las masas de las columnas son p
n• j
f• j =
n
∑ ni j
i=1 p
=
∑ n• j
i=1
que, para j=2, es n• 2
f• 2 =
=
∑ n• j
97 = 0,175 555
l 3. ¿Cuál es el valor del perfil medio de las filas asociado a la 3ª columna?
0,714 ¨
0,132 n
0,312 ¨
0,511 ¨
......................................... ¨
El perfil medio de las filas coincide con las masas de las columnas f• 3 =
n• 3
=
n
73 = 0,132 555
l 4. ¿Qué vale la masa total?
1n
0,13 ¨
0,312 ¨
0,811 ¨
..................................................... ¨
La masa total es, obviamente, p
∑ fi •
i=1
=
q
∑ f• j
j=1
=
n = 1 n
En un análisis de componentes principales los valores propios de la matriz de correlaciones son {2,78; 2; 0,16; 0,05; 0,01} y g13 = 0,768.
© Los autores, 2001; © Edicions UPC, 2001.
p125
Evaluaciones
l 5. ¿De qué dimensión es el vector aleatorio?
4¨
5n
6¨
7¨
......................................................... ¨
La dimensión del vector aleatorio X, coincide con el número de valores propios. En este caso p = 5.
l 6. ¿Qué vale r13 ?.
0,143 ¨
0,527 ¨
0,12 ¨
0,3072 n
.............................................. ¨
Dado que Σ di = 5, un valor entero coincidente con el nombre de valores propios, necesariamente se trabaja con variables estandardizadas y se ha diagonalizado la matriz de correlaciones. Entonces r1 3 = g1 3
d3
= 0,768
0,16
= 0,3072
l 7. ¿Cuántos componentes principales se utilizarían?
1¨
2n
3¨
4¨
.............................................................. ¨
La proporción acumulada que representan los valores propios (variancias de los componentes principales) con relación al total es: 2,78/5 = 0,556 (2,78 + 2)/5 = 0,956 etc. Entonces los dos primeros ya son suficientes ya que explican el 95,6% del total.
l 8. Al estudiar los componentes principales ha resultado tg1 = {0,48 0,32 0,47 0,48 0,46}, p
g2= {0,40 0,21 0,8 –0,28 0,26} y Q = diag{4 9 6,25 7,75 8}. ¿Qué vale ∑ di ?
t
i=1
No se sabe ¨
–3,14 ¨
4¨
En las se indican Q = diag (s12 s22 . . . sp2) y
35 n p
∑ di = i=1
............................................. ¨ p
∑ i=1
si2
p
di = 35 ∑ i=1
© Los autores, 2001; © Edicions UPC, 2001.
resultando
p126
Estadística industrial
19.4.99 En una tabla de correspondencias les 3ª y 4ª filas son {47; 65; 78; 35} y {82; 42; 76; 23}; Además, las masas de las filas son {0,134; 0,268; 0,225; 0,223; 0,150} l 1. ¿Cuál es la suma total, n?
225 ¨
223 ¨ n3 •
Resulta n =
=
f3 •
777 ¨
1000 n
............................................... ¨
225 = 1000 0,225
l 2. Si la masa de la 3ª columna es 0,232, ¿qué vale X33?
1¨
0,2141 ¨
0,7197 n
Por definición X3 3 =
f33 f3 •
f• 3
0,0682 ¨
............................................. ¨
0,078
=
0,225
= 0,7197
0,232
Al estudiar los componentes principales ha resultado tg1 = {0,47 0,32 0,48 0,46 0,48}, tg2 = {0,40 –0,28 0,8 0,21 0,26} y Q = diag{4 9 6,25 7,75 3,8} l 3. Si r12 = 0,632, ¿qué vale d2?
22,14 ¨ 36,48 ¨ –25,78 ¨ 9,99 n .............................................. ¨ Las variancias, expuestas en la diagonal de la matriz Q, son razonablemente homogéneas, indicando que se ha diagonalizado la matriz S, y teniendo en cuenta que r12 =
g12
2
d2
r s 0,6322 × 4 = 9,99 d2 = 12 1 = 0,402 g12
resulta
s1
l 4. Si los dos primeros componentes expliquen un 95% de la variabilidad total, ¿qué vale
27 ¨ Dado que
32 ¨ p
di ∑ i=1
=
64 ¨ p
si2 ∑ i=1
25,65 n
= 27 y que
d1+d2?
...................................................... ¨
d1 + d2 = 0,95 resulta ∑ di i
d1+d2 = 0,95×27 = 25,65 l 5. Si la primera fila de la matriz RXY es (0,942 0,265 0,202 –0,011 0,004), ¿qué porcentaje de la variabilidad de X1 es explicado por los tres primeros componentes?.
1¨
0,5236 ¨
La explicación es
3
∑
j=1
0,9984 n
....................................... ¨
0,9763 ¨
ri2j = 0,9422 + 0,2652 + 0,2022 = 0,9984
©
L
o
s
a
u
t
o
r
e
s
,
p127
Evaluaciones
5.11.99 l 1. Habiendo diagonalizado la matriz de variancias-covariancias, ¿qué vale
p
∑ri22 ? i=1
d2 ¨
1¨
0,9 ¨
Es una función cuadrática de gi2 n
……..……..…….. ¨
Si se ha diagonalizado la matriz variancias-covariancias RXY = Q-1/2 G D1/2 según aparece en la Pág. 6 de los apuntes, por lo que el producto escalar es t
RXY RXY = D1/2 tG Q–1 G D1/2
y siendo Q = diag ( S12 . . . Sp2 ), resulta p
∑
i=1
ri22
=
gi22
p
∑ S2
i=1
d2
i
función cuadrática de gi2. l 2. Si U23=33, U32=44, U2 = 10, U3 = 30 , S2=5, S3=10 y se estandariza, ¿qué vale X23?
0,3 n
4,6 ¨
6,8 ¨ X2 3
1,4 ¨ ……………………………………..……….. ¨ U2 3 − U3 33 − 30 = = = 0,3 S3 10
l 3. Si el mayor valor absoluto de la matriz de correlaciones es 0,307, ¿qué procede?
Calcular los componentes principales ¨ Analizar las variables directas n
Estandarizar ¨ Factorizar ¨ …………........…..............................………. ¨
Si máx |ρ| = 0,307, las correlaciones entre las variables son muy reducidas, la información redundante es prácticamente nula y se requeriría un número muy elevado de componentes para explicar razonablemente la variabilidad total. Por todo ello los componentes principales son inútiles. 1 1 1 1 1 −1 −1 1 Si D = diag(3,24 0,7 0,045 0,015) y G = 0,5 −1 −1 1 1 −1 1 −1 1 l 4. ¿Qué proporción de X3 es explicada por Y2?
17,5% n
92,3% ¨
1,125% ¨
No se sabe ¨
…………………………..….. ¨
Puesto que la suma de los valores di es 4, el orden de la matriz, se ha diagonalizado la matriz de correlaciones y la proporción de X3 explicada por Y2 es r322 = g322 d2 = (–0,5)2×0,7 = 0,175
© Los autores, 2001; © Edicions UPC, 2001.
p128
Estadística industrial
l 5. ¿Qué vale la correlación experimental entre X3 e Y1?
−1,2 ¨
−0,9 n
−0,1061 ¨
3,4 ¨
………………………………..…..…..¨
Teniendo en cuenta que la matriz D, de valores propios, así como la matriz G, de vectores propios, son de orden 4×4, se trata de un análisis de p=4 variables y como la suma de los valores di es cuatro, se ha diagonalizado la matriz de correlaciones y r31 = g31 √ d1 = (–0,5) √ 3,24 = −0,9 l 6. El primer componente principal es
un factor de tamaño ¨ un contraste n una media ¨ no se sabe ¨
……........... ¨
Un contraste de X1 y X2 con X3 y X4 ya que los correspondientes coeficientes gi1 cambian de signo. l 7. ¿Cuál es la variancia experimental de Y5?
No existe n
4¨
3¨
0,25 ¨
………………...……………………… ¨
Dado que las matrices D y G son de orden 4×4, sólo hay cuatro variables y, por tanto, el número de Componentes Principales es, también, 4 y no existe Y5. l 8 ¿Cuál es la medida relativa de la información compartida por dos variables?
La razón de medias ¨ la razón de variancias ¨ la covariancia ¨ la correlación n ...................................................................................... ¨ La correlación es la medida adimensional relativa de la información compartida (covariancia) por dos variables aleatorias. l 9 La homogeneidad entre modalidades de un criterio de clasificación es medida por
los factores comunes ¨ las correspondencias n
el factor específico ¨ la covariancia ¨ .............…………………………....................... . ¨ Las correspondencias, comparando los perfiles mediante la distancia de χ2. ATENCIÓN, MARCAR LA ÚNICA RESPUESTA INCORRECTA l 10 Los componentes principales: reducen la masa de datos ¨ eliminan información redundante ¨ reducen el número de variables ¨
conservan la información ¨ reducen el nº de individuos n
Reducen el número de individuos es incorrecto, ya que disminuyen el número de variables.
© Los autores, 2001; © Edicions UPC, 2001.
p129
Evaluaciones
20.3.00 l 1. Una fila de una tabla de correspondencias es {13 26 39 22}, ¿cuál es el tercer elemento de su perfil?
Falta n ¨
0,39 n
39 ¨
1¨
……………...............................………… ¨
El tercer elemento de su perfil es fi3 n = i3 = fi• ni•
ni3 39 = = 0,39 ∑ j nij 13 + 26 + 39 + 22
l 2. Si el perfil de la 3ª fila es {0,31 0,60 0,74 0,26} y n3• = 500, ¿qué vale el tercer elemento
de esa fila? Hay un error n
370 ¨
0,025 ¨
0,01 ¨
.................…………..….....……. ¨
Hay un error ya que si fuese un perfil la suma de sus elementos sería 1 y aquí, obviamente, no se cumple este requisito.
l 3. Si hay 14 puntos fila y 23 puntos columna, ¿cuántos valores propios nulos hay en total?
1¨
0¨
10 n
13 ¨
……………........................…………….….... ¨
Los valores propios no triviales (distintos de cero) son mín(p–1, q–1) = 13, por lo que los nulos son máx(p; q) – mín(p–1; q–1) = 23 – 13 = 10.
l 4. Si n13 = 24, n1• = 100, n•3 = 90 y n = 900, ¿qué vale el elemento correspondiente de la matriz Z para el estudio de las distancias de χ2 entre las columnas?
0,99 ¨
0,95 ¨
0,05 ¨
0,8 n
………….......………….....….……… ¨
El elemento de la matriz Z será f13 f1• f•3
=
n13 / n n1• / n (n•3 / n)
=
n13
n
n1•
n•3
=
24 900 100 ×90
= 0,8
l 5. Si una columna es { 0,15 0,18 0,22 0,45 }, ¿es un perfil o es de frecuencias?
Hay un error ¨ Faltan datos ¨ Es un perfil n Son frecuencias ¨
....................... ¨
Se reconoce que es un perfil si suma 1. Dado que la columna en cuestión cumple dicha condición se trata, efectivamente, de un perfil.
© Los autores, 2001; © Edicions UPC, 2001.
p130
Estadística industrial
l 6. Con Q = diag(2 4 1600 725), D = diag(3,5 0,4 0,07 0,03), si r12 = 0,87, ¿cuál es la parte de V(X1) explicada por el segundo componente?
Falta g12 ¨
0,87 ¨
0,4 ¨
0,7569 n
…………….....…….….………… ¨
La matriz Q muestra que las variancias Si2 son harto heterogéneas, por lo que se ha estandardizado (Opción B), circunstancia corroborada por el hecho de que traza D = p = 4, y la parte de V(X1) = 1 explicada por el segundo componente principal coincide con la proporción, es decir r122 = 0,872 = 0,7569.
l 7. Si Q = diag(16 9 25 4) y cov(X1, X3) = –18, ¿qué vale rX3X1 ?
Falta n ¨
–1,8 ¨
–0,9 n
0,361 ¨
…………….........………...………… ¨
Resulta rX X = rX X = 3 1
1 3
cov(X1, X 3 ) S1 S3
= −
18 16 × 25
= −0,9
l 8. Si los puntos de dos variables se oponen, representa que se trata de un error ¨ son no correlacionadas ¨ su correlación es alta e inversa n su correlación es alta y directa ¨ .......................................................... ¨ Si los puntos se oponen están altamente correlacionados de forma inversa.
l 9. U32 = 24, U23 = 32, U = t(9 12 16 8 14) y Q = diag(12 14 16 8 13), ¿qué vale X32?
4¨
6¨
12 n
16 ¨
…………….............…………..……....…...… ¨
Teniendo en cuenta que, como muestra la matriz Q, las variancias son del mismo orden de magnitud, sólo se requiere centrar y X32 = U32 – U2 = 24 – 12 = 12
l 10. Si r31 = 1, ¿qué vale r32?
No se sabe ¨
0n
Dado que siempre
∑ ri2j
p
j=1
1¨
–1 ¨
…..............................…..…....………….. ¨
= 1 , si r31 = 1, necesariamente todos los demás r3j, j > 1, han de ser
nulos.
© Los autores, 2001; © Edicions UPC, 2001.