MINIMOS CUADRADOS Esta es otra técnica de tipo cuantitativo que permite el cálculo de los pronósticos para períodos futuros, para lo cual requiere de registros históricos que sean consistentes, reales y precisos. Esta técnica como su nombre lo indica se trata de sacar el total de las desviaciones elevadas al cuadrado a un valor mínimo: su objetivo es determinar los coeficientes a y b, que son conocidos como coeficientes de regresión, donde x es la variable independiente (tiempo), y es la variable dependiente (pronóstico de la demanda). En la práctica se pueden utilizar dos métodos para calcular los pronósticos a través de mínimos cuadrados: Fórmula general y Métodos simplificado. Para aplicar este método en el cálculo de pronósticos de la demanda, se deben tener en cuenta las siguientes expresiones matemáticas:
Donde: n = tamaño de la muestra o el número de períodos x = período en el que se desea el pronóstico y = el pronóstico El método simplificado como su nombre lo indica, en la práctica es más simple y se llega al resultado de forma más rápida. Las expresiones a usar son:
Donde: n = tamaño de la muestra o el número de períodos x = período en el que se desea el pronóstico y = el pronóstico ¿Cuándo será par y cuando será non? Pares: Debemos entender por pares el numero de períodos expresados de dos en dos (2, 4, 6, 8...) Nones: Es cuando los períodos considerados en los cálculos son impares (1, 3, 5, 7, 9...)
Ejemplo 1: “MINIMOS CUADRADOS”
Panasonic, empresa internacional en su área de pilas desechables, desea calcular el pronóstico de ventas para el año 2003, teniendo como antecedentes los datos que se muestran en la tabla. El cálculo del pronóstico se deberá emitir mediante la formula general y corroborarse con el método simplificado que corresponda.
Periodos 1990 1991 1992 1993 1994 1995 suma
Ventas (miles) 85 89 92 95 93 98 552
X 1 2 3 4 5 6 21
XY 85 178 276 380 465 588 1972
Calculamos los promedios de las variables “x” y “y”:
Calculamos la variable y la pendiente:
Cálculo del pronóstico:
X^2 1 4 9 16 25 36 91
Ejemplo 1: “MINIMOS CUADRADOS”
Panasonic, empresa internacional en su área de pilas desechables, desea calcular el pronóstico de ventas para el año 2003, teniendo como antecedentes los datos que se muestran en la tabla. El cálculo del pronóstico se deberá emitir mediante la formula general y corroborarse con el método simplificado que corresponda.
Periodos 1990 1991 1992 1993 1994 1995 suma
Ventas (miles) 85 89 92 95 93 98 552
X 1 2 3 4 5 6 21
XY 85 178 276 380 465 588 1972
Calculamos los promedios de las variables “x” y “y”:
Calculamos la variable y la pendiente:
Cálculo del pronóstico:
X^2 1 4 9 16 25 36 91
100 98
y = 2.2857x + 84
96 94 Serie1
92
Lineal (Serie1)
90 88 86 84 0
1
2
3
4
5
6
7
X son los períodos desde el primer dato histórico hasta el pronóstico a calcular
Pares porque el número de períodos es par (6) Periodos 1990 1991 1992
Ventas (miles) 85 89 92
1993 1994 1995 suma
95 93 98 552
X -5 -3 -1 0 1 3 5 0
XY -425 -267 -92 0 95 279 490 80
X^2 25 9 1 0 1 9 25 70
NOTA: A x se le asignan valore impares por que es un problema par. Calculamos los promedios de las variables “x” y “y”:
Calculamos la
variable y la pendiente:
*los períodos se cuentan a partir de 1993 con números consecutivos impares de los asignados a x en un principio hasta llegar a 2003: Periodos 93-1 94-3 95-5 96-7 97-9 98-11 99-13 2000-15 2001-17 2002-19 2003-21 Ejemplo 2: “MINIMOS CUADRADOS”
Sabritas S.A de C.V. desea elaborar el pronóstico de ventas para uno de sus productos en el año 2003 y en torno a éste resultado, se hará la planeación de los recursos a utilizar en el sistema; para lo cual cuenta con el volumen de ventas anuales que se indican en la siguiente tabla. El cálculo de éste pronóstico se deberá hacer a través de Fórmula General y Método Simplificado. Periodos 1987 1988 1989 1990 1991 1992 1993 1994 1995 suma
Ventas (miles) 120 121 117 118 124 125 120 118 130 1093
X 1 2 3 4 5 6 7 8 9 45
Calculamos los promedios de las variables “x” y “y”:
XY 120 242 351 472 620 750 840 944 1170 5509
X^2 1 4 9 16 25 36 49 64 81 285
Calculamos la variable y la pendiente:
Cálculo del pronóstico
Nones porque el número de períodos es impar (9) Periodos 1987 1988 1989 1990 1991 1992 1993 1994 1995 suma
Ventas (miles) 120 121 117 118 124 125 120 118 130 1093
Aplicando el método simple:
X -4 -3 -2 -1 0 1 2 3 4 0
XY -480 -363 -234 -118 0 125 240 354 520 44
X^2 16 9 4 1 0 1 4 9 16 60
*los períodos se cuentan a partir de 1992 con números consecutivos de los asignados a x en un principio hasta llegar a 2003: Periodos 93-2 94-3 95-4 96-5 97-6 98-7 99-8 2000-9 2001-10 2002-11 2003-12 PROMEDIO MÓVIL
E método de promedios móviles es un número de valores de datos históricos reales para generar un pronóstico. Los promedios móviles son útiles si podemos suponer que la demanda del mercado permanecerá relativamente estable en el tiempo. Un promedio móvil de 4 meses se encuentra simplemente sumando la demanda de los últimos 4 meses y dividiéndolo entre cuatro. Al concluir cada mes, los datos del mes más reciente se agregan a la suma de los meses anteriores y se elimina el dato del mes más antiguo. Esta práctica tiende a suavizar las irregularidades del corto plazo en la serie de datos. Matemáticamente, el promedio móvil simple (que sirve como estimaciones de l a demanda del siguiente periodo) se expresa como.
Donde n es el número de periodos que comprende el promedio móvil; por ejemplo,4,5 o 6 meses respectivamente , para un promedio móvil de 4, 5 o 6 periodos
Ejemplo 1: “PROMEDIO MOVIL”
Las ventas de cobertizos de almacenamiento en Donna`s Garden Suplí se muestran en la columna central siguiente tabla. A la derecha se da el promedio móvil de tres meses.
Mes
Ventas reales de Cobertizos
Enero
10
Promedio móvil de 3 meses
Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre
12 13 16 19 23 26 30 28 18 16 14
11.67 13.67 16 19.33 22.67 26.33 28 25.33 20.67 16
Por tanto, vemos que el pronóstico para diciembre es .Para proyectar la demanda de cobertizos en enero próximo, sumamos las ventas de octubre, noviembre y diciembre y divide dimos entre tres: pronostico para enero = (18+16+14)/3=16
35 30 25 20 15 10 5 0
Serie1 Serie2
i l y o n i o u r o e r o r z o b r l i o s t o b r e b r e b r e b r e e a r u a n o m t u e m m A J b M M J E F e i c i e A g p t i e O c o v i N D S e
PROBLEMA DE PROMEDIOS MÓVILES - PRINCIPIO DE ADMINISTRACION DE OPERACIONES – JAY HEIZER [P-109]
Ejemplo 2: “PROMEDIO MOVIL”
Aplicar el método de promedios móviles para el pronóstico de ventas de gasolina a partir de la siguiente información: Se considerará el promedio móvil a partir de las tres observaciones más recientes. En este caso se utilizará la siguiente ecuación:
Resumen de cálculos para promedios móviles de tres semanas: Semana
1 2 3 4 5 6 7 8 9 10 11 12
Valor de la serie de tiempo(miles de galones) 17 21 19 23 18 16 20 18 22 20 15 22
Pronóstico de la i-ésima semana con Promedios móviles
(17+21+19)/3=19 (21+19+23)/3=21 (19+23+18)/3=20 19 18 18 20 20 19
Los promedios móviles también se pueden construir tomando en cuenta valores adyacentes de las observaciones, por ejemplo: En el caso de determinar el promedio móvil para tres observaciones adyacentes de la tabla anterior, se tiene:
Semana
1 2 3 4 5 6 7 8 9 10 11 12
Valor de la serie de tiempo(miles de galones) 17 21 19 23 18 16 20 18 22 20 15 22
Pronóstico de la i-ésima semana con Promedios móviles para 3 años (17+21+19)/3=19 (21+19+23)/3=21 (19+23+18)/3=20 (23+18+16)/3=19 18 18 20 20 19 19
Promedios móviles ponderados Para mostrar el uso de éste método, se utilizará la primera parte del ejemplo anterior de la venta de gasolina. El método consiste en asignar un factor de ponderación distinto para cada dato. Generalmente, a la observación o dato más reciente a partir del que se quiere hacer el pronóstico, se le asigna el mayor peso, y este peso disminuye en los valores de datos más antiguos. En este caso, para pronosticar las ventas de la cuarta semana, el cálculo se realizaría de la siguiente manera:
Puede observarse que el dato más alejado (correspondiente a la primera semana) tiene el factor de ponderación más pequeño, el siguiente tiene un factor de ponderación del doble que el primero y el dato más reciente (que corresponde a la tercera semana) tiene un factor de ponderación del triple del primero. Los pronósticos para las diversas semanas se presentan en la siguiente tabla. En todos los casos, la suma de los factores de ponderación debe ser igual a uno.
-SUAVIZAMIENTO EXPONENCIAL El suaviza miento exponencial emplea un promedio ponderado de la serie de tiempo pasada como pronóstico; es un caso especial del método de promedios móviles ponderados en el cual sólo se selecciona un peso o factor de ponderación: el de la observación más reciente. En la práctica comenzamos haciendo que F1, el primer valor de la serie de valores uniformados, sea igual a Y1, que es el primer valor real de la serie. El modelo básico de suavizamiento exponencial es el siguiente:
En base a lo anterior, el pronóstico para el período dos se calcula de la siguiente manera:
Como se observa, el pronóstico para el período 2 con suavizamiento exponencial es igual al valor real de la serie de tiempo en el período uno. Para el período 3, se tiene que:
Para el período 4 se tiene:
Para mostrar el método de suaviza miento exponencial, retomamos el ejemplo de la gasolina, utilizando como constante de suaviza miento = 0.2:
REGRESIÓN LINEAL MÚLTIPLE El modelo de regresión múltiple no es más que una generalización a varias variables de un modelo de regresión simple. La ecuación de la regresión lineal simple es: y a bx
Donde “y“ es la variable dependiente y “x“ es la variable independiente. Pero esta ecuación se
puede generalizar para el caso en que haya más de una variable independiente. Supongamos que haya 3 variables independientes: x1, x2, x3. Podemos construir la ecuación: y ab x b x b x 1 1 2 2 3 3
Cada variable independiente x i tiene un coeficiente de regresión o pendiente propia b i. Este coeficiente se interpretará como el cambio en la variable dependi ente (“y”), por unidad de cambio en cada variable independiente (x1, x2 ó x3) a igualdad de nivel de las otras variables independientes. Es imposible interpretar una regresión si no se conocen las unidades de medida de cada variable. Esto se aplica tanto a la regresión simple como a la múltiple. Ejemplo 1: REGRESION MULTIPLE: Supongamos que la Tensión Arterial Sistólica (TAS, mmHg) de una muestra de adultos con alto riesgo cardiovascular se utiliza como variable dependiente “y” i ntentando predecirla a partir
de tres variables independientes, x 1, x2 y x3 que corresponden respectivamente a la edad en años (EDAD: x1), el índice de masa corporal en kg/m 2 (IMC: x2) y el sexo (SEXO: x 2, codificado como sexo=0 para hombres y sexo=1 para mujeres). Resulta la siguiente ecuación: y 85 0,7x 1 0,6x 2 4,9x 3
Y sustituyendo x i por sus nombres, tendremos: TAS 85 (0,7 EDAD) (0,6 IMC) (- 4,9 SEXO)
La interpretación será que por cada año más de edad, la TAS aumentará en 0,7 mmHg por término medio, independientemente de cuál sea el sexo y el IMC. Por cada kg/m 2 más de IMC subirá la TAS en 0,6 mmHg por término medio (en ambos sexos y sea cual sea la edad). La diferencia entre hombres y mujeres será de 4,9 mmHg menos en las mujeres, a igualdad de edad y de IMC. Quizás esto último es más difícil de entender, se aclarará si construimos dos ecuaciones, una para hombres y otra para mujeres, sustituyendo la variable "SEXO" por sus respectivos valores. La variable sexo se codificó así: Hombres: SEXO= 0 Mujeres: SEXO= 1 En los hombres, la ecuación será: TAS 85 (0,7 EDAD) (0,6 IMC) En las mujeres, la ecuación será: TAS 85 (0,7 EDAD) (0,6 IMC) - 4,9 Por lo tanto, las mujeres, a igualdad de edad e IMC, tendrán una TAS 4,9 mmHg inferior. Es posible introducir variables categóricas (sexo en el ejemplo) en el modelo. En la figura se ha asumido un IMC constante (IMC=25 kg/m2) para poder representar la TAS sólo en función de la edad y el sexo. Se puede observar que, según el modelo de regresión múltiple, las dos ecuaciones (una para hombres y otra para mujeres) son paralelas, ya que como se ha visto anteriormente únicamente difieren en una constante.
Figura La ecuación y=a+b1x1+b2x2 da lugar a dos rectas paralelas, si x2 es una variable dicotómica. En el ejemplo “y” es la TAS, x1 es la edad y x2 el sexo.
160 155 ) g H m 150 m (
d 145 e r p S 140 A T 135 130 55
57
59
61
63
65
67
69
71
73
75
77
79
Edad
(se ha prescindido del IMC, considerándolo fijo en 25 kg/m 2) Estimaciones ajustadas por factores de confusión en regresión múltiple Un examen atento de la figura conduce a concluir que, sea cual sea la edad, la diferencia entre la TAS de hombres y mujeres es constante y vale 4,9 mmHg. Se dice que esta esta diferencia (4,9 mmHg) está ajustada por edad. "Ajustar por" significa equiparar a los grupos que se comparan en cuanto a la variable por la que se ajusta, en este caso es crear una comparación entre hombres y mujeres, igualándolos en cuanto a su edad. Para el ajuste se ha usado un método multivariable, que es la regresión múltiple. En cambio si comparásemos la TAS entre hombres y mujeres usando un método bivariante (t de Student) encontrariamos que la diferencia es sólo de 2,4 mmHg. El método bivariante no tiene en cuenta la edad, pues sólo considera las dos variables comparadas (sexo y TAS) ¿Cómo es posible que siendo la TAS media de los hombres 2,4 mmHg mayor que la de las mujeres, sin embargo en la figura 12.1 la diferencia a cualquier edad entre la TAS media de hombres y mujeres sea casi el doble (4,9 mmHg). Esto se puede explicar con los datos aportados por la tabla 12.2.
Tabla Comparación entre hombres y mujeres de tensión arterial (TAS), edad e IMC. Hombres (n=326)
Mujeres (n=413)
Tensión arterial sistólica media (DE) Diferencia de medias en TAS
151,8 (18,2) 149,4 (20,2) 151,8 - 149,4 = 2,4 mmHg t 737
t de Student (compara medias TAS) Edad media IMC medio
151,8 149,4 1,7 1,43
67,6 28,8
p=0,09 (2 colas)
69,9 30,2
Observando la tabla puede apreciarse que los hombres de la muestra son más jóvenes que las mujeres (diferencia de edad = 2,2 años) y por eso su TAS es sólo 2,4 mmHg superior cuando se comparan de manera bruta con las mujeres, ya que la TAS aumenta a medida que aumenta la edad. Si, en la muestra, los hombres son más jóvenes que las mujeres, comparar sus medias en la muestra (t de Student) infraestimará la verdadera diferencia existente entre hombres y mujeres. Por eso no basta la comparación bruta, sino que es necesario igualar por edad a hombres y mujeres usando un método multivariable para poder realizar una verdadera comparación válida. Esto libera del efecto distorsionador de la edad. Sólo mediante el método multivariable que ajusta por edad se puede realizar una generalización científicamente rigurosa de las diferencias en TAS entre hombres y mujeres. La verdad es que los hombres tienen la TAS 4,9 mmHg por encima de las mujeres, sea cual sea su edad. Si esto es verdad a todas las edades, debe ser verdad también para el conjunto. En este ejemplo, al comparar la TAS según sexo, se dice que la variable edad actúa como factor de confusión (. Un factor de confusión es una variable que se asocia tanto con la variable independiente (supuesta "causa") como con el supuesto "efecto" y que hace que la comparación bruta o "cruda" (t de Student) sea inválida. Cuando hay factores de confusión se debe usar el análisis multivariable. La figura 12.2 representa gráficamente el papel de la edad como factor de confusión:
Figura La edad actúa como factor de confusión al valorar la relación entre edad y tensión arterial sistólica (TAS) Sexo Edad
TAS
Usando terminología de gráficos causales se diría que la edad abre una puerta trasera que comunica sexo y TAS (Hernán, 2002; de Irala, 2002). Se cierra dicha puerta trasera al "ajustar" por edad. La comparación bruta (diferencia = 2,4 mmHg entre hombres y mujeres) no es válida. La comparación ajustada (diferencia = 4,9 mmHg) está libre de confusión por edad. La figura presenta esto mismo 1 según SPSS.
Tabla Modelos de regresión múltiple con la tensión arterial (TAS), edad, sexo e IMC.
Modelo 1 (Constante) Sexo1 2 (Constante) Sexo Edad IMC 1
B 151,827 -2,407 85,000 -4,909 0,741 0,582
Error típ. 1,070 1,431 9,212 1,427 0,109 0,168
Beta -0,062 -0,126 0,246 0,125
t 141,952 -1,683 9,227 -3,439 6,801 3,455
Sig. 0,000 0,093 0,000 0,001 0,000 0,001
Sexo=0 para hombres y Sexo=1 para mujeres.
IMC = índice de masa corporal (kg/m2) Variable dependiente: tensión arterial sistólica (TAS, mmHg). Interpretación: Se han ajustado dos modelos, ambos con TAS como variable dependiente. El primero sólo incluye una variable independiente, que es el sexo. Este primer modelo representa la comparación cruda o bruta (bivariante). Su coeficiente de regresión o pendiente (b = -2,407) corresponde exactamente a la diferencia de medias que se hubiese obtenido usando la t de Student. En este sentido, puede afirmarse que la t de Student es un caso particular de regresión. El segundo modelo usa 3 variables independientes. Además del sexo, incluye la edad y el índice de masa corporal (IMC). Este modelo ha controlado la posible confusión por edad y por IMC en la comparación de la tensión arterial sistólica (TAS) entre sexos. La verdadera diferencia, una vez ajustada por edad e IMC es de –4,9 mmHg (TAS inferior en las mujeres). Los valores p de significación estadística indican que cada una de las tres variables del segundo modelo se asocia independientemente a la TAS de manera significativa. El valor p del primer modelo (p = 0,093) no es significativo, pero no sería válido, ya que está confundido por edad e IMC. El verdadero valor p para la comparación entre sexos es el ajustado (p=0,001) que está en el segundo modelo.
.
Interacción o modificación del efecto en regresión múltiple En el ejemplo anterior se asume implicitamente que hay una diferencia en la TAS constante (4,9 mmHg) entre hombres y mujeres, sea cual sea su edad. Pero hay veces que la diferencia entre hombres y mujeres no es constante para todas las edades. Por ejemplo pudiera pasar que, a medida que sea mayor la edad, sean menores las diferencias entre hombres y mujeres. A esto se le llama "modificación del efecto" o "interacción", pues significa que la edad modifica las diferencias entre sexos (o viceversa: que el efecto de la edad sobre la TAS es diferente en uno y otro sexo). La interacción puede valorarse introduciendo una nueva variable que es el producto de las dos que podrían interactuar entre sí. Término de interacción = sexo * edad En el ejemplo, el término de producto sexo*edad valdrá 0 en varones, ya que la variable sexo vale 0 para ellos. Pero esta nueva variable equivale a la edad en mujeres (edad*1 = edad). Se debe ajustar un tercer modelo (tabla del modelo 3) incluyendo el término de producto. Tabla Regresión múltiple con TAS (dependiente), edad, sexo e IMC, añadiendo un término de interacción (modelo 3) entre sexo y edad.
Modelo 1 (Constante) Sexo 2 (Constante) Sexo edad IMC 3 (Constante) sexo edad IMC sexo*edad 1
B 151,827 -2,407 85,000 -4,909 0,741 0,582 96,051 -26,089 0,576 0,584 0,308
Error típ. 1,070 1,431 9,212 1,427 0,109 0,168 12,060 15,000 0,159 0,168 0,217
Beta -0,062 -0,126 0,246 0,125 -0,670 0,192 0,125 0,559
t 141,952 -1,683 9,227 -3,439 6,801 3,455 7,965 -1,739 3,625 3,470 1,418
Sig. 0,000 0,093 0,000 0,001 0,000 0,001 0,000 0,082 0,000 0,001 0,156
Sexo=0 para hombres y Sexo=1 para mujeres.
IMC = índice de masa corporal (kg/m2) sexo*edad = término de producto (equivale a la edad en mujeres y a 0 en varones) Variable dependiente: tensión arterial sistólica (TAS, mmHg).
Interpretación: El modelo 3 proporciona dos ecuaciones, una para hombres y otra para mujeres. Varones: TAS 96,051 (0,576 EDAD) (0,584 IMC) Mujeres: TAS 96,051 - 26,089 (0,576 EDAD) (0,584 IMC) (0,308 EDAD) Sumando las constantes y los coeficientes de la edad, la ecuación en mujeres será: Mujeres (simplificada): TAS 69,962 (0,884 EDAD) (0,584 IMC) Sin embargo, al valorar una interacción debe comprobarse si su coeficiente tiene un valor p significativo o no. Si no es significativo debe suprimirse. Aquí el valor p no es significativo (p=0,156) y preferiremos el modelo sin interacción, ya que no hay evidencia para rechazar la hipótesis nula de que su coeficiente (0,308) sea 0 en la población. No obstante, a efectos demostrativos, representaremos gráficamente el modelo con interacción para interpretar su significado. Figura Interacción. La ecuación y=a+b 1x1+b2x2+ b2(x1*x2) da lugar a dos rectas que ya no son paralelas. En el ejemplo “y” es la TAS, x1 es la edad y x2 el sexo.
160 155
) g H 150 m m ( d145 e r p S140 A T 135 130 55
57
59
61
63
65
67
69
71
73
75
77
79
Edad
(se ha prescindido del IMC, considerándolo fijo en 25 kg/m 2)
Observando la figura se aprecia que las diferencias entre hombres y mujeres ya no son constantes, sino que dependen de la edad (la edad es un modificador del efecto del sexo). También puede interepretarse al revés: la pendiente de la recta que relaciona TAS y edad es diferente en hombres y mujeres, es decir el sexo es un modificador del efecto de la edad.
Variables cualitativas con más de dos categorías y variables dummy Cuando se desea introducir como independiente una variable cualitativa que tenga 3 o más categorías, se debe elegir primero cuál será la categoría de referencia y crear una nueva variable para cada una de las demás categorías. Por ejemplo, Estruch et al desean comparar 3 dietas en cuanto a su eficacia para reducir los niveles de colesterol. Usaron 3 dietas, una rica en aceite de oliva virgen (AOV), otra rica en frutos secos (FS) y una dieta control baja en grasas (control). La variable cualitativa "dieta " tendrá, por tanto estos 3 niveles o categorías. Se considerá el grupo control como categoría de referencia y se crearán dos nuevas variables (AOV y FS). Esto sirve para comparar cada una de ellas dos frente al grupo control. La nueva variable AOV valdrá 1 cuando el participante sea asignado al grupo de aceite de oliva virgen y 0 en caso contrario (control o FS). La nueva variable FS valdrá 1 cuando el participante sea asignado al grupo de frutos secos y 0 en caso contrario (control o AOV). Se ha usado este procedimiento para valorar las diferencias en cuanto al cambio de peso al cabo de 3 meses en ese ensayo. Tabla Dos variables "dummy" sustituyen a una variable con 3 categorías
CODIFICACIÓN
Nuevas variables (variables "dummy"")
Variable original Categorías:
AOV
FS
1 = Aceite de oliva
1
0
2 = Frutos secos
0
1
3 = control
0
0
SPSS (Constante) AOV FS
B -0,280 0,031 0,161
Error típ. Beta t Sig. 0,191 -1,461 0,144 0,262 0,005 0,119 0,905 0,267 0,027 0,605 0,546
Variable dependiente: cambio de peso (kg) a 3 meses (DIF_PES.) Interpretación: El listado de salida de SPSS sirve para crear tres ecuaciones de cambio de peso, una para cada grupo. Así, se puede comparar el cambio de peso (kg) predicho por el modelo para el grupo de dieta rica en aceite de oliva virgen, lo predicho para dieta rica en frutos secos y lo predicho para el grupo control (baja en grasa). Modelo para dieta rica en aceite de oliva virgen (AOV=1, FS=0):
DIF_PES = -0,28 + 0,031*1 + 0,161*0 DIF_PES = -0,28 + 0,031 = -0,249 Modelo para dieta rica en frutos secos (AOV=0, FS=1): DIF_PES = -0,28 + 0,031*0 + 0,161*1 DIF_PES = -0,28 + 0,161 = -0,119 Modelo para dieta baja en grasa (grupo control) (AOV=0, FS=0): DIF_PES = -0,28 + 0,031*0 + 0,161*0 DIF_PES = -0,28 La interpretación de los dos coeficientes (0,031 y 0,161) es, por tanto, muy sencilla y directa. El primero (+0,031) es la diferencia en el cambio de peso entre el grupo de aceite y el grupo control, el segundo (+0,161) es la diferencia entre el grupo de frutos secos y el gr upo control. Ninguna de estas diferencias resultó estadísticamente significativa. Esto se podría haber hecho también por ANOVA, con dos contrastes a priori (coeficientes: –1, 0 y +1 para el primer contraste y coeficientes: 0, -1 y +1 para el segundo). El resultado sería exactamente idéntico al de la regresión, como puede verse debajo. Contraste Valor del contraste Error típico t Sig. (bilateral) 1 -0,031 0,262 -0,119 0,905 2 -0,161 0,267 -0,605 0,546
La ventaja de hacerlo por regresión es que basta con introducir también otras variables en el modelo (p. ej. sexo, edad, peso inicial, etc.) para obtener estas mismas estimaciones ya ajustadas por esos posibles factores de confusión.
Supuestos o condiciones de aplicación del modelo de regresión múltiple El procedimiento utilizado para calcular una regresión lineal simple es el ajuste por mínimos cuadrados El objetivo es encontrar la ecuación que mejor se ajuste a los puntos observados. En una regresión múltiple el procedimiento de estimación es semejante al utilizado en la regresión lineal simple, se estima la superficie que mejor se ajusta a la nube de puntos observados. El método se denomina ajuste por mínimos cuadrados. Es un método que minimiza las distancias desde cada punto observado hasta el plano (residuales) Cuando se ajusta un modelo de regresión múltiple, el ordenador devuelve coeficientes bi para cada una de las variables independientes x i que pueden considerarse predictores de la variable cuantitativa considerada como respuesta (variable dependiente).
Por lo tanto, al igual que en la regresión lineal simple, el modelo se basa unos supuestos similares,que son los siguientes.
Las variables están relacionadas linealmente.
La distribución de la variable dependiente condicionada a cada posible combinación
de valores de las independientes es una distribución normal multivariable.
Las variables son independientes unas de otras.
Homogeneidad de las varianzas (homocedasticidad): las varianzas de la variable “y”
condicionadas a los valores de “x” son homogéneas.
Para comprobar estos supuestos se deben guardar los residuales y valorar si se adaptan a la normalidad, igual que se hace en regresión simple. Si el tamaño muestral es grande, habitualmente resultarán significativos los test de normalidad de los residuales, pero esto tiene poca relevancia práctica. En esta situación un test de normalidad significativo es sólo una consecuencia del tamaño muestral. Resulta entonces más importante valorar la magnitud del apartamiento de la normalidad usando métodos gráficos. Habitualmente, con tamaños muéstrales grandes (n>500) la regresión suele ser suficientemente robusta. Cuando haya un apartamiento notorio de la normalidad en los residuales se puede probar un término cuadrático para alguna de las variables independientes cuantitativas más importantes. Esto conduciría a modelos polinómicos y permitiría incluir relaciones curvilíneas. Existen amplias posibilidades de modelización no lineal en regresión.
Ejemplo 2: PRÁCTICO DEL MODELO DE REGRESIÓN MÚLTIPLE Por ejemplo, con SPSS se obtuvo el listado que aparece en la tabla 1 al predecir el índice de masa corporal (IMC) en función de diversas características (edad, hábito tabáquico, nivel de estudios y actividad física en el tiempo libre) en los varones de una muestra representativa de la población adulta (>15 años) de la Unión Europea.
La codificación de las variables fue: Edad: variable cuantitativa (años)
Estudios: 0 = Estudios medios o superiores
Tabaco: 1 = Estudios primarios 0 = No fumador 1 = Fumador actual Actividad física en el tiempo libre: 2 = Ex-fumador (lo dejó hace < 1 año) variable cuantitativa medida en 3 = Ex-fumador (lo dejó hace >= 1 año)
METs-horas/semana
Tabla Aspecto parcial de los resultados de SPSS en regresión múltiple. Coeficientes Coeficientes no estandarizados B Error típ. (Constante) 18,767 ,287 EDAD ,266 ,014 EDAD AL CUADRADO -2,364E-03 ,000 FUMADOR -,468 ,087 EXFUMADOR < 1 AÑO ,478 ,245 EXFUMADOR 1 AÑO+ ,530 ,127 ESTUDIOS PRIMARIOS ,534 ,091 ACTIV. FISICA (METs-h./sem) -8,501E-03 ,002
Coeficientes estandarizados Beta 1,229 -,993 -,064 ,022 ,050 ,067 -,049
t
Sig.
65,448 19,672 -15,872 -5,390 1,956 4,177 5,867 -4,404
,000 ,000 ,000 ,000 ,051 ,000 ,000 ,000
Variable dependiente: BMI Interpretación: La edad guardaba en esta base de datos una relación curvilínea con el IMC (BMI), el IMC correspondiente a cada edad será: IMC = 18,767 + (0,266edad) – (0,002364edad2). Para entender mejor esta relación, es preferible representar la ecuación gráficamente como se hace en la figura 12.4.
Figura Relación entre edad e índice de masa corporal (BMI). Muestra representativa varones 27 26
IMC
25 24 23 22 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 Edad
europeos mayores de 15 años (n=7.375). Además, es preciso considerar que este efecto de la edad es independiente de los otros factores (tabaco, estudios y actividad física) incluidos en el modelo. La variable categórica "tabaco" tenía 4 categorías, por lo tanto se han introducido 3 términos en el modelo (todas las categorías menos una). La categoría que no se introduce (aquí son los nunca fumadores) es la que queda como estrato de referencia frente al cual se realizan todas las comparaciones. Así, los fumadores tenían (independientemente de cuál fuese su edad, estudios y actividad física) por término medio 0,468 kg/m2 menos de IMC que los nunca fumadores. En cambio los ex-fumadores tenían por término medio mayor IMC que los nunca fumadores. Para los que habían dejado de fumar hacía menos de un año esta diferencia media fue de +0,478 kg/m 2, y para los que dejaron de fumar hacía más de un año fue de +0,530 kg/m2, en comparación con los nunca fumadores (siempre independientemente de cuál fuese su edad, estudios y actividad física). Los hombres cuyo nivel de estudios era primario o menor (Estudios=primarios) presentaron mayor IMC medio que quienes tenían estudios más elevados. La diferencia media en el IMC fue de +0,534 kg/m2 (independientemente de cuál fuese su edad, hábito tabáquico y actividad física). Cada MET-hora más a la semana de actividad física en el tiempo libre se asoció a una reducción del IMC de 0,0085 kg/m2 (independientemente de cuál fuese la edad, hábito tabáquico y nivel de estudios de los participantes). Los METs son una medición de la cantidad de esfuerzo que se hace en una actividad física o deporte. Se suman a lo largo de la semana multiplicada por las horas que se dedican por término medio a esa actividad o deporte (METShoras/semana). Las 4 variables resultaron ser predictores independientes y estadísticamente significativos de la variabilidad en el IMC. La representación gráfica de la figura asume que los sujetos tenían el valor 0 en las otras 3 variables (nivel de estudios, hábito tabáquico y actividad física). Tener un valor de 0 en estas 3 variables supone no ser fumador, tener estudios superiores o medios y no realizar ninguna actividad física en el tiempo libre.
MÉTODO DE PROMEDIOS MÓVILES CON PONDERACIÓN EXPONENCIAL Panasonic, empresa internacional en su área de pilas desechables, desea calcular el pronóstico de ventas para el año 2003, teniendo como antecedentes los datos que se muestran en la tabla. El cálculo del pronóstico se deberá emitir mediante la fórmula general y corroborarse con el método simplificado que corresponda.
Períodos 1990 1991 1992 1993 1994 1995 Σ
Y Ventas (miles) 85 89 92 95 93 98 552
TENIENDO EN CUENTA QUE: ()
PARA 1996:
() ( )
Para 1997 () ( )
Para 1998 () ( )
Para 1999 () ( )
Para 2000 () ( )
Para 2001 () ( )
Para 2002 () ( )
Para 2003 () ( )
Luego los pronósticos para los siguientes años serán :
Períodos 1996 1997 1998 1999 2000 2001 2002 2003
Y Ventas (miles) 96.00 96.80 96.48 96.60 96.55 96.57 96.56 96.56
-MÉTODO DE REGRESIÓN EXPONENCIAL Ejemplo:
Panasonic, empresa internacional en su área de pilas desechables, desea calcular el pronóstico de ventas para el año 2003, teniendo como antecedentes los datos que se muestran en la tabla. El cálculo del pronóstico se deberá emitir mediante la fórmula general y corroborarse con el método simplificado que corresponda.
Períodos 1990 1991 1992 1993 1994 1995 Σ
Y Ventas (miles) 85 89 92 95 93 98 552
x2 25 9 1 1 9 25 70
x -5 -3 -1 1 3 5 0
Para esto tenemos que :
∑( )
()
Luego hallando b:
∑( )
∑
log y 1,9294 1,9494 1,9638 1,9777 1,9685 1,9912 11,7800
x log y -9,6471 -5,8482 -1,9638 1,9777 5,9054 9,9561 0,3803
()
Luego la ecuación de pronóstico es:
Luego para el pronóstico para el 2003 será:
Períodos 1996 1997 1998 1999 2000 2001 2002 2003
Y Ventas (miles) 100 103 105 108 111 114 117 120
x 7 9 11 13 15 17 19 21
exponencial 100 r o l a V
90 Real
80
Pronóstico
70 1
2
3
4
Punto de datos
5
6
-METODO DE REGRESION PARABOLICA DE PRONOSTICOS - Ajuste de una función parabólica: Y * = a + b X + c X 2 X 1 2 3 4 5 15 3
1/5
X2 1 4 9 16 25 55 11
Y 1,25 5 11,25 20 30,5 68 13,6
X3 1 8 27 64 125 225
X4 1 16 81 256 625 979
X2Y 1,25 20 101,5 320 762,5 1205
XY 1,25 10 33,75 80 152,5 277,5 55,5
Y* 1,18 5,11 11,32 19,81 30,58 68 13,6
e=Y-Y* 0,07 -0,11 -0,07 0,19 -0,08 0 0
e2 0,0049 0,0121 0,0049 0,0361 0,0064 0,0644 0,0128
Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema de ecuaciones:
Y Na b X c X XY a X b X c X X Y a X b X c X 2
2
2
2
3
3
4
68 5a 15b 55c
Resolviendo este sistema se obtiene: a= -0,47
277,5 15a 55b 225c 1205 55a 225b 979c
b= 0,51
c= 1,14
Y* = -0,47 + 0,51 X + 1,14 X2 Bondad del Ajuste:
S2 *
2
Y 2 Y
Coeficiente de determinación: R =
2
S e ECM 2
e N
S
1-
S 2e S 2Y
0,01288 0,9998 111,715
1-
2
0,01288
2) Ejemplo de Regresión Parabólica Dadas dos variables, x e y, ajustar a los datos una función de tipo parabólico.
2
3
4
xy
2
x
y
x
x
x
x y
1
1.25
1
1
1
1.25
1.25
2
5
4
8
16
10
20
3
11.25
9
27
81
33.75
101.25
4
20
16
64
256
80
320
5
30.5
25
125
625
152.5
762.5
15 68 55 225 979 277.5 1205 Aplicando el método de los mínimos cuadrados se obtiene el siguiente sistema de ecuaciones:
5a 15b 55c 68 x c x y a x b x c x xy 15a 55 b 225 c 277 .5 55a 225 b 979 c 1205 a x b x c x x y na b
2
2
2
3
3
4
2
Resolviendo este sistema se obtiene: a
0.47
b
0.51
c
1.14
Por tanto, la ecuación de la parábola de grado dos que mejor se ajusta a la nube de
puntos es: y
0.47 0.51 x 1.14 x
2
Representación de los 4 modelos de regresión 40
30
Y (producción) X (tiempo)
20
Y*1 lineal X (tiempo) Y*2 parábola
10
X (tiempo) Y*3 potencial 0
X (tiempo) Y*4 exponencial
-10
X (tiempo) 1
2
3
4
5
X (tiempo)
-CORRELACION -COEFICIENTE DE CORRELACIÓN SIMPLE DE PEARSON (MODELO RECTILÍNEO) El coeficiente de correlación es una medida de asociación entre dos variables y se simboliza con la literal r. Los valores de la correlación van de + 1 a - 1, pasando por el cero, el cual corresponde a ausencia de correlación. Los primeros dan a entender que existe una correlación directamente proporcional e inversamente proporcional, respectivamente. De lo anterior referimos que:
+1 ó -1 = Correlación perfecta. 0.95 = Correlación fuerte. 80% = Correlación significativa. 70% = Correlación moderada. 50% = Existe una relación parcial.
Las 3 gráficas en coordenadas cartesianas posteriores, se muestra la variable independiente (X) se ubica en las abscisas y la dependiente (Y) en el eje de las ordenadas. Los coeficientes de correlación significan esa asociación entre los cambios que se observan en la variable dependiente con respecto a la variable independiente. La gráfica (a) representa una correlación positiva, es decir, conforme los valores de X aumentan, también aumentan los valores de Y. A su vez, la gráfica (b) muestra una correlación negativa, de modo que al incrementarse los valores de la variable independiente, los valores de la dependiente disminuyen. La gráfica (c) no indica correlación.
El coeficiente de correlación lineal de Pearson se define matemáticamente con la ecuación siguiente:
Donde: r = coeficiente de correlación de Pearson.
2
= sumatoria de los valores al cuadrado de la variable independiente. = sumatoria de los valores al cuadrado de la variable dependiente. N = tamaño de la muestra en función de parejas. 2
Este procedimiento estadístico es aplicable cuando las observaciones se miden según una escala de intervalo, por otra parte, el fenómeno debe ser lineal. Al igual que las otras pruebas paramétricas, la varianza de las variables X y Y deben guardar homogeneidad.
Pasos. 1. Ordenar los valores de la variable dependiente (Y) con respecto a los valores de la variable independiente (X). 2. Elevar al cuadrado cada valor X y de Y. 3. Obtener los productos de X y Y, para lo cual se deben multiplicar independientemente ambos valores. 2 2 4. 5. Calcular el tamaño de la muestra en función de parejas de X y Y. 6. Aplicar la ecuación. 7. Calcular los grados de libertad (gl): gl = N parejas -1. 8. Comparar el valor de r calculado en la tabla de valores críticos de t de Kendall en función de la probabilidad. 9. Decidir si se acepta o rechaza la hipótesis. Ejemplo: Elección de la prueba estadística para medir la asociación o correlación. Las edades en días están en escala de tipo intervalo, tenemos dos variables, entonces aplicamos esta prueba. Objetivo: Conocer que grado de asociación existe entre la edad y peso corporal de niños de edades desde el nacimiento hasta los 6 meses.
Hipótesis. Ha. Entre las observaciones de edad de los niños y peso corporal existe correlación significativa. Ho. Entre las observaciones de edad de los niños y pero corporal no existe correlación significativa.
gl = 21 - 2 = 19
rc = 0.91 rt = 0.444 rc > rt se rechaza Ho. Entre las variables edad del niño y el peso corporal existe una correlación muy significativa. Elevando r al cuadrado obtenemos el error existente r 2 = 0.8281 = 0.83,
donde el 83% de los cambios observados en el peso de los niños se debe a los incrementos de la edad, sin embargo, el 17% se ignora. Creamos ahora una gráfica (hecha con el programa estadístico SPSS) para representar la correlación obtenida. Encontramos entonces una correlación positiva, es decir, conforme la edad aumenta, también aumenta el peso corporal de los niños.