λ CURSO TALLER
HERRAMIENTAS MATEMÁTICAS PARA MODELOS DE VALORACIÓN MULTICRITERIOS
υ
ι Mtro. Luis García Márquez
σ León Guanajuato México
Junio 2008
Ajuste de Curvas Si se tiene un conjunto de datos y se desea encontrar la función o distribución que genera estos resultados con la finalidad de poder calcular con cierto grado de confiabilidad el valor que resultará en determinado momento, entonces es necesario aplicar un análisis de curvas. Existen varios métodos para hacerlo dependiendo si es una función o distribución, en el caso de una función se tiene el método de mínimos cuadrados basado en álgebra lineal y para las distribuciones se utiliza la prueba de bondad y ajuste χ2 (chi cuadrada).
REGRESIÓN LINEAL Y CORRELACIÓN La regresión lineal es un modelo matemático que nos permite poder expresar la relación funcional lineal entre la variable dependiente Y y la variable independiente X así mismo poder medir el grado de linealidad existente entre ellas. Para estimar la ecuación de la recta se utiliza el Método de Mínimos Cuadrados donde: Y = β0 + β1X Será la ecuación estimada con β0 como ordenada al origen y β1 como pendiente de la recta
Los estimadores son:
SC xy 1 SC x
β = y − βˆ x
βˆ =
0
1
Donde
n SC x = ∑ ( x − x )2 i =1 i
n SC xy = ∑ ( x − x )( y − y ) i i=1 i
Coeficiente de Correlación de Pearson
Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
r=
SC xy SC x SC y
Donde
n SC y = ∑ ( y − y )2 i =1 i Ejemplo LA CURVA DE REGRESION EXPONENCIAL La familia de rectas (y =a + b x) y las familias de curvas exponenciales y = abx, son las ecuaciones de correlación simple más utilizadas en la práctica; en este caso para correlacionar una muestra de datos obtenidos con la función Exponencial es necesario calcular los coeficientes a y b mediante:
∑ log y ∑ x − ∑ x ∑ x * log y a = ant log n * ∑ x − (∑ x) 2
2
b = ant log
n * ∑ x * log y
2
−∑x
∑ log y
n * ∑ x 2 − (∑ x) 2
EJEMPLO Una empresa de vienes raíces obtuvo del registro de operaciones de compraventa de terreno en los últimos 20 meses la siguiente información: mes 0 5 8 10 14 15 Luis García Márquez
Precio del metro cuadrado 10 15 15 30 35 50 Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
18 20
70 80
En este caso x (la Variable independiente) seguirá siendo el tiempo (MESES) ý y (la variable dependiente) el Precio por metro cuadrado.
n 1 2 3 4 5 6 7 8 Sum a toria :
x 0 5 8 10 14 15 18 20 90
y 10 15 15 30 35 50 70 80 305
log y 1.0000 1.1761 1.1761 1.4771 1.5441 1.6990 1.8451 1.9031 11.8205
x ^2 0 25 64 100 196 225 324 400 1,334
x *log y 0.0000 5.8805 9.4087 14.7712 21.6170 25.4846 33.2118 38.0618 148.4355
n=8
(11.8205)*(1,334) - (90)*(148.4355) log A = -------------------------------------------------- = 0.9367 (8) *(1,334) - 90^2
(8)*(148.4355) - 90*(11.8205) log B =-------------------------------------------- = 0.0481 (8) *(1,334) - 90^2
PERO AUN FALTAN CALCULAR LOS ANTILOGARITMOS
a = Antlg (0.9367) = 8.6437
b = Antlg (0.0481) = 1.1171
La ecuación de correlación será: Y=8.6437(1.1171)x Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
En este ejercicio no solo se podrá predecir el valor unitario del terreno a la fecha del avalúo, sino también se podrá interpolar para meses en que no han existido operaciones de compra-venta o cualquier mes seleccionado: Por ejemplo se podrá obtener el precio unitario para: a) b) c)
Interpolar el valor unitario a los 12 meses después de la fecha de origen ídem para 17 meses Predecir el valor unitario a los 22 meses meses valor del metro cuadrado a) 12 32.64 b) 17 56.79 c) 22 98.79
EL COEFICIENTE DE DETERMINACION El Coeficiente de Determinación, mide la bondad del ajuste relativo de la curva de regresión. Indica la cantidad de variación en Y que se explica en la ecuación de regresión. a)
SCT o Suma de Cuadrados Total
∑ ( y − y) b)
SCE o Suma del Cuadrado del Error
∑ ( y − yˆ ) c)
2
2
SCR o Suma del Cuadrado de la Regresión
∑ ( yˆ − y )
2
De la misma manera anterior, se cumple la relación: SCT = SCE + SCR El Coeficiente de Determinación: Se define como coeficiente de determinación:
R2 = Luis García Márquez
SCR SCT Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
DONDE EL COEFICIENTE DE DETERMINACION COMPRENDIDOS EN EL INTERVALO: [0 , 1]
TOMA VALORES
Interpretación del Coeficiente de Determinación: Un valor de R2 = 0.75, debe interpretarse que el 75% de las variaciones de y (Muestra), son explicadas por las variables y número de datos utilizados para calcular el modelo.
Se preferirá siempre el Modelo cuyo Coeficiente de Determinación sea lo más cercano a la unidad (1.00).
El Coeficiente de Correlación: Se define como Coeficiente de Correlación r como:
r = R2 su interpretación es la misma que el Coeficiente de Determinación y sus valores estarán comprendidos en el intervalo: [ -1 , 1 ]
EJEMPLO: Sean los siguientes datos correspondientes al ejemplo anterior:
x M ESES 0 5 8 10 14 15 18 20
y Bs/M2 10 15 15 30 35 50 70 80
ECUACION DE CORRELACION:
Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
y = 8.6437 * 1.1171x
n 1 2 3 4 5 6 7 8 Sumatoria:
x 0 5 8 10 14 15 18 20
y Obsrvada 10 15 15 30 35 50 70 80
yˆ
( yˆ − y ) 2
( y − y) 2
Calculada 8.64 15.04 20.96 26.16 40.74 45.51 63.44 79.17
SCR 869.44 533.29 294.73 143.31 6.80 54.42 640.55 1,683.98 4,226.52
SCT 791.30 535.00 535.00 66.10 9.80 140.90 1,015.70 1,753.10 4,846.88
y = 38.13 ( Bs. / M 2)
R2 =
4,226.52 = 0.8720 4,846.88
R 2 = 87.20%
Regresión Logaritmo Base n y Logaritmo Natural Para una ecuación del tipo y = a + bLog n x o y = a + bLnx se utilizan las siguientes fórmulas que determinan el valor de a y b con los cuales podemos determinar la ecuación logarítmica ya sea en base o natural, esta última en realidad corresponde a la base “e”. Primero la ecuación y = a + b (logn x) será a la que desearemos llegar mediante la solución al sistema de ecuaciones: ∑y= na + [∑ logn x]b ∑ (y logn x) = [∑ logn x]a + [∑(logn x)2]b donde nuestras variables del sistema son a y b. Una vez encontrado estos valores tendremos la ecuación estimada en forma logarítmica. En caso de una Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
función logaritmo natural el método es el mismo solo se cambia en los cálculos la función Lognx por Lnx. El error de estimación se calcula como: e=
∑
( yo − ye )2
donde yo es el valor observado y ye el valor esperado, n n− p es el número de datos y p el número de parámetros estimados
Ajuste a curvas Polinomiales Si se desea verificar que un conjunto de datos tiene una función del tipo polinomial como pudiera ser una cuadrática o cúbica, tendríamos que utilizar un ajuste de curvas basado en matrices, de la siguiente manera: Supongamos que deseamos el ajuste a la ecuación y = an x n + an −1 x n −1 + ...... + a1 x + a0
entonces si tenemos una muestra de n valores x con sus respectivas respuestas y del experimento, al evaluarlas nos daría un sistema de ecuaciones de la siguiente manera y1 = an x1n + an −1 x1n −1 + ......... + a1 x1 + a0 y2 = an x2n + an −1 x2n −1 + ........ + a1 x2 + a0 ............................................................ yn = an xnn + an −1 xnn −1 + ........ + a1 xn + a0
de donde podemos ver que se trata de un sistema de ecuaciones no necesariamente cuadrado, en donde las variables en cuestión serían las a0, a1, a2, ......, an, tanto las x como las y al ser sustituidas por los valores de la muestra serían los coeficientes y lada derecho del sistema, por lo que la solución vendría dada por la siguiente ecuación en la cual fue necesario multiplicar por la transpuesta de la matriz con la finalidad de obtener una matriz cuadrada y así poder calcular la inversa A=(XtX)-1(XtY) Donde A representa el vector de variables y X la matriz de coeficientes del sistema; una vez resuelto este tendremos en realidad los coeficientes de la ecuación polinomial estimada.
Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
El error de aproximación se calcula como SCE e= N−p Donde la SCE es la suma de los valores observados menos los esperados al cuadrado. N es el tamaño de la muestra y p los parámetros estimados, por ejemplo si se trata de una ecuación cuadrática ax2+bx+c entonces tendremos que calcular 3 coeficientes a, b y c por lo que p = 3 Ejemplo: Un fabricante compra grandes cantidades de refacciones para cierta máquina, él encuentra que este costo depende del número de cajas compradas al mismo tiempo y que el costo disminuye conforme el número de cajas aumenta; de los datos siguientes determine la función cuadrática que mas se ajuste a esta información Número de cajas compradas Costo total 10 150 30 260 50 325 100 500 175 670
Prueba de Bondad y Ajuste χ2 La prueba de bondad y ajuste chi cuadrada nos permite determinar si una muestra de tamaño N tiene un comportamiento cercano a una distribución de probabilidad conocida, con cierto nivel de confiabilidad, para ello necesitamos tener la muestra y las características de la muestra, por ejemplo: Que tipo de variable es (discreta o continua) Esta en función del tiempo? Tiene valores binarios etc. De tal forma de poder ubicar que tipo de distribución pudiera ser, es decir si la muestra es de variable discreta y esta en función del tiempo, entonces pensaremos en una distribución de Poisson y si es continua entonces en una exponencial o exponencial negativa. La prueba como todas tienen sus 6 pasos en este caso son: “ Ho: la muestra tiene aproximadamente una distribución “ H1: la muestra no es suficiente para determinar que sigue un comportamiento similar a la distribución “ “ Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
Nivel de significancia α= Estadístico de prueba χ = ∑ 2
Región de rechazo para Ho χ
(o − e)2 e
>χ2α
2
Ejemplo: una empresa desea determinar si el nivel de aceptación establecido de por lo menos 35 puntos de un examen de habilidades que se aplican a los candidatos a un puesto operario, permite contratar al menos un 80% de los solicitantes al puesto. Basándose en una prueba aplicada a los operarios que tienen dos meses laborando en la empresa se obtuvieron los siguientes datos: Puntaje 0<10 10<15 15<20 20<25 25<3030<40 40-50
Frecuencia 24 49 71 72 37 21 16
Ejemplo: con el fin de planear cuánto dinero en efectivo se debe dejar a la mano en la caja fuerte de un banco en un día normal, el gerente realiza un estadística para analizar el depósito promedio de un cliente, sin embargo este promedio no le permite tener un nivel de confiabilidad sobre la cantidad de dinero en la caja fuerte, por lo que es necesario conocer el comportamiento de los depósitos, el gerente supone que está distribuido normalmente. ¿tendrá razón el gerente con una confianza del 95%? Si en el día existen 100 depósitos cuantos de ellos serán menores a $1500 y cuantos superarán a los $2000 El 90% de los depósitos en que rango estarán? Depósito Frecuencia
$0-999 20
1000-1999 65
Mas de 2000 25
Regresión Lineal Múltiple Cuando una variable depende de otras variables independientes se puede calculara una ecuación lineal de variables múltiples de la forma y=b1x1+b2x2+......+bnxn+a
Luis García Márquez
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451
en donde desconocemos los valores de las “a”; si tenemos una muestra de tamaño n entonces tendremos n valores x y n valores; para encontrar los valores de ai resolvemos el sistema: Σy = na + b1Σx1 + b2Σx2+……..+bnΣxn Σx1y = aΣx1+b1Σx12+ b2Σx1x2+......+bnΣx1xn Σx2y = aΣx2+b1Σx1x2+b2Σx22+........+bnΣx2xn ................................................................ Σxny = aΣxn+b1Σx1x2+b2Σx2x3+......+bnΣxnn calculamos las sumatorias y sustituimos los valores en el sistema, lo resolvemos y tendremos los valores de los coeficientes b y la constante a el coeficiente de determinación es:
( y − yˆ ) =1− ∑ ∑y
2
r
2
i
i
2
Ejemplo: una empresa desea determinar cual es la ecuación de la demanda de su producto estrella en función del precio del producto y de los ingresos de los consumidores, para ello analiza los precios de los últimos 15 años, así como el ingreso promedio de sus consumidores de acuerdo a registros gubernamentales de ingreso por nivel socioeconómico.
Año 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Luis García Márquez
Demanda 40 45 50 55 60 70 65 65 75 75 80 100 90 95 85
Precio 9 8 9 8 7 6 6 8 5 5 5 3 4 3 4
Ingreso 400 500 600 700 800 900 1000 1100 1200 1300 1400 1500 1600 1700 1800
Correo electrónico
[email protected] Teléfono Cel.: 477-7051451