INDICE
MÉTODO CON ETAPAS INFINITAS......................................................................2 1.
MÉTODO DE ENUMERACIÓN EXHAUSTIVA...........................................5
2.
METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO.......................9
3.
MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO....................15
CONCLUSIONES.......................................................................................... 19 BIBLIOGRAFIA............................................................................................ 19
1
MÉTODO CON ETAPAS INFINITAS Hay dos métodos para resolver el problema con etapas infinitas. En el primero se deben evaluar todas las políticas estacionarias del problema de decisión. Esto equivale a un proceso de enumeración exhaustiva y sólo se puede usar si la cantidad de políticas estacionarias es razonablemente pequeña. El segundo método, llamado iteración de política, en general es más eficiente, porque determina en forma iterativa la política óptima (Thaja, 2004) Ejemplo Cada año, al comenzar la estación para trabajar los jardines (de marzo a septiembre) un jardinero usa una prueba química para determinar el estado del suelo. Dependiendo de los resultados de las pruebas, la productividad para la nueva estación cae en uno de tres estados: 1) bueno, 2) regular y 3) malo. A través de los años el jardinero observó que las condiciones meteorológicas prevalecientes durante el invierno (de octubre a febrero) juegan un papel importante en la determinación de la condición del suelo, dejándolo igual o empeorándolo, pero nunca mejorándolo. En este respecto, el estado del suelo en el año anterior es un factor importante para la productividad del presente año. Usando los datos de las pruebas hechas por el jardinero, las probabilidades de transición durante un periodo de un año, de un estado de productividad a otro, se representa con la siguiente cadena de Markov: (Thaja, 2004)
2
Las probabilidades de transición en P1 indican que la productividad de determinado año no puede ser mejor que la del año anterior. Por ejemplo, si las condiciones del suelo en el presente año son regulares (estado 2), la productividad en el próximo año permanecerá regular con una probabilidad de 0.5, o se volverán malas (estado 3) con una probabilidad de 0.5. (Thaja, 2004) El jardinero puede alterar las probabilidades de transición P1 con otras acciones. En el caso normal, se aplica fertilizante para mejorar las condiciones del suelo, y se produce la siguiente matriz de transición: (Thaja, 2004)
Para poner en perspectiva el problema de decisión, el jardinero asocia una función de ingreso (o una estructura de recompensa) con la transición de un estado a otro. La función de ingreso expresa la ganancia o la pérdida durante un periodo de 1 año, dependiendo de los estados entre los que se hace la transición. Como el jardinero tiene la opción de usar fertilizante o no, la ganancia o la pérdida varían dependiendo de la decisión tomada. Las matrices R1 y R2 resumen las funciones de ingreso, en cientos de $, correspondientes a las matrices P1 y P2, respectivamente (Thaja, 2004)
3
Los elementos rij2 de R2 tienen en cuenta el costo de aplicar el fertilizante. Por ejemplo, si las condiciones del suelo fueron regulares el año anterior (estado 2) y se vuelven malas (estado 3) en este año, su ganancia será r 23
2
= 0 en comparación con r 23 1= 1 cuando no se usa
fertilizante. (Thaja, 2004) A este respecto, R expresa la recompensa neta después de haber introducido el costo del fertilizante. ¿Qué clase de problema de decisión tiene el jardinero? Primero, se debe conocer si la actividad de jardinería continuará durante una cantidad limitada de años, o en forma indefinida. Aestos casos se les llama problemas de decisión con etapas finitas o con etapas infinitas. En ambos casos, el jardinero usa el resultado de las pruebas químicas (estado del sistema) para determinar la mejor acción (fertilizar o no) que maximice el ingreso esperado. (Thaja, 2004) También, al jardinero le puede interesar evaluar el ingreso esperado que resulte de las acciones especificadas de antemano para determinado estado del sistema. Por ejemplo, se puede aplicar fertilizante siempre que las condiciones del suelo sean malas (estado 3). Se dice que el proceso de toma de decisiones en este caso se representa por una política estacionaria. (Thaja, 2004) Cada política estacionaria corresponderá a matrices de transición y de ingreso distintas, que se obtienen a partir de las matrices P1, P2, R1 y R2. Por ejemplo, para la política estacionaria de aplicar fertilizante sólo cuando las condiciones del suelo sean malas (estado 3), las matrices resultantes de transición y de ingreso son: (Thaja, 2004)
4
Estas matrices son distintas de P1 y R1 sólo en los terceros renglones, que se toman directamente de P2 y R2, las matrices asociadas con la aplicación del fertilizante (Thaja, 2004) 1. MÉTODO DE ENUMERACIÓN EXHAUSTIVA Consiste en enumerar todas las soluciones posibles, a partir de los valores tomados para las variables enteras y realizar todas las combinaciones posibles hasta encontrar una combinación que nos proporcione el valor óptimo de la función objetivo y que cumpla con todas las restricciones del problema. Una de las objeciones principales que presenta éste método es el número de variables, ya que se presentan demasiadas combinaciones antes de encontrar la solución óptima. (Thaja, 2004) Supongamos que el problema de decisión tiene S políticas estacionarias, y supondremos que
Ps
y
Rs
son las matrices de transición y de ingreso (de un
paso) correspondientes a la política, s = 1, 2, ..., S. Los pasos del método de enumeración son los siguientes: (Thaja, 2004) Paso 1. Calcule
V si , el ingreso esperado de un paso (un periodo) de la política s,
dado el estado i, i = 1, 2, ..., m. (Thaja, 2004) Paso 2. Calcule
transición
P
s
π si , las probabilidades estacionarias a largo plazo de la matriz de
asociadas con la política s. Estas probabilidades, cuando existen, se
calculan con las ecuaciones (Thaja, 2004) 5
E
Paso 3. Determine
s
, el ingreso esperado de la política s por paso (periodo) de
transición, con la fórmula (Thaja, 2004)
Paso 4. Se determina la política óptima s* tal que: (Thaja, 2004)
Ilustraremos el método resolviendo el problema del jardinero con un horizonte de planeación de periodos infinitos. (Thaja, 2004) Ejemplo: El problema del jardinero tiene un total de ocho políticas estacionarias, como se ve en la siguiente tabla: (Thaja, 2004)
Las matrices
P
s
y
R
s
de las políticas 3 a 8 se deducen de las correspondientes
a las políticas 1 y 2, y son las siguientes:
6
s Así, se pueden calcular los valores de V i que aparecen en la tabla siguiente:
Los cálculos de las
probabilidades
estacionarias se hacen
con las ecuaciones
Por ejemplo, si s =2, las ecuaciones correspondientes son
(Observe que una de las tres primeras ecuaciones es redundante.) La solución es: 7
En este caso, el ingreso anual esperado es:
En la tabla siguiente se resumen
πs
y
Es
para todas las políticas estacionarias.
(Aunque no afectará esto a los cálculos en modo alguno, observe que cada una de las políticas 1, 3, 4 y 6 tiene un estado absorbente: el estado 3. Es la razón por la que π 1=π 2=0
y π3
= 1 para todas esas políticas.) (Thaja, 2004)
La política 2 produce el máximo ingreso anual esperado. La política óptima a largo plazo es aplicar fertilizante independientemente del estado del sistema. (Thaja, 2004)
8
2. METODO DE ITERACIÓN DE POLITICA SIN DESCUENTO
El método de iteración por política está basado principalmente en el desarrollo siguiente. Para cualquier política específica el rendimiento total esperado en la etapa n se expresa atraves de la ecuación recursiva (Thaja, 2004) m
f n ( i )=v i+ ∑ P ij f n+1 ( j ) , i=1,2, … … .. ,m j=1
Esta acción recursiva es la base del desarrollo del método de iteración de política. Sin embargo, se debe modificar un poco la forma actual, para permitir el estudio del comportamiento asintótico del proceso. Se definirá como la cantidad de etapas restantes por considerar. Es distinto de n en la ecuación, que define a la etapa n. La ecuación recursiva se escribe entonces como sigue: (Thaja, 2004)
m
f η ( i )=v i+ ∑ P ij f η−1 ( j ) , i=1,2,3,.… … .. , m j=1
Obsérvese que f η es el ingreso esperado acumulado si η
es la cantidad de etapas
que faltan por considerar. Con la nueva definición, se puede estudiar el comportamiento asintótico del proceso haciendo que Ham04 \l 13322
η →∝
CITATION
(Thaja, 2004)
Ya que
9
π =( π 1 , π 2 , … … . , π m)
Es el vector de probabilidades de estado estable de la matriz de transición P=∥ pij ∥ y π =(π 1 v 1 , π 2 v 2 +… … . , π m v m ) es el ingreso esperado por etapa, como se calculó en el problema anterior, se puede demostrar que cuando es muy grande, (Thaja, 2004) f η ( i )=ηE+ f (i)
Donde
f ( i ) es un término constante que representa la intersección asintótica de
f η dado el estado i Ya que f η ( i )
es el ingreso óptimo acumulado cuando hay η
dado el estado i
y como E
forma intuitiva por qué f η ( i )
es el ingreso esperado por etapa, se puede ver en
es igual a
ηE
para tener en cuenta el estado específico i
η→∞
etapas restantes,
CITATION Ham04 \l 13322
más un factor de corrección f (i)
. En este resultado se supone que
(Thaja, 2004)
Ahora, con esta información, la ecuación recursiva se escribe como sigue:
10
m
ηE+ f (i ) =v i + ∑ Pij {( η−1 ) E+f ( j) } ,i=1,2, … . , m j=1
Luego se simplifica y se obtiene m
E+ f ( i )−∑ P ij f ( j ) =v i ,i =1,2,… . , m j=1
En este caso hay
m
m
ecuaciones con
+1 incógnitas, f(1), f(2), ..., f(m) y E.
(Thaja, 2004) Como en el problema anterior , el objetivo es determinar la política óptima que produce el valor máximo de E . Como hay incógnitas, el valor óptimo de
E
m
ecuaciones con m+ 1
no se puede determinar en un paso. En lugar de
ello se usa un método iterativo de dos pasos que, a partir de una política arbitraria, determina una nueva política que produce un valor mejor de E . (Thaja, 2004) El proceso iterativo termina cuando hay dos políticas sucesivas que son idénticas. 1º Paso de determinación de valor: Se elige la política s en forma arbitraria. Con sus matrices correspondientes
Ps
y
Rs y suponiendo, en forma arbitraria, que
f s ( m ) =0 , se resuelven las ecuaciones (Thaja, 2004) m
E + f ( i )−∑ P ij f ( j )=v i , i=1,2, … . ,m S
s
S
s
j=1
11
Con las incógnitas
E
S
, f
s
(1),..., y f
s
(m – 1). Continuar en el paso de
mejoramiento de política 2º Paso de mejoramiento de política: Para cada estado i, determinar la política t que corresponde a (Thaja, 2004)
Los valores de
f s ( j ) , j=1,2, … ., m son los que se determinan en el paso de
determinación de valor. Las decisiones óptimas resultantes para los estados 1, 2, ..., y m son la nueva política t. Si s y t son idénticas, t es óptima. En caso contrario, hacer s = t y regresar al paso de determinación de valor. (Thaja, 2004) Ejemplo Se resolverá el problema del jardinero con el método de iteración de política. Se comienza con la política arbitraria que indica no aplicar fertilizante. Las matrices correspondientes son (Thaja, 2004)
Las ecuaciones del paso de iteración de valores son
12
Si
en
forma arbitraria f(3) = 0, la solución de las ecuaciones es
Continuación se aplica el paso de mejoramiento de política. Los cálculos correspondientes se ven en el cuadro siguiente. (Thaja, 2004) Cuadro nº 01 mejoramiento de la calidad
Fuente: investigación de operaciones La nueva política indica aplicar fertilizante independientemente del estado. Como es distinta de la anterior, se hace de nuevo el paso de determinación de valor. Las matrices correspondientes a la nueva política son (Thaja, 2004)
13
Estas matrices definen las siguientes ecuaciones:
De nuevo si f (3) =0, se llega a la solución
Los cálculos del paso de mejoramiento de política se ven en el siguiente cuadro Cuadro nº 02 mejoramiento de la calidad
Fuente: investigación de operaciones La nueva política, que establece aplicar fertilizante independientemente del estado, es idéntica a la anterior. Entonces esta última política es óptima, y termina el proceso
14
iterativo. Es la misma conclusión a la que se llega con el método de enumeración exhaustiva . Sin embargo, obsérvese que el método de iteración de política converge con rapidez hacia al política óptima; ésta es una característica normal del nuevo método. (Thaja, 2004)
3. MÉTODO DE ITERACIÓN DE POLÍTICA CON DESCUENTO El algoritmo de iteración de política se puede ampliar para abarcar descuentos. Dado el factor de descuento α (< 1), la ecuación recursiva de etapas finitas se puede plantear como sigue: (Thaja, 2004)
(Nótese que η representa la cantidad de etapas que faltan.) Se puede demostrar que cuando η→∞ (modelo infinito), fη(i) =f (i), siendo f (i) el ingreso a valor presente (descontado), si el sistema está en el estado i y funciona durante un horizonte infinito. Así, el comportamiento de fη(i) a largo plazo, cuando η→∞ es independiente del valor de η. Esto contrasta con el caso donde no hay descuentos, en el que fη(i)=ηE +f (i). Cabría esperar este resultado, porque al descontar, el efecto de los ingresos futuros disminuye a cero, en forma asintótica. En realidad, el valor presente f (i) debe tender a un valor constante cuando η→∞. Con base en esta información, se modifican como sigue los pasos de iteración de política. (Thaja, 2004)
15
1. Paso de determinación de valor. Para una política arbitraria s con matrices Ps y Rs, resolver las m ecuaciones (Thaja, 2004)
Con las m incógnitas f s(1), f s(2), ..., fs(m). 2. Paso de mejoramiento de política. Para cada estado i, determinar la política t que corresponda (Thaja, 2004)
f s(j) se obtiene en el paso de determinación de valor. Si la política resultante t es la misma, detenerse; t es óptima. En caso contrario, poner s = t y regresar al paso de determinación de valor. (Thaja, 2004)
Ejemplo:
Se resolverá el ejemplo con el factor de descuento α=0.6. Partiremos de la política arbitraria S={1,1,1}. Las matrices asociadas P y R (P1 y R1 en el ejemplo de enumeración exhaustiva) dan las ecuaciones (Thaja, 2004)
La solución de estas ecuaciones es f1 = 6.61, f2 = 3.21, f3 = -2.5 16
En el siguiente cuadro se presenta un resumen de la iteración de mejoramiento de política:
Cuadro nº 03 mejoramiento de la calidad
F uente: investigación de operaciones
El paso de determinación de valor usando P2 y R2 (Ejemplo de enumeración exhaustiva) produce las siguientes ecuaciones: (Thaja, 2004)
La solución de esas ecuaciones es f (1) = 8.89, f (2) = 6.62, f (3) = 3.37 17
El paso de mejoramiento de política da como resultado el siguiente cuadro: Cuadro nº 04 mejoramiento de la calidad
Fuente: investigación de operaciones Como la nueva política (1, 2, 2) es distinta de la anterior, se repite el paso de determinación de valor con P3 y R3 (Ejemplo de enumeración exhaustiva). Esto da como resultado las siguientes ecuaciones: (Thaja, 2004)
La solución de estas ecuaciones es f (1) = 8.97, f (2) = 6.63, f(3) = 3.38
18
El paso de mejoramiento de política da como resultado el siguiente cuadro: Cuadro nº 04 mejoramiento de la calidad
Fuente: investigación de operaciones
Como la nueva política (1, 2, 2) es idéntica a la anterior, es óptima. Obsérvese que los descuentos han producido una política óptima distinta que establece no aplicar fertilizante si el estado del sistema es bueno (estado 3). (Thaja, 2004)
19
CONCLUSIONES
20
Bibliografía Thaja, H. A. (2004). INVESTIGACION DE APERACIONES SEXTA EDICION . Mexico: pearson educacion .
21