Cap´ıtulo 1 Juegos No-Cooperativos con Informaci´ on on Sim´ Si m´ etri etrica ca 1
.
Intr In trod oduc ucci ci´ ´ on on
I
La teor´ teor´ıa de las decisiones interactivas interactivas cl´ asica asica (o teor´ teor´ıa de juegos cl´ asica ) analiza, b´ asicamente, asicamente, la toma de decisiones racionales en t´ erminos erminos de construcciones competitivas (juegos no-cooperativos) y coalicionales (juegos cooperativos) co operativos) abstra´ abstra´ıdas de los juegos de sal´on on (p´ oquer, bridge, monopolio, etc.), en los cuales dos o m´ oquer, as agentes, considerando las acciones de sus oponentes, deben tomar decisiones en el esfuerzo por obtener las m´ aximas ganancias posibles. Esta abstracci´ aximas on on ha abierto el espectro de posibilidades de aplicaci´ on al mundo real: los “jugadores” pueden ser on seres humanos, instituciones, poblaciones p oblaciones de animales, partidos pol´ pol´ıticos, agentes de un mercado, etc., a la vez que las estrategias pueden ser de muy diversa ´ındole. La teor´ teor´ıa de juegos juegos tiene en estos campos una habilidad habilidad unica: ´ la de ser un sistema de referencia eferencia para ara el estudio estudio de las interac interaccione ciones, s, descrito descrito en t´ erminos erminos simples simples y universales . II
.
La Teor Teor´ ´ıa de Juegos de von von Neumann y Morgenstern Morgenstern [1944]: una visi´ on on general
En 1928 el matem´ atico atico h´ ungaro-jud´ ungaro-jud´ıo John von Neumann [1903-1957] report´ o un curioso descubrimiento a la Sociedad Matem´ atica atica de Gotinga: Goti nga: hab´ hab´ıa encontrado en contrado una “estrategia racional” al problema al que se enfrentan dos oponentes a la hora de elegir en el lanzamiento de una moneda al aire. Y aunque esto, a primera vista, no teo r´ıa ıa pareciera un gran logro, era el comienzo de una nueva rama de la ciencia: la teor´ de juegos . La prueba de von Neumann, publicada como Zur Theorie der Gesellschaftspiele , se extend´ extend´ıa a otros juegos como el ajedrez y las cartas, y mostraba que exist´ıa, ıa, en cada caso, un “mejor m´etodo etodo posible” de juego, que era matem´ aticamente determinable. La “mejor estrategia posible” o “estrategia racional” era aquella que le aseguraba a un jugador la m´ axima ventaja, sin importar lo que los oponentes hicieran . Esta 1
´ Juli´ an an Ar´evalo, evalo, Francisco Lozano, Sergio Monsalve y Edgar Villa.
15
16
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
estrategia, obviamente, no lo aseguraba ni de la ruina ni de hacerse rico; solamente le minimizaba la m´ axima axima p´erdida erdida que podr´ p odr´ıa ıa soport s oportar. ar. La estrategia est rategia racional indicada indicad a por von Neumann, desde luego, no siempre es pr´actica. actica. Basta pensar en el juego del ajedrez o el p´oquer oquer para observar que un c´alculo alculo como ese podr´ıa ıa tomar siglos. Sin embargo, al comienzo, estas limitaciones eran de importancia secundaria. Lo sustan sustancia ciall era que existi existiera era una estrat estrategi egiaa optima o´ptima en cada caso, y que el juego entonces tuviera “soluci´ on”. on”. Von Neumann no estaba interesado en ayudarle a alguien en particular a ganar un juego. Ten´ en´ıa la conjetura que un an´ alisis alisis de la estructura general de los juegos ser´ıa ıa de importante valor matem´ atico, atico, y que la soluci´ on a ciertos problemas de juegos on podr´ıa ıa arrojar luz sobre algunas discusiones econ´ omicas y sociales. Es evidente que omicas los juegos de estrategias comparten ciertos elementos con la “vida real”: se deben tomar decisiones en cada momento y rara vez un jugador tiene el control total de las variables que determinan el resultado final. Por estas similitudes, a falta de otras, el estudio de las teor´ teor´ıas de interacciones interacciones ha venido teniendo una fruct´ fruct´ıfera relaci´ on con la comprensi´ on del comportamiento cotidiano. Fue el austriaco Oskar Morgenon stern (1902-197 (1902-1977) 7) el primer primer economist economistaa que clara y expl´ expl´ıcitamen ıcitamente te reconoci´ reconoci´ o que los agentes deben tener en cuenta la naturaleza interactiva de la econom´ıa ıa cuando ´ toman sus decisiones. El y von Neumann se encontraron en Princeton a finales de la d´ ecada ecada de 1930 y comenzaron una colaboraci´ on on que culmin´ o en el cl´ asico asico Theory of Games and Economic Behavior de de 1944. Con la publicaci´ on on de este monumental trabajo, la teor´ teor´ıa de juegos se recibi´ o como una disciplina discipl ina cient´ cient´ıfica. Todos los juegos que von Neumann y Morgenstern estudiaron en Theory of Games and Economic Behavior ten´ ten´ıan ıan varios elementos el ementos en com´ un: un: 1. Un conjunt conjuntoo finito de jugadores (que, como ya dijimos, pueden ser personas, animales, “entidades”, etc.) y cada jugador tiene a su disposici´ on on un conjunto finito de reglas (o estrategias) para jugar. 2. El juego termina despu´es es de un n´ numero u´mero finito de etapas. 3. Luego Luego de que el juego juego termina, termina, se le asigna un pago num´ num´erico erico a cada jugador (que, en general, es positivo si se ha ganado en el juego y negativo si se ha perdido), que a su vez es una suma ponderada de los pagos recibidos en cada una de las etapas previas. 4. Existen Existen posibl p osibles es “movimien “movimientos” tos” de la naturaleza; naturaleza; es decir, se permiten permiten ciertas formas de aleatoriedad en las decisiones de los jugadores. 5. Cada jugador jugador tiene tiene conocimiento completo (sim´etrico) etrico) de las reglas del juego y de los jugadores. Nuestros autores dieron en clasificar estos elementos con tres criterios: n´umero umero de jugadores, caracter´ caracter´ısticas de los pagos, y acuerdos antes de comenzar el juego. Los cap´ ca p´ıtul ıt ulos os III y IV de Theory of Games se se concentran en el estudio de los juegos de
17
Juegos No-Cooperativos con Informaci´on on Sim´ Si m´ etric et rica a
dos personas y suma cero (es decir, lo que pierde un jugador lo recibe el otro). El cap´ cap´ıtulo V estudia los juegos de tres personas p ersonas y suma cero. El VI, VII y VIII, los juegos generales de n personas y suma cero; de cuatro personas y suma cero; y cinco o m´ as as p ersonas y suma cero, respectivamente; respectivamente; y, al final, el cap´ cap´ıtulo XI lo dedican a los juegos generales de suma no-cero. A continuaci´ on presentamos, entonces, algunas on de las ideas b´asicas asicas del trabajo de von Neumann y Morgenstern.
Juegos de Dos Jugadores y Suma Cero En los juegos de dos jugadores y suma cero, que son, quiz´ as, as, el tipo de juego m´as as 1 simple que podemos encontrar , tenemos dos jugadores, 1 y 2, cada uno con un conjunto finito de estrategias a su disposici´ on, on, C 1 y C 2 ; y tambi´ tambi´en en cada uno con funciones de pago asociadas, π asociadas, π 1 y π 2 , que dependen no s´olo olo de su elecci´ on on particular sino tambi´ en en de la elecci´ on on del otro; es decir, π 1 y π2 son funciones con dominio C 1 × C 2 (el producto producto cartesiano cartesiano de C de C 1 y C 2 ) y recorrido en los n´ umeros umeros reales. Toda 2 esta informaci´ on se puede resumir en la siguiente bimatriz : on Jugador 2
Jugador 1
1
2
···
n
1
1 , π2 π11 11
1 , π2 π12 12
···
π11n , π12n
2
1 , π2 π21 21
1 , π2 π22 22
···
π21n , π22n
3
1 , π2 π31 31
1 , π2 π32 32
···
π31n , π32n
...
...
...
...
...
i
πi11 , πi21
πi12 , πi22
···
1 , π2 πin in
.. .
...
...
...
...
m
1 , π2 πm 1 m1
1 , π2 πm 2 m2
···
1 , π2 πmn mn
1 es el pago al jugador 1 cuando donde C donde C 1 ≡ { 1, 2, . . . , m }, C 2 ≡ { 1, 2, . . . , n }; πij 2 es el pago al jugador 2 cuando juega la estrategia i y su oponente juega j , y π ij juega la estrategia j y su oponente juega i. Pero si adem´ as as asumimos que 1 2 πij + πij =0
(Juego (Juego de suma cero)
1 = − π 2 , y la descripci´ para todo i = 1, 2, . . . , m; on on del m; j = 1, 2, . . . , n, n, entonces π ij ij juego dada por la tabla anterior ahora se simplifica: 1
¿O tal vez son los juegos de un unico u ´ nico jugador? El lector podr po dr´ ´ıa pensar quiz´ as as en “Robinson Crusoe” o en el “juego del solitario” para las cartas, pero estos son problemas fundamentales de elecci´on on y no de interacci´on. on. 2 Esta forma de ilustrar un juego recibe este nombre porque cada celda tiene dos n´umeros; umeros; en una matriz ordinaria cada celda contiene s´ olo olo uno.
18
Un Curso de Teor´ıa de Juegos Cl´asica
Jugador 2
Jugador 1
1
2
···
n
1
π11
π12
···
π1n
2
π21
π22
···
π2n
3
π31
π32
···
π3n
...
...
...
...
...
i
πi1
πi2
···
πin
.. .
...
...
...
...
m
πm1
πm2
···
πmn
1 = π2 donde π ij ≡ π ij − ij
El juego entonces consiste en que el jugador 1 escoge “entre filas” y el jugador 2 (simult´ aneamente) escoge “entre columnas”, ambos buscando maximizar sus pagos (jugadores racionales). Von Neumann y Morgenstern consideraban que los jugadores (racionales como eran) elegir´ıan de acuerdo con una particular regla: 1. El jugador 1 (jugador fila) escoger´ a la estrategia i que le maximiza el m´ınimo pago posible que le permite adquirir el jugador 2; es decir, resolver´ıa m´ ax m´ın πij i
j
encontrando lo que llaman la estrategia de maxmin y que le genera un pago v 1 que corresponde a la ventaja que el jugador 1 obtiene por jugar el juego. 2. Similarmente, el jugador 2 (jugador columna), sabiendo que su oponente seleccionar´ a la fila con m´ aximo pago, tratar´ a de minimizar esto con una adecuada escogencia de su columna (es decir, minimizar´ a sus p´erdidas), resolviendo m´ın m´ ax πij j
i
encontrando lo que llaman la estrategia de minmax y que le genera un pago de v2 , que, a su vez, es la ventaja que el jugador 2 obtiene por jugar el juego. Von Neumann y Morgenstern consideran que una posible soluci´ on consistente al juego es aquella estrategia ( i, j ) que satisfaga la condici´ on de maximizaci´ on de ganancia igual a minimizaci´ on de p´erdidas; es decir, v1 = m´ ax m´ın πij = m´ın m´ ax πij = v 2 i
j
j
i
A este valor lo llamaron un punto (de equilibrio) de silla 3 del juego o, simplemente, el valor del juego. 3
Podr´ıa el lector decir p or qu´e el nombre de “punto de silla”. Una gr´ afica sencilla ayudar´ıa.
19
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Ejemplo 1 (Davis [1983]). Supongamos que en cierto proceso electoral hay un aspecto referente a cu´al de dos ciudades (A o B) le ser´ a construido un sistema de transporte masivo. Hay solo dos candidatos a la presidencia y cada uno de estos debe anunciar a cu´a l de las dos ciudades se compromete a construirle el sistema de transporte, o evadir el tema en sus apariciones p´ ublicas. Cada candidato busca obtener el mayor porcentaje posible de los votos de las dos ciudades. Los votantes de las dem´as ciudades son indiferentes respecto al tema. Los porcentajes de votos que obtiene el candidato 1 dadas las elecciones de 1 y 2 aparecen en la matriz de la figura 1. As´ı, por ejemplo, si el candidato 1 se compromete a construirle el sistema de transporte masivo a la ciudad A, mientras el candidato 2 se compromete a constru´ırselo a B, cada uno obtendr´ıa el 50 % de los votos. Para encontrar el valor maxmin de este juego, inicialmente tomemos como dada la elecci´ on del candidato 1 y encontremos la estrategia de 2 que minimiza el pago de 1; as´ı, independientemente de la elecci´ on del candidato 1, el candidato 2 decide evadir el tema, con lo que los pagos m´ınimos para el candidato 1 (porcentajes de votaci´ on) son 40 %, 50 % o 40 %; como ´este debe ahora maximizar su pago m´ınimo, elegir´ a “construirle a B ”y as´ı, la repartici´ on del electorado ser´ a 50%50 %, con lo que el valor maxmin es, efectivamente, v 1 = 0,5. (Ver figura 1.)
Figura 1: Problema electoral Construirle a A
Construirle a B
Evadir el tema
Construirle a A
45 %
50 %
40 %
Construirle a B
60 %
55 %
50 %
Evadir el tema
45 %
55 %
40 %
Encontremos ahora el valor minmax; para las elecciones del candidato 2 “Construirle a A, Construirle a B” y “Evadir el tema”, los m´ aximos pagos para el candidato 1 son 60 %, 55 % y 50 %, respectivamente. Como el candidato 2 debe minimizar estos pagos, elige “Evadir el tema”, con lo que el valor minmax es v 2 = 0,5. Observemos que, en este juego, v1 = v 2 = 0,5.
Ejemplo 2 (lanzar la moneda). El juego de lanzar la moneda (matching pennies ), originalmente planteado por von Neumann y Morgenstern en 1944, consiste en dos jugadores que, simult´aneamente, eligen una cara de una moneda. Si en ambas monedas aparece cara , o en ambas aparece sello, el jugador 1 gana la moneda; pero si en una moneda aparece cara y en la otra sello, ser´a el jugador 2 el que la gana. Este juego es uno de dos jugadores y suma cero que puede representarse mediante la siguiente matriz:
20
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 2: Juego de lanzar la moneda Jugador 2 Cara
Sello
Cara
1
-1
Sello
-1
1
Jugador 1
Aqu´ı, π11 = 1, π12 = −1, π21 = − 1, π22 = 1, y v1 = m´ ax m´ın πij = m´ax{ π12 = − 1, π21 = − 1 } = − 1 i
j
v2 = m´ın m´ ax πij = m´ın{ π11 = 1, π22 = 1 } = 1 j
i
Sin embargo aqu´ı, obviamente, v1 = v2 y no existe valor minmax para este juego. M´ as adelante discutiremos por qu´ e sucede esto.
Ejemplo 3 (piedra-papel-tijera). ´ Este es el conocido juego infantil “piedra-papel-tijera” propuesto tambi´en por von Neumann y Morgenstern, en el que “piedra vence a tijera”, “tijera vence a papel” y “papel vence a piedra”, y es un empate en los otros casos. Podemos describir este juego en una matriz como la de la figura 3. Figura 3: Piedra-papel-tijera Jugador 2
Jugador 1
piedra
papel
tijera
piedra
0
-1
1
papel
1
0
-1
tijera
-1
1
0
Aqu´ı, v1 = m´ ax m´ın πij = m´ ax{ π12 = − 1, π23 = − 1, π31 = − 1 } = − 1 i
j
ax πij = m´ın{ π21 = 1, π32 = 1, π13 = 1 } = 1 v2 = m´ın m´ j
i
Tambi´en en este caso v1 = v 2 y no existe un valor minmax.
21
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Ejemplo 4 (otro ejemplo de von Neumann y Morgenstern). En la matriz de la figura 4 tenemos que el “valor del juego” est´ a bien definido, pues v1 = −1 = v2 es un punto de silla que se obtiene cuando el jugador 1 juega su estrategia B y el jugador 2 su estrategia A. Figura 4: Ejemplo de von Neumann y Morgenstern Jugador 2 Jugador 1
A
B
-2
1
B -1
2
A
Lo sucedido en los ejemplos cl´asicos de “lanzar la moneda” y “piedra-papel-tijera” oblig´ o a los autores del Theory of Games a tomar una decisi´ on: aceptaban el hecho de que los valores minmax no siempre existen (as´ı que, en general, cierta indeterminaci´ on estar´ıa presente en el an´ alisis de m´ ultiples situaciones de interacci´ on entre agentes racionales) o se deshac´ıan de la indeterminaci´ on mediante una modificaci´ on ingeniosa del proceso que conduce a la elecci´ on de la estrategia apropiada. Hasta ahora los problemas de decisi´ on mostrados establec´ıan que cada jugador deber´ıa razonar sobre cu´ al de las distintas alternativas posibles era la m´ as favorable (estas las llamaron “estrategias puras”). Ahora modificaron el escenario y colocaron a disposici´ on de cada jugador un conjunto de dados que lanzar´an para determinar la estrategia a seguir. As´ı, introdujeron un elemento probabil´ıstico en la toma de decisiones (estrategias mixtas). Pero no todo se deja a los dados. Von Neumann y Morgenstern asumen que cada jugador tratar´a de maximizar el valor esperado (matem´ atico) de sus pagos , en lugar de los pagos seguros, y luego se preguntan si, con estas modificaciones, el punto de silla existe. Pero esto ya von Neumann lo sab´ıa desde su trabajo de 1928: el punto de silla exist´ıa y, por tanto, el problema estaba bien determinado: ¡las estrategias mixtas no hab´ıan sido introducidas en vano! Formalmente, una estrategia mixta para el jugador 1 es un vector de probabilidades p = ( p1 , p2 , . . . , pm ), donde pi (i = 1, 2, . . . , m) es la probabilidad de que el jugador 1 juegue la estrategia i. Obviamente p i ≥ 0 para todo i y
m
pi = 1.
i=1
Similarmente, una estrategia mixta para el jugador 2 es un vector de probabilidades q = ( q 1 , q 2 , . . . , qn ), donde q j ( j = 1, 2, . . . , n) es la probabilidad de que el jugador 2 juegue la estrategia j. Desde luego, tambi´en q j ≥ 0 para todo j y
n
j=1
q j = 1. (Note-
mos que las estrategias puras pueden verse como casos particulares de las mixtas. As´ı, por ejemplo, ( 0, 0, 1, 0, . . . , 0 ) es la representaci´ on mixta de la tercera estrategia pura por parte de alguno de los jugadores).
22
Un Curso de Teor´ıa de Juegos Cl´asica
El concepto de valor esperado probabil´ıstico de una estrategia mixta es, simplemente, una valoraci´ on de los pagos que recibir´ıa el jugador en cada una de las estrategias puras, ponderada por las probabilidades de que estas sean elegidas. El pago esperado por el jugador 1 bajo la distribuci´ on de probabilidades p = ( p 1 , . . . , pm ) si el jugador 2 juega la estrategia j es E ( p, j ) = p 1 π1 j + p2 π2 j + · · · + pm πmj Se espera tambi´en aqu´ı que el jugador 1 escoja las probabilidades p de tal forma que resuelva m´ ax m´ın E ( p, j ) p
j
Similarmente, el jugador 2 recibir´ıa un pago esperado bajo la distribuci´ on q = ( q 1 , . . . , qn ) si el jugador 1 juega la estrategia i igual a E ( i, q ) = q 1 πi1 + q 2 πi2 + · · · + q m πim; y se espera entonces que el jugador 2 escoja las probabilidades q de tal forma que resuelva m´ın m´ ax E ( i, q ) q
i
Si p y q son tales que m´ ax m´ın E ( p, j ) = m´ın m´ ax E ( i, q ) p
j
q
i
diremos entonces que estas probabilidades son una soluci´ on al juego (o un punto de silla del juego) y a este valor lo llamaremos el valor (minmax) del juego. Veamos c´ omo se aplican los conceptos anteriores en juegos concretos. Ejemplo 5 (lanzar la moneda, otra vez). La justificaci´ on de las estrategias mixtas para este juego la dan von Neumann y Morgenstern de la siguiente manera: puesto que ninguna forma particular de “jugar” (cara o sello ) es mejor que otra, y si todo lo que importa es averiguar las intenciones del oponente, no tendremos manera de encontrar una soluci´on. Pero si el jugador no s´ olo intenta averiguar lo que el otro jugador va a mover, sino que tambi´ en se concentra en que no descubran sus intenciones, jugar “irregularmente” cara y sello podr´ıa ser una estrategia conveniente. Esto ultimo ´ es lo que se presenta como “ 12 de probabilidad de jugar cara ; y 12 de probabilidad de jugar sello ”. El punto aqu´ı es que este procedimiento “protege” de p´ erdidas. De todas formas, el pago esperado de jugar esta estrategia es cero para ambos. Para confirmarlo, grafiquemos el primer cuadrante donde el eje X est´ a determinado por la probabilidad p y el eje Y est´ a determinado por el pago esperado E ( p) del jugador 1.
23
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 5: lanzar la moneda E ( p)
E ( p, cara ) = 2 p − 1
p
1
1 2
E ( p, sello ) = −2 p + 1
Observemos que para el jugador 1, E ( p, cara ) = p(1 ) + (1 − p )( −1 ) = 2 p − 1 E ( p, sello ) = p( −1 ) + ( 1 − p )(1 ) = − 2 p + 1 La l´ınea resaltada, formada por los dos segmentos, es la gr´ afica de la funci´on E ( p ) = m´ın{ E ( p, cara ), E ( p, sello ) } =
2 p − 1 −2 p + 1
si p ≤ 1/2 si p ≥ 1/2
y el problema del jugador 1 es encontrar p que haga E ( p ) lo m´ aximo posible. Este valor ocurre en p = 1/2 y v1 = 0 que es el m´as alto pago esperado por el jugador 1, independientemente de lo que haga el jugador 2. El jugador 2 tiene un problema similar que se resuelve mediante el mismo tipo de an´alisis. Su soluci´ on muestra que, al igual que el jugador 1, puede dejarle su decisi´on a una moneda; es decir, adoptar q = 1/2. Luego el valor del juego es v 1 = v 2 = 0, que se alcanza cuando p = q = 1/2.
Ejemplo 6 (piedra-papel-tijera). La situaci´ on en piedra-papel-tijera es enteramente similar a la de “lanzar la moneda”. El sentido com´ un dice que la forma correcta de jugar este juego es jugar las tres alternativas cada una con probabilidad 13 . Y la teor´ıa lo corrobora. Dec´ıamos antes que la matriz de pagos en este caso era la de la figura 6.
24
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 6: piedra-papel-tijera [q 1 ]
[q 2 ]
[1 − q 1 − q 2 ]
piedra (Pi)
papel (Pa)
tijera (Ti)
[ p1 ]
piedra (Pi)
0
-1
1
[ p2 ]
papel (Pa)
1
0
-1
[1 − p1 − p2 ]
tijera (Ti)
-1
1
0
All´ı, para el jugador 1, si p = ( p1 , p2 , 1 − p1 − p2 ) y q = ( q 1 , q 2 , 1 − q 1 − q 2 ) son las probabilidades de juego de los jugadores 1 y 2, respectivamente, entonces E ( p, P i ) = p 1 ( 0 ) + p2 (1 ) + (1 − p1 − p2 )( −1 ) E ( p, P a ) = p 1 ( −1 ) + p2 (0 ) + (1 − p1 − p2 )( 1 ) E ( p, T i ) = p 1 ( 1 ) + p2 ( −1 ) + ( 1 − p1 − p2 )( 0 ) Luego, E ( p ) = m´ın{ E ( p, P i ), E ( p, P a ), E ( p, T i ) } = m´ın{ p1 + 2 p2 − 1, −2 p1 − p2 + 1, p1 − p2 }
=
p1 + 2 p2 − 1
si
0 ≤ p 1 ; p2 ≤ 13 ; o´ si 0 ≤ p 2 ≤ 23 − p1
−2 p1 − p2 + 1
si
1 3
≤ p 1 ≤ 1,
2 3
− p1 ≤ p 2 ≤ 1
p1 − p2
si 0 ≤ p 1 ≤ 13 ,
2 3
≤ p 2 ≤ 1
1 3
≤ p 1 ≤ 23 ,
Pero en tales regiones, las tres funciones p 1 + 2 p2 − 1, −2 p1 − p2 + 1, y p1 − p2 son negativas o cero. Luego para encontrar m´ ax E ( p ) debemos buscar d´onde se anula E ( p ); y esto se logra igualando las tres funciones anteriores: p1 + 2 p2 − 1 = − 2 p1 − p2 + 1 = p 1 − p2 De este sistema de ecuaciones con dos inc´ ognitas se encuentra, f´ acilmente, que p 1 = 1 1 p2 = 3 y, por tanto, tambi´en 1 − p1 − p2 = 3 . Similarmente para el jugador 2. De esta manera, el valor de este juego es v 1 = v 2 = 0.
Ejemplo 7. Encontremos el valor del juego de la figura 7.
25
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 7: Ejemplo 7 Jugador 2 Jugador 1
a
b
c
[ p]
A
3
4
1
[1 − p]
B
2
0
3
Soluci´ on Para el jugador 1 se tiene que E ( p, a ) = 3 p + 2( 1 − p ) E ( p, b ) = 4 p E ( p, c ) = p + 3( 1 − p ) y estas funciones lineales est´ an ilustradas en la siguiente figura: E ( p)
E ( p, b ) E ( p, a )
E ( p, c )
1 2
1
p
E ( p ) = m´ın{E ( p, a ), E ( p, b ), E ( p, c )} All´ı, la l´ınea punteada muestra la funci´ on E ( p ) formada por dos segmentos lineales: E ( p ) =
4 p si 0 ≤ p ≤ 1/2 p + 3( 1 − p ) si 1/2 ≤ p ≤ 1
Claramente, E ( p ) es m´aximo cuando p = 1/2 y, as´ı, v 1 = 2. Similarmente, para el jugador 2 se tiene que q = 1/2 y v 2 = 2. El valor del juego es entonces v1 = v 2 = 2.
Ejemplo 8. Los grupos armados irregulares de “izquierda” y “derecha” de un pa´ıs est´ an decidiendo de forma independiente sobre el n´ umero de comandos que van a enviar a cada uno de dos frentes de batalla: X e Y . El grupo de “derecha” cuenta con 2 comandos
26
Un Curso de Teor´ıa de Juegos Cl´asica
armados, mientras que el de “izquierda” cuenta con 4. El grupo armado que env´ıe m´ as comandos a un frente dado gana el combate en ese frente. En caso de que env´ıen el mismo n´ umero de comandos hay un empate. En la matriz de la figura 8 aparecen las victorias del ej´ercito de “derecha” para las posibles decisiones de ambos ej´ercitos sobre el n´ umero de comandos enviados al frente X . Figura 8: Victorias de cada ej´ercito Ej´ercito de “Izquierda”
Ej´ercito de “Derecha”
0
1
2
3
4
0
-1
-2
-1
0
0
1
0
-1
-2
-1
0
2
0
0
-1
-2
-1
As´ı, por ejemplo, si el ej´ ercito de “derecha” env´ıa 2 comandos al frente X , y el ej´ ercito de “izquierda” env´ıa solo 1, el ej´ ercito de “derecha” gana en el frente X pero, entonces, como el ej´ercito de “izquierda” env´ıa sus otros 3 comandos al frente Y , este u ´ ltimo gana en tal frente, con lo que se genera un empate, otorgando un pago de cero para el ej´ ercito de “derecha”. Para resolver este juego, inicialmente observemos que para el ej´ ercito de “izquierda” enviar un comando al frente X genera pagos al menos tan deseables como no enviar comandos, independientemente de la elecci´ on de su oponente. De forma similar, enviar tres comandos genera pagos al menos tan deseables como enviar cuatro. Por tal raz´ on, el ej´ ercito de “izquierda” nunca enviar´ a 0 ni 4 comandos al frente X . Como esta informaci´ o n es com´ un a ambos ej´ercitos, el juego puede reducirse a la matriz de la figura 9. Figura 9: Juego reducido Ej´ercito de “izquierda”
Ej´ercito de “derecha”
[1 − q 1 − q 2 ]
[q 1 ]
[q 2 ]
1
2
3
[ p1 ]
0
-2
-1
0
[ p2 ]
1
-1
-2
-1
[1 − p1 − p2 ]
2
0
-1
-2
27
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Con un procedimiento igual al que hemos desarrollado encontramos para el jugador 1, que E ( p, 1) = − 2 p1 − p2 E ( p, 2) = − 1 − p2 E ( p, 3) = 2 p1 + p2 − 2 y, para el jugador 2, que E (0, q ) = − 2q 1 − q 2 E (1, q ) = − 1 − q 2 E (2, q ) = 2q 1 + q 2 − 2 Buscando los puntos donde E ( p) alcanza su valor m´aximo, que resulta de igualar los pagos esperados para las tres posibles estrategias de su oponente, se obtiene p1 = 1/2; p2 = 0;1 − p 1 − p 2 = 1/2; de forma an´aloga, para el jugador 2, encontramos q 1 = 1/2; q 2 = 0; 1 − q 1 − q 2 = 1/2, luego el valor del juego es v 1 = v 2 = − 1. La conclusi´ on de lo anterior es que, solo con la informaci´ on de que disponen, el ej´ ercito de “derecha” debe optar por “lanzar una moneda” para determinar si va con todos sus comandos al frente X o al frente Y , mientras que el ej´ercito de “izquierda” env´ıa 3 comandos a un frente y 1 al otro; para decidir a cu´ al frente enviar m´ as comandos tambi´en debe “lanzar una moneda”.
El Teorema Minmax (von Neumann [1928]) Cuando tenemos dos jugadores, 1 y 2, el primero con m posibles estrategias, y el segundo con n estrategias, y el juego es de suma cero (lo que pierde un jugador lo gana el otro), se acostumbra llamarlo un juego de matriz pues, obviamente, la descripci´on del juego es una matriz m × n de la forma
A =
π11 .. . πm1
··· ··· ···
π1n ... πmn
donde la entrada π ij representa el pago recibido por el jugador 1 cuando ´este escoge la estrategia i y su oponente, el jugador 2, escoge la estrategia j. Aun as´ı, la existencia de un punto de equilibrio de silla no es, en absoluto, obvia. Si el jugador 1 asigna las probabilidades p = ( p 1 , . . . , pm ) sobre sus respectivas estrategias, y el jugador 2 asigna sobre sus respectivas estrategias las probabilidades q = ( q 1 , . . . , qn ), entonces el pago esperado por el jugador 1 si juega la estrategia i y su oponente la estrategia j es π ij pi q j . As´ı que ex ante , sin condicionamiento n m sobre las jugadas de los jugadores, el pago esperado total es j=1 i=1 πij p i q j .
28
Un Curso de Teor´ıa de Juegos Cl´asica
Esto puede escribirse m´as f´ acilmente en notaci´ on matricial como qAp T .4 Es decir, lo que el jugador 1 busca maximizar y el jugador 2 minimizar Por ejemplo, en el juego de “lanzar la moneda”,
1 −1 A = 1 −1
se tiene que
1 −1 qAp = ( q, 1 − q ) −1 1 T
p 1 − p
= ( q, 1 − q ) · ( 2 p − 1, 1 − 2 p ) = 2 pq − q + 1 − 2 p − q + 2 pq = ( −2 + 4q ) p − 2q + 1;
luego si el jugador 1 quiere minimizar este valor controlando p, entonces har´ıa lo siguiente: 1. Escoger p = 1 si −2 + 4q > 0; es decir, si q > 1/2. 2. Escoger p = 0 si −2 + 4q < 0; es decir, si q < 1/2. 3. Escoger cualquier p si q = 1/2. Similarmente, si el jugador quiere minimizar el mismo valor qAp T = ( −2 + 4 p )q − 2 p + 1, har´ıa lo siguiente: 1. Escoger q = 1 si −2 + 4 p < 0; es decir, si p < 1/2 2. Escoger q = 0 si −2 + 4 p > 0; es decir, si p > 1/2 3. Escoger cualquier q si p = 1/2 Para lograr ambos objetivos , claramente, la soluci´ on es que los dos jugadores escojan 1 ∗ ∗ 2 como su probabilidad; es decir, p = q = 1/2. Observemos que el valor del juego en tal caso es, efectivamente, q ∗ Ap∗T = 0. Regresando al problema general, hemos entonces entendido que el jugador 1 ha garantizado que ganar´ a al menos la cantidad m´ ax m´ın qAp T p
q
y no puede esperar ganar m´as; y el jugador 2 hace lo opuesto: escoger´ a de tal manera que no pierda m´ as de m´ın m´ ax qAp T q
4
Donde p T significa el vector p traspuesto.
p
29
Juegos No-Cooperativos con Informaci´on Sim´ etrica
y no espera mejorar m´as esta situaci´ on. Luego si queremos asegurar que la cantidad que 1 busca ganar coincida con la que 2 est´a dispuesto a perder, la existencia de p ∗ y q ∗ tales que resuelvan m´ ax m´ın qApT = m´ın m´ ax qAp T p
q
q
p
deber´ıa probarse. Como dijimos, la existencia de este punto de silla fue probado por von Neumann en 1928 (16 a˜ nos antes de su Theory of Games and Economic Behavior ) en un art´ıculo que, en su momento, pas´ o desapercibido: “Zur Theorie der Gesellschaftspiele ”, inicialmente publicado en “Mathematische Annalen ” y traducido al ingl´es en 1959 en Contributions to the Theory of Games (A. W. Tucker y D. Luce [eds.]). En versi´on moderna dice as´ı: Teorema 1 (Teorema Minmax (von Neumann [1928])). Para cualquier matriz Am×n , existen distribuciones de probabilidad p ∗ ∈ m tales que R m´ ax m´ın q ∗ Ap∗T = m´ın m´ ax q ∗ Ap∗T ; p
q
q
n
R
y q ∗ ∈
p
es decir, el valor minmax sobre todas las estrategias mixtas iguala al valor maxmin; m´ as a´ un, si el m´ aximo en el lado izquierdo se alcanza en p ∗ y el m´ınimo en el lado derecho se alcanza en q ∗ , entonces ninguno querr´ a cambiar su estrategia unilateralmente; es decir, q ∗ ApT ≤ q ∗ Ap∗T ≤ qAp∗T para todos los vectores de probabilidad p, q . Demostraci´ on. Ver von Neumann [1928] Sin embargo, debemos hacer aqu´ı la observaci´ on que el teorema minmax hab´ıa sido previamente verificado por Emile Borel en 1924, pero solo para casos especiales: nunca obtuvo una prueba general como la que von Neumann alcanz´o en 1928. Por muchos a˜ nos el teorema minmax fue considerado como la “pieza maestra” de la teor´ıa de juegos. Y no deber´ıa reducirse su aporte. De hecho, el concepto fundamental de la teor´ıa de juegos de suma no-cero (el equilibrio de Nash [1950b]) es un resultado del teorema del minmax, y la prueba original de la existencia del equilibrio de Nash se model´ o imitando la conocida prueba del minmax . Tambi´ en, como veremos, el concepto de minmax aparece en el estudio de los juegos repetidos y en la teor´ıa de los juegos coalicionales, y es pensable que si un concepto aparece en lugares aparentemente diferentes en la teor´ıa entonces, quiz´ as, deber´ıamos creer que algo importante hay en ´el.
30
Un Curso de Teor´ıa de Juegos Cl´asica
Ejercicios 1. 1. Encuentre los valores de los siguientes seis juegos:
0 5 , 1 3
−3 −2 −1 0 1 , −1 0 −3 −1
5 3 2 , 3 4 0
2 1 4 3 2 −1 , 0 3 2
2 −1 0 0 0 1 0 −1 −1 1 −2 1
0 2 1 0
4 5 3 1 2 1 5 3 3
1 1 1 2
2. ¿Para qu´ e valores de α los siguientes juegos tienen un valor en estrategias puras?
α −1 , 0 −3
0 α α 3
3. Para el juego de la matriz
−1 2 −2 0 1 −2 −1 3 2 0 2 1 0 −1 −2 0 0 2 1 1 1 −1 0 −2 1
verifique que p = (5/52, 0, 11/52, 17/26, 1/26) q = (21/52, 3/13, 0, 3/52, 4/13) y v = 19/52 es una soluci´ on. 4. Para el juego de la matriz
0 2 3/2 2 0 1/2
encuentre el valor, la estrategia o´ptima para el jugador 1, y dos estrategias ´optimas para el jugador 2.
31
Juegos No-Cooperativos con Informaci´on Sim´ etrica
5. (Ross [2002]) Los jugadores A y B enfrentan el siguiente juego. A escribe el n´u mero 1 o el 2, y B debe elegir entre uno de estos. Si el n´ umero que A ha escrito es i y B adivina correctamente, B recibe i unidades de A. Si B falla, entonces le paga 3/4 a A. Si B aleatoriza su decisi´ on, eligiendo 1 con probabilidad q y 2 con probabilidad 1 − q , determine su ganancia esperada si a. A escribe 1, y b. A escribe 2. Encuentre el valor de q que maximiza el menor valor posible de la ganancia de B. ¿Cu´ al es este valor maxmin? Considere ahora que el jugador A escribe 1 con probabilidad p y 2 con probabilidad 1 − p. Encuentre el valor minmax. 6. Suponga que al inicio de una semana hay 2 temas de actualidad que interesan al p´ ublico: el intercambio de rehenes entre los dos bandos de una guerra, y la nueva pol´ıtica gubernamental contra el desempleo. Las dos revistas m´ as importantes del pa´ıs est´ an decidiendo cu´ al de las dos noticias exhibir´ an en su portada. El 60 % de los compradores de revistas est´ a interesado principalmente en el intercambio de rehenes, mientras el 40 % restante en la pol´ıtica contra el desempleo. Los compradores potenciales solo tienen en cuenta la portada de la revista para realizar su elecci´on. En caso de que ambas elijan la misma portada, se reparten por mitades el porcentaje de la poblaci´ on interesada en el tema; en caso de que elijan portadas diferentes, cada una vende todas las revistas a los compradores interesados. a. Presente la matriz de este juego. b. Encuentre el valor de este juego. c. Explique su respuesta. 7. Puede verse que en el juego de suma cero (juego de matriz) de “lanzar la moneda”, la matriz A es sim´etrica: AT = A. Sin embargo, en el juego de “piedra-papel-tijera”, la matriz
A =
0 −1 1 1 0 −1 1 0 −1
es antisim´etrica, pues AT = −A. Esto tiene un significado que no deber´ıa escapar al comentario. Cuando la matriz es antisim´ etrica los agentes enfrentan similares decisiones ya que a ij = − aij y lo que gana 1 por jugar i, mientras 2 juega j, que es a ij , es exactamente igual a lo que recibe 2 por jugar i, mientras 1 juega j, que es −aij . A este tipo de juegos suele llam´arseles juegos justos . Es natural que el valor esperado en tales casos sea q ∗ Ap∗T = 0 y p∗ = q ∗ . Claramente el juego de “lanzar la moneda” no es justo. ¿Por qu´ e?
32
Un Curso de Teor´ıa de Juegos Cl´asica
III
.
Juegos Est´ aticos con Informaci´ on Sim´ etrica
Ahora entendemos que el comportamiento estrat´egico de dos o m´ as agentes podr´ıa surgir cuando los pagos que estos obtienen y, m´ a s a´ un, la decisi´ o n de cada uno de ellos, depende de lo que estos esperan que sean las decisiones de los dem´as. Despu´ es de von Neumann y Morgenstern (e inspirada en su trabajo) la teor´ıa de juegos modela esta situaci´ on por medio del concepto de juego en forma estrat´egica (o forma normal). Un juego en forma estrat´ egica est´ a conformado b´ asicamente por tres elementos: a. Los jugadores (agentes) b. Las estrategias disponibles c. El pago que cada jugador recibe por cada posible combinaci´ on de estrategias Identificar a los jugadores es, en principio, f´acil. Determinar las estrategias disponibles para cada jugador (tambi´en llamadas estrategias puras ) es el paso clave en la construcci´ on del modelo, ya que el rango de acciones disponibles para cada jugador puede ser muy amplio y en muchas ocasiones no es totalmente conocido. La selecci´ on de las acciones conocidas por los agentes depende del prop´ osito del estudio. Para seleccionar la estructura de pagos (o funci´ on de utilidad) se debe examinar cada una de las posibles combinaciones de estrategias disponibles para los jugadores y especificar qu´ e le sucede a cada jugador en cada caso, asign´ andole cierto valor. Esta valoraci´ on num´erica algunas veces resulta complicada, raz´ on por la cual deben hacerse un par de aclaraciones a este respecto: primero, el car´ acter de los pagos (como en cualquier funci´on de utilidad) se refiere (dentro de la tradici´ on von NeumannMorgenstern-Savage) a la representaci´ on num´ erica de un ordenamiento previo de las preferencias respecto a los posibles estados resultantes del juego; as´ı, por ejemplo, cualquier transformaci´ on lineal de los pagos no altera el resultado del juego. Por otro lado, un juego debe considerarse, a priori, como una descripci´ on cualitativa de cierta situaci´ on, por lo cual sus resultados cuantitativos no establecen m´ as que ciertas relaciones entre probabilidades, porcentajes de poblaci´ on, creencias, etc. En general, no deber´ıan extraerse conclusiones num´ericas de los fen´ omenos modelados de esta forma; o, al menos, esto es cierto, seguramente, en los casos m´ as elementales. Con base en las nociones de jugadores, espacios de estrategias y funciones de pago podemos, entonces, definir formalmente lo que es un juego en forma estrat´ egica. Definici´ on 1. (Juego finito en forma estrat´ egica [Borel [1921], von Neumann [1928]])
egica (o normal) es una 3n-tupla a. Un juego finito en forma estrat´ Γ = (N, (C i )i∈N , (ui )i∈N ) donde:
33
Juegos No-Cooperativos con Informaci´on Sim´ etrica
- N = {1, . . . , n} es el conjunto de jugadores - C i es el conjunto finito5 de estrategias puras para el jugador i ∈ N - ui : ×ni=1 C i → R es la funci´on de pagos (utilidad) para el jugador i ∈ N que asigna un pago (n´ umero real) a cada combinaci´ on de estrategias (c 1 , . . . , cn ), n donde el producto cartesiano ×i=1 C i = C 1 × C 2 × ... × C n es el conjunto de estrategias conjuntas6 b. Un juego finito en forma estrat´egica Γ = (N, (C i )i∈N , (ui )i∈N ) es un juego con informaci´ on sim´etrica 7 o completa8 si Γ es conocimiento com´ un 9 . Es decir, todos los jugadores conocen Γ, cada uno sabe que los dem´ as conocen Γ, cada uno sabe que los dem´ as saben que ´el conoce Γ, etc. La representaci´ on m´ as t´ıpica de un juego es aquella que comprende s´olo dos jugadores que escogen entre un n´umero peque˜ no de estrategias diferentes descritas mediante una bimatriz . En la bimatriz, las celdas contienen los pagos de cada jugador para las posibles combinaciones de estrategias. La figura 10, utilizando una bimatriz, ilustra un juego particular conformado por dos jugadores, “pa´ıs grande” y “pa´ıs peque˜ no”, cada uno de los cuales dispone de dos estrategias: “armarse” (a ) y “permanecer desarmado” (pd ).
Figura 10: Dilema de seguridad Pa´ıs peque˜no
a
pd
0,-2
5,-5
pd -2,2
3,3
Pa´ıs grande
a
a ≡ armarse;
pd ≡ permanecer desarmado
Por convenci´ on, el primer puesto en cada celda corresponde al pago del jugador fila (en este caso, “pa´ıs grande”) y el segundo corresponde al pago del jugador columna (en este caso, “pa´ıs peque˜ no”). 5
De all´ı la condici´on de finitud del juego. Observemos c´ omo la funci´ on de utilidad captura la noci´on de “interacci´ on estrat´egica”; es decir, el pago que un agente recibe al realizar su propia acci´on depende tambi´en de las acciones de los dem´ as. 7 Una interpretaci´on est´ andar subyacente a la definici´ on de un juego finito en forma estrat´egica con informaci´ on completa es la de que el grupo de jugadores elijan sus estrategias simult´aneamente; o, secuencialmente pero sin que ninguno de los dos jugadores sepa qu´e estrategia eligi´ o su adversario en el momento de hacer su elecci´ on. 8 T´ermino acu n ˜ado por Luce y Raiffa [1957]. 9 T´ermino acu˜ nado por D.K. Lewis [1964]. 6
34
Un Curso de Teor´ıa de Juegos Cl´asica
Todo juego en bimatriz es, a menos que se diga algo distinto, un juego con informaci´ on completa pero imperfecta . La imperfecci´ on en la informaci´on proviene de la hip´ otesis impl´ıcita de que los agentes toman sus decisiones, o bien simult´ aneamente, o sin que ninguno conozca la decisi´ on del otro, hasta tanto ambas decisiones hayan sido tomadas. La completitud en la informaci´ on proviene de la hip´ otesis de conocimiento com´ un del juego por parte de los jugadores. Teniendo presente esto, analicemos, entonces, el “dilema de seguridad”. Si ambos pa´ıses eligen “armarse”, “pa´ıs grande” no resulta afectado ni beneficiado, pero “pa´ıs peque˜ no” incurre en una p´erdida porque, digamos, podr´ıa haber asignado los recursos destinados a armarse a una actividad diferente que generara mayor bienestar para la sociedad del que genera haberse armado, dado que su vecino grande tambi´ en lo hizo. En caso de que ambos decidan “permanecer desarmados”, ambos se ven beneficiados por haber detenido una eventual costosa carrera armamentista. En caso de que uno de los dos se arme y el otro no, el pa´ıs que se arma obtiene un beneficio igual a la p´ erdida del otro.
Ejercicios 2. Para cada uno de los juegos finitos en forma estrat´egica que se presentan a continuaci´ on, describa, si es posible, alguna situaci´ on que se ajuste al juego presentado:
A
B
.
Q
1,1
-5,-5
A 10,10
0,0
C
B 0,0
3,3
Q 5,-5
R
IV
C
D
C
-10,-10
F
R 4,4
4,10
C 4,4
1,5
D -2,0
3,3
G 5,1
2,2
Principios-Soluci´ on Fundamentales
Una vez reducida la interacci´on entre los agentes a un juego en forma estrat´egica, el siguiente paso es “resolver el conflicto”; es decir, resolver el juego. Hacer esto significa establecer los principios que seguir´an los agentes al escoger las estrategias e indicar, en consecuencia, las acciones que los agentes podr´ıan tomar.
Juegos No-Cooperativos con Informaci´on on Sim´ Si m´ etric et rica a
35
Todo principio de soluci´ on dentro de la vasta literatura en teor´ on teor´ıa de juegos cl´ asica est´ a sustentado en la siguiente hip´ otesis: otesis: los agentes son “racionales”, en el sentido de que siempre siempre prefieren prefieren resultados con pagos altos a aqu´ellos ellos con pagos bajos bajos . Este principio de racionalidad est´ a en el coraz´ on on del modo de an´ alisis alisis de la teor´ teor´ıa de juegos j uegos cl´ asica y dice, esencialmente, que cada agente toma la decisi´ asica on on que le d´e mayores pagos, dada su creencia sobre lo que har´ an an los otros agentes. Los principios de soluci´ on on m´ as as utilizados utiliza dos en la teor´ teor´ıa cl´ asica pueden resumirse de la asica siguiente forma. a. Primer principio de soluci´ on: estrategias estrictamente dominantes on: Una estrategia par a un jugador j ugador es aqu´ella ella que al ser elegida elegi da estrategia estrictamente dominante para le otorga un mayor pago que cualquier otra estrategia de su conjunto de estrategias posibles, pos ibles, sin impo i mportar rtar qu´e elecci´ el ecci´ on on hagan los dem´ as jugadores. De forma similar, una as estrategia es estrictamente dominada para un jugador si existe otra que le genera mayores pagos, independientemente de las acciones que tomen sus oponentes. Definici´ on on 2 (Dominancia estricta en estrategias puras). puras). En un juego finito en forma estrat´ egica egica Γ = (N, (C i )i∈N , (ui )i∈N ), la estrategia pura ci del jugador i domina estrictamente a otra estrategia c i del mismo jugador si, y s´olo olo si, ui (ci , c−i ) > ui (ci , c−i ) para cualquier c−i de los dem´ as as jugadores, donde 10 c−i = (c1 , . . . , ci−1 , ci+i , . . . , cn ) . Definici´ on on 3 (Dominancia (Dominan cia d´ebil ebil en estrategia es trategiass puras) p uras).. En un juego finito en forma for ma estrat´ estra t´egica egica Γ = (N, (N, (C i )i∈N , (ui )i∈N ), cuando la utilidad proveniente de elegir la estrategia ci es mayor o igual que que la utilidad proveniente de elegir la estrategia ci dado cualquier c−i (es decir, cuando ui (ci , c−i ) ≥ ui (ci , c−i ) ebilmente ebilmen te a la estrategia ci y, para todo c−i ) decimos que la estrategia ci domina d´ ebi lmente te dominada domi nada . por tanto, esta ultima u´ltima es una estrategia d´ebilmen Con base en estas nociones, podr´ıamos ıamos describir el primer principio b´ asic as icoo as´ı:
Siempre que sea posible, un jugador escoger´ a estrategia estrategiass estrictamente dominantes y no elegir´ a ninguna que sea estrictamente dominada. Ejemplo 9 (Dominancia 9 (Dominancia en el dilema de seguridad). seguridad). Analicemos, Analicem os, con co n el criterio de dominancia domi nancia estricta, estricta , el juego de d e “pa´ıs ıs grande” gra nde” y “pa´ “pa´ıs peque˜ no” discutido en la secci´ no” on anterior (ver figura 10). Una vez asumimos que on el comportamien comportamiento to de los individuos individuos es racional racional en el sentido sentido dicho, dicho, podr´ podr´ıamos predecir la estrategia que “pa´ “pa´ıs grande” escoger´ escoger´ıa. En este juego, dado que “pa´ “pa´ıs grande” siempre obtiene un mayor beneficio arm´ andose que permaneciendo desarandose obtiene 0 o 5; y permaneciendo desarmado -2 o 3), es posible andose mado (arm´ predecir que jugar´a la estrategia armarse ya que ´esta esta es mejor mejo r para par a ´el el sin importar aqu´ı que la estrategia armarse “domina estricqu´ qu ´e haga ha ga “pa´ıs ıs peque˜ pequ e˜ no”. Diremos aqu´ tamente” a la estrategia permanecer “pa´ıs permanecer desarmado desde el punto de vista de “pa´ 10
Obs´ervese ervese que en c −i se ha retirado la entrada de i , c i .
36
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
grande”. grande”. Notemos, Notemos, sin embargo, embargo, que todav´ todav´ıa no podemos afirmar afirmar nada acerca acerca del comportamie comp ortamiento nto de “pa´ “pa´ıs peque˜ pequeno” n˜o” ya que ninguna de sus estrategias domina a la otra: su mejor elecci´ on depende de la elecci´on on on de “pa´ıs ıs grande”. gran de”.
Ejemplo 10. Consideremos el siguiente ejemplo que describe alguna situaci´ on on interactiva que es representada por la siguiente bimatriz: Jugador 2 Jugador 1
a2
b2
a1 8, 8, 5
6,4
b1 7, 7 ,3
5,2
Aqu´ı, N = {1, 2}, C 1 = {a1 , b1 }, C 2 = {a2 , b2 } u1 (a1 , a2 ) = 8, u1 (a1 , b2 ) = 6, u1 (b1 , a2 ) = 7, u1 (b1 , b2 ) = 5 u2 (a1 , a2 ) = 5, u2 (a1 , b2 ) = 4, u2 (b1 , a2 ) = 3, u2 (b1 , b2 ) = 2 Este juego muestra que tanto el jugador 1 como el jugador 2 tienen una estrategia estrictame estrictamente nte dominante. dominante. Si el jugador jugador 1 elige su estrategia estrategia a 1 siempre obtendr´ a un pago pago ma mayo yorr que si elige elige su estrat estrategi egiaa b1 , independien independienteme temente nte de la elecci´ elecci´ on o n que realice el jugador 2. Haciendo el mismo an´ alisis para el jugador 2, encontramos que alisis su estrategia a2 domina estrictamente a su estrategia b2 . As´ı, ı, se p odr od r´ıa se˜ senalar n˜alar que el resultado del juego ser´ a la elecci´ on on de las estrategias (a (a 1 , a2 ).
Ejemplo 11 (El 11 (El Dilema del Prisionero [Albert W. Tucker [1950]). [1950]). ] Uno de los juegos m´ as as importantes de la teor´ teor´ıa de juegos cl´ asica asica es el dilema del prisionero. El juego consiste, en su versi´on on est´ andar, en lo siguiente: dos sospechosos andar, de un delito son detenidos y ubicados en celdas diferentes de tal manera que no puedan comunicarse. La pena para el delito son cinco a˜ nos nos de prisi´on. o n. La unica u ´nica forma en que las autoridades pueden condenar a los sospechosos es haciendo que al menos uno de ellos confiese. La descripci´on on del juego es la siguiente: si ambos sospechosos confiesan, la sentencia ser´a de cuatro a˜ nos nos de c´ arcel arcel para cada uno. Si ninguno de los dos confiesa, la sentencia ser´ a de tan s´ olo o lo un a˜ no n o en la c´ arcel arcel para cada uno, dada la falta de pruebas para para realizar una condena. Y si uno confiesa y el otro no, el que confiesa ser´ a puesto en libertad libertad p or colaborar con la justicia justicia mientras mientras el otro ser´ a sentenciado a los cinco a˜ nos nos de prisi´ on. on. El juego j uego en su s u forma f orma estrat´egica egica es como aparece en la bimatriz de la figura 11.
37
Juegos No-Cooperativos con Informaci´on on Sim´ Si m´ etric et rica a
Figura 11: Dilema del Prisionero Sospechoso 2 Sospechoso 1
c
nc
c -4,-4,-44
0,-5 0,-5
nc -5, -5,00
-1,-1,-11
confesar; nc ≡ no confesar c ≡ confesar; nc
Para resolver el juego, bastar´ a eliminar estrategias estrictamente dominadas: observemos que para ambos jugadores confesar domina estrictamente a no confesar . on predecible predecible por eliminaci´ De modo que la soluci´ on on de estrategia estrategiass estrictame estrictamente nte dominadas es (confesar, confesar) con pagos de -4 para cada uno (es decir, 4 a˜ nos nos de c´arcel), arcel), que no es necesariamente la “mejor” elecci´on on de los jugadores: si ninguno confesar conf esaraa obtendr´ obt endr´ıan ıan ambos solo solo un a˜ no no de c´arcel, arcel, en lugar de los cuatro a˜ nos nos a que son condenados condenad os a ra´ ra´ız de d e su confesi´on. on. Sobre esta aparente paradoja volveremos m´ as as adelante.
Ejemplo 12 (Juego 12 (Juego del Ultim´ atum). atum). Este es un juego de dos individuos, uno de los cuales debe hacer una oferta al otro acerca de la repartici´ on de 4 unidades monetarias11 . Las propuestas que el oferon ente puede hacer son una repartici´on on equitativa (E (E ) o una en la que ´el el se vea vea m´ as as favorecido (F (F ). ). En caso de que la oferta sea equitativa, es llevada a cabo independientemente de lo que planee hacer el jugador 2 quien, en caso de que deba jugar, s´ olo olo puede decidir si acepta (A) o no acepta (N ) la oferta recibida. Con el fin de eliminar del juego su apariencia secuencial, supongamos, por ahora, que cada uno debe tomar su decisi´ on de antemano y que los resultados est´ on an an determinados por la combinaci´ on de sus elecciones. Representamos este juego por medio de la bimatriz on de la figura 12. En este juego, la estrategia A del jugador 2 domina d´ ebilmente ebilmente a su estrategia N . Si eliminamos esta estrategia, la predicci´ on o n es (F, (F, A) y reciben pagos de 3 para el jugador 1 y de 1 para el jugador 2; sin embargo, como veremos, no es conveniente eliminar elim inar por “dominan “dom inancia cia d´ebil” ebi l” ninguna de las estrategias de este juego. Ya veremos por qu´ e resolver un juego a trav´ trav´es es de este criterio nos puede conducir a descartar soluciones solucio nes tambi´en en factibles. factibl es.
El principio de soluci´ on on de dominancia estricta es bastante d´ebil ebil ya que, por ejemplo, en el caso de “pa´ “pa´ıs grande” y “pa´ “pa´ıs peque˜ no” no” (figura 10) s´ olo olo nos dice lo que 11
Imaginemos cuatro millones de pesos.
38
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 12: Juego del ultim´ atum Jugador 2 Jugador 1
A ≡ Acepta N ≡ No acepta
A
N
E 2,2
2,2
F 3,1
0,0
E ≡ Oferta equitativa F ≡ Oferta favorable
har´ a “pa´ıs grande”. Recordemos que en tal caso no es posible utilizar este concepto para predecir el comportamiento de “pa´ıs peque˜ no”; como dijimos, ninguna de las estrategias disponibles a “pa´ıs peque˜ no” domina estrictamente a la otra; cualquier acci´ on de este pa´ıs p odr´ıa ser mejor o peor que la otra, dependiendo de lo que haga “pa´ıs grande”. Basados en esto, establecemos el segundo principio-soluci´ on. b. Segundo principio de soluci´ on: eliminaci´ on iterada de estrategias estrictamente dominadas Podemos refinar el primer principio de soluci´ on y asumir, no s´ olo que cada agente adoptar´ a estrategias estrictamente dominantes y desechar´ a las estrictamente domian lo mismo y actuar´ an en connadas, sino que cada agente sabe que los otros har´ secuencia . De esta forma:
Todo jugador aplica el primer principio de soluci´ on en su decisi´ on. Y cada jugador sabe que los otros tambi´ en aplicar´ an ese principio, y los otros saben que los otros tambi´en aplicar´ an ese principio; etc. Como su nombre lo indica, el proceso de eliminaci´ on iterada de estrategias estrictamente dominadas consiste en eliminar a trav´ es de rondas las estrategias que son dominadas por otras. Observemos que bajo este supuesto, podr´ıamos predecir que “pa´ıs peque˜ no” sabe que “pa´ıs grande” se armar´ a y, actuando en consecuencia, tambi´en se armar´a ya que en tal caso su pago ser´ıa −2, en lugar de permanecer desarmado, caso en el cual su pago ser´ıa − 5. Ejemplo 13 (Soluci´ on por rondas de eliminaci´ on). Consideremos el juego de la figura 13. En la primera ronda de eliminaci´ on iterada del juego de la figura 13, podemos eliminar la estrategia c 2 del jugador 2 ya que su estrategia b2 la domina estrictamente. De esta forma, el juego queda reducido a un juego de dos estrategias para cada jugador, como se muestra en la figura 14. Ahora: como el jugador 1 prev´ e que el 2 nunca jugar´ a c 2 , elimina su estrategia b 1 ya
39
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 13: Eliminaci´ on por rondas Jugador 2 a2
b2
c2
a1
2, 4
3, 2
3, 1
b1
0, 3
1, 6
7, 5
Jugador 1
Figura 14: Primera ronda de eliminaci´ on Jugador 2 a2
b2
a1
2, 4
3, 2
b1
0, 3
1, 6
Jugador 1
que a1 la domina estrictamente12 , con lo que el juego se reduce al de la figura 15. Eliminamos luego la estrategia b2 del jugador 2 por estar dominada estrictamente por la estrategia a2 , quedando como soluci´ on al juego el par de estrategias (a 1 , a2 ) con pagos de 2 para el jugador 1 y de 4 para el jugador 2. Figura 15: Segunda ronda de eliminaci´ on Jugador 2 Jugador 1 a1
a2
b2
2, 4
3, 2
Ejercicios 3. 1. La Guardia Imperial de Napole´ on Bonaparte se enfrenta a las tropas inglesas del general Wellington. Para esta contienda, hay diez campos de batalla con valores militares a1 < ... < a10 . Cada jugador (Bonaparte y Wellington) es dotado con ni < 10 escuadrones (i = 1, 2). La estrategia de cada jugador es 12
N´ otese que a 1 no domina a b 1 a menos que la estrategia c 2 haya sido eliminada en una ronda de eliminaci´ on previa.
40
Un Curso de Teor´ıa de Juegos Cl´asica
la decisi´ on de enviar sus escuadrones a estos campos de batalla. Un jugador puede enviar, m´ aximo, un escuadr´ on a cada campo de batalla. Cuando la pelea empieza, cada jugador gana a j por cada campo de batalla en el que tenga un escuadr´ on pero su oponente no. El ganador de la guerra es el ej´ercito cuyo territorio ocupado represente el mayor valor militar total. Muestre que este juego tiene una u´nica soluci´ on en estrategias dominantes. 2. Para cada uno de los siguientes juegos finitos en forma estrat´egica, resuelva seg´ un el principio-soluci´ on de eliminaci´ on iterada de estrategias estrictamente dominadas: J. 2
C
J. 1
J. 2
D
H
J. 1
A 8,2
6,4
F 10,5
1,2
B 3,9
4,2
G 6,10
10,7
J. 2
J. 2
C
D
R
5,4
3,8
1,5
F 6,6
6,-2
-5,-3
J. 1
A
I
H
I
J
8,8
6,-2
2,1
Q 0,-2
4,8
0,1
J. 1
F
3. Considere un juego con n-jugadores en el que cada jugador anuncia, simult´ aneamente, un n´ umero entero entre 1 y 1.000. El ganador es el jugador cuyo anuncio es el n´ umero m´ as cercano a 1/2 del promedio de todos los anuncios. En caso de empate, el premio es entregado de manera aleatoria entre los ganadores. a. Utilizando la eliminaci´ on iterada de estrategias dominadas determine la soluci´ on de este juego. Si los jugadores son racionales y la racionalidad es conocimiento com´ un ¿cu´ al ser´ a la u ´nica estrategia que sobrevivir´ a? b. ¿Cree usted que la soluci´ on encontrada en a es consistente con lo observado en la realidad? Si no lo es, ¿c´omo cree usted que razonar´ıa la gente en un juego de este estilo? 4. Resuelva los siguientes juegos con el principio-soluci´ on de eliminaci´ o n de estrategias estrictamente dominadas.
41
Juegos No-Cooperativos con Informaci´on Sim´ etrica
J. 2
J. 1
A
B
C
A
73, 25
57, 42
66, 32
B
80, 26
35, 12
32, 54
C
28, 27
63, 31
54, 29
J. 2
J. 1
.
V
A
B
C
D
E
A
63,-1
28,-1
-2,0
-2,45
-3,19
B
32,1
2,2
2,5
33,0
2,3
C
54,1
95,-1
0,2
4,-1
0,4
D
1,-33
-3,43
-1,39
1,-12
-1,17
E
-22,0
1,-13
-1,88
-2,-57
-3,72
Principio-Soluci´ on de Equilibrios de Nash en Estrategias Puras
En la mayor´ıa de los juegos estudiados en la teor´ıa sucede, sin embargo, que asumir s´olo el segundo principio de soluci´ on nos puede dejar, todav´ıa, con muchas predicciones posibles. Es el caso del juego de la figura 16 en donde, adicional a la situaci´ on descrita en la figura 10, cada pa´ıs tiene una nueva estrategia (anunciar el problema ante una comisi´ on internacional (ap ), y unos nuevos pagos (debido a la penalizaci´on que tal comisi´ on impone sobre los pa´ıses en caso de encontrar armamento). Se puede observar que ninguno de ´estos tiene una estrategia estrictamente dominante. Una forma con la que podemos resolver este tipo de juegos est´ a fundamentada en el siguiente principio:
La combinaci´ on de estrategias que los jugadores predeciblemente escoger´ an es aqu´ella en la cual ning´ un jugador podr´ıa mejorar su pago escogiendo unilateralmente una estrategia diferente, si supone que los otros siguen eligiendo la estrategia previamente escogida. El concepto-soluci´ on basado en este principio se conoce como “equilibrio de Nash” del juego. Fue introducido por John Nash [1950b]13 en su art´ıculo “Equilibrium 13
Premio Nobel en Econom´ıa de 1994.
42
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 16: Dilema de seguridad extendido Jugador 2
Jugador 1
a
pd
ap
0, −2
5, −5
−5, 2
pd −2, 2
4, 4
0, 0
2, −5
0, 0
3, 3
a
ap a ≡ armarse
pd ≡ permanecer desarmado
ap ≡ anunciar el problema
Points in n-Person Games”, y se ha posicionado como el concepto soluci´ on central en la teor´ıa de juegos cl´ asica . Esta es la definici´ on: Definici´ on 4 (Equilibrio de Nash en Estrategias Puras (Nash [1950b])). Sea Γ = (N, (C i )i∈N , (ui )i∈N ) un juego finito en forma estrat´egica. Una combinaci´ on ∗ ∗ de estrategias puras c = (ci )i∈N es un equilibrio de Nash en estrategias puras para el juego Γ si, y s´ olo si, ui (c∗i , c∗−i ) ≥ u i (ci , c∗−i ) para todo c i ∈ C i y para todo i ∈ N Ejemplo 14. Consideremos el juego de la figura 17 y encontremos sus equilibrios de Nash.
Figura 17: B´ usqueda de equilibrios de Nash Jugador 2
t
s
3, 1
1, 3
m 5, 5
4, 2
Jugador 1
k
Para buscar los equilibrios de Nash de este juego, procederemos tomando cada posible combinaci´ on de estrategias, y verificaremos si, en cada una de ´estas, al menos un jugador tiene incentivos unilaterales para desviarse. Para empezar, tomemos la combinaci´ on de estrategias en la que el jugador 1 juega la estrategia k y el jugador 2 juega la estrategia t . Si el jugador 1 espera que el 2 juegue t , para ´el ser´a mejor
Juegos No-Cooperativos con Informaci´on Sim´ etrica
43
desviarse de la estrategia establecida y jugar m ya que, de esta forma, obtiene un pago de 5, sup erior al pago de 3 que obtendr´ıa de mantenerse jugando k. De manera similar, el jugador 2 tambi´en se desviar´ıa a jugar s para obtener un pago de 3 en vez de 1; por lo tanto, la combinaci´ on de estrategias (k, t) no es un equilibrio de Nash. Tomemos ahora la combinaci´ on de estrategias (k, s); el jugador 2 no tendr´a incentivos para desviarse unilateralmente ya que reducir´ıa su pago de 3 a 1. Sin embargo, el jugador 1 s´ı tendr´ıa incentivos para desviarse, ya que si cree que el 2 seguir´ a jugando s, escoger m en vez de k le genera un pago de 4 en vez de 1. As´ı, esta combinaci´ on de estrategias tampoco constituye un equilibrio de Nash. Tomemos ahora la combinaci´ on (m, t). Si el jugador 1 se desv´ıa de su estrategia m a k , pasa de ganar 5 a ganar s´olo 3, luego ser´ a mejor que no lo haga; por su parte, si es el jugador 2 quien se desv´ıa de t a s , pasa de recibir un pago de 5 a recibir un pago de 2, luego tampoco se desviar´ a; Como ninguno de los jugadores tiene incentivos para desviarse unilateralmente, la combinaci´ on de estrategias puras (m, t) constituye un equilibrio de Nash de este juego. Para terminar, consideremos la estrategia conjunta (m, s); el jugador 1 no tiene incentivos para desviarse ya que obtendr´ıa un pago de 1 en vez de 4, pero el jugador 2 s´ı tendr´ıa incentivos para hacerlo ya que ganar´ıa 5 en vez de 2. As´ı, el unico ´ equilibrio de Nash de este juego est´ a dado por la combinaci´ on de estrategias (m, t).
Ejemplo 15. (La Batalla de los Sexos [Luce y Raiffa (1957)]) En este juego, un matrimonio est´ a tratando de decidir qu´e hacer el fin de semana. Las posibilidades que tienen son: ir al f´ utbol (F ) o ir al teatro (T ). El esposo prefiere ir al f´ utbol con su esposa, y la esposa ir al teatro con su esposo. Los pagos est´ an dados por la bimatriz de la figura 18. No es posible resolver este juego por dominancia iterada ya que ninguna estrategia pura es estrictamente dominada. Ahora bien: el juego tiene dos equilibrios de Nash en estrategias puras: (F, F ) y (T, T ). Veamos: si la esposa cree que su esposo ir´ a al f´ utbol (F ) lo mejor que ella puede hacer es tambi´en ir al f´ utbol (F ), ya que esta elecci´ o n la deja con un mayor pago que su estrategia ir al teatro (T ), en la que estar´ıa sola. A su vez, si el esposo cree que su esposa ir´ a al f´ utbol, lo mejor que puede hacer es tambi´en ir al f´ utbol (F ). Figura 18: La batalla de los sexos Esposa Esposo
F ≡ F´ utbol;
F
T
F 2,1
0,0
T 0,0
1,2
T ≡ Teatro
44
Un Curso de Teor´ıa de Juegos Cl´asica
De manera que ( F, F ) es un equilibrio de Nash del juego que deja a cada uno de los jugadores (esposo, esposa) con pagos (2, 1). Si, por el contrario, la esposa cree que su esposo ir´a al teatro (T ), lo mejor que puede hacer es ir al teatro (T ), ya que esta elecci´ on la dejar´ıa con un pago de 2 mientras que ir al f´ utbol la dejar´ıa con un pago de cero. De igual forma, si el esposo piensa que su esposa ir´a al teatro (T ), lo mejor que puede hacer es ir al teatro (T ). Por lo tanto (T, T ) tambi´en es un equilibrio de Nash del juego y deja a cada uno de los jugadores (esposo, esposa) con pagos (1, 2), respectivamente. De esta manera, seg´ un Nash, que ambos vayan juntos al f´ utbol o al teatro son posibilidades predichas por la teor´ıa.
Ejemplo 16 (El Dilema de Seguridad, otra vez). Hab´ıamos visto que en el dilema de seguridad extendido no hab´ıa soluci´ on por medio del concepto de eliminaci´ on de estrategias estrictamente dominadas, sin embargo podemos ver que s´ı hay soluci´on por medio del concepto de equilibrio de Nash. Notemos que la combinaci´ on de estrategias (ap, ap) es estrat´egicamente estable; esto es, si ambos jugadores eligen su estrategia “anunciar el problema”, ninguno tendr´ a incentivos unilaterales para desviarse, ya que los pagos que obtendr´ıan p or hacerlo son estrictamente menores a los que obtendr´ıan p or seguir fieles a su estrategia: en ap cada uno de los jugadores obtiene un pago de 3; desviarse a pd le genera un pago de 0, mientras que desviarse a a le genera un pago de -5. As´ı, (ap, ap) es un equilibrio de Nash. N´ otese, sin embargo, que la combinaci´ on de estrategias ( pd, pd) genera pagos estrictamente mayores y, no obstante, no es un equilibrio de Nash . Es decir, tenemos una situaci´ on similar a la observada en el dilema del prisionero. El an´ alisis de estos dos casos lo veremos en breve.
Ejemplo 17 (Juego de Coordinaci´ on Schelling [1957]). Consideremos el juego de la figura 19. Figura 19: Juego de coordinaci´ on Jugador 2
D
Jugador 1
D ≡ Derecha;
I
D 10,10
0,0
I
1,1
0,0
I ≡ Izquierda
Este juego tampoco se puede resolver por dominancia estricta ya que ninguna estrategia pura es estrictamente dominada. Sin embargo, el juego tiene dos equilibrios de Nash en estrategias puras: (D, D) y (I, I ). Si el jugador 1 cree que el jugador 2 escoger´ a su estrategia D, su mejor-respuesta a esta elecci´on es la estrategia D. De
Juegos No-Cooperativos con Informaci´on Sim´ etrica
45
igual forma, si el jugador 2 cree que el jugador 1 escoger´a su estrategia D, la mejorrespuesta a esta elecci´ on es su estrategia D. Por lo tanto, (D, D) es un equilibrio de Nash del juego que deja a cada uno de los jugadores con un pago de 10. Ahora: si el jugador 1 cree que el jugador 2 elegir´a la estrategia I , su mejor-respuesta es la estrategia I , y si el jugador 2 cree que el jugador 1 escoger´a la estrategia I , su mejor-respuesta es tambi´en escoger I . Entonces (I, I ) es otro equilibrio de Nash del juego que deja a cada uno de los jugadores con un pago de 1. Obs´ervese que para los dos jugadores es mejor jugar el primer equilibrio porque los deja con un pago m´ as alto. Este juego se conoce como un juego de coordinaci´on porque los jugadores podr´ıan alcanzar el pago m´ as alto posible del juego cuando act´ uan coordinadamente y eligiendo, en concordancia, la estrategia del pago m´ as alto. Un ejemplo claro de un juego de coordinaci´ o n como el de la figura 19 se refiere a la decisi´ on cotidiana sobre el lado de la calle por el cual deben desplazarse dos conductores que se dirigen en sentido contrario. Si cada uno escoge la derecha, pasan sin ning´ un problema y tienen acceso f´a cil a la se˜ nalizaci´ o n de la calle. Si ambos escogen la izquierda, la se˜ nalizaci´ on se hace m´as dif´ıcil, pero tampoco se accidentan, por lo cual ninguno tiene incentivos a desviarse. Caso contrario ocurre cuando uno de los conductores decide irse por la derecha y el otro por la izquierda; en tal caso, el pago que obtienen es el menor posible. Este ´ultimo caso no es un equilibrio de Nash ya que, por ejemplo, asumiendo como dada la elecci´ on del conductor 2, el conductor 1 tendr´ıa incentivos a cambiar de estrategia. Los dos tipos de equilibrio (“todos conducen por la derecha ” o “todos conducen por la izquierda ”) se ven claros en pa´ıses como Colombia y Gran Breta˜ na. Sin embargo, el campo de aplicaci´ on de los juegos de coordinaci´ on es mucho m´ as amplio que lo que hemos mostrado, hasta el punto en que se han constituido en un destacado tema de estudio en las ciencias sociales. Supongamos, por ejemplo, que dos amigos est´ an perdidos en la selva y quieren encontrarse, ¿a d´onde deben ir? y, en caso de que contaran con radios para comunicarse, ¿qu´e frecuencia elegir´ıan para hacerlo? Por otro lado, si una sociedad reconoce que llevar a cabo sus transacciones por medio del trueque es demasiado costoso, y cada individuo es consciente de que utilizar un metal como medio de pago solucionar´ıa el problema, ¿qu´e metal elegir´ıa? Suponga ahora que mientras un par de amigos hablan por tel´efono la llamada se interrumpe, ¿qui´en deber´ıa realizar la nueva llamada y qui´en deber´ıa esperar? Este es el tipo de situaciones que se pueden analizar por medio de los juegos de coordinaci´ on; observemos que en cada uno de los ejemplos anteriores, para cada jugador no hay una “mejor elecci´ o n” y, m´ a s a´ u n, no hay ning´ un procedimiento formal que determine qu´ e se debe hacer. Est´ a en el inter´es de cada jugador intentar descifrar lo que los otros piensan que ´el har´ a, y actuar en consecuencia. Es decir, para obtener el mejor resultado para s´ı mismo, y para el grupo, cada jugador debe hacer parte del “proceso social”; esto es, prescindir de un c´ alculo aislado sobre posibles estados del mundo y sustituirlo por normas que considere determinantes no solo para su toma de decisiones sino, principalmente, para la toma de decisiones de los dem´ as; tengamos en cuenta que en estos juegos un jugador gana si los dem´ as ganan,
46
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
y pierde si los dem´as as pierden, luego su inter´ inter´es es est´ a en buscar actuar de tal forma que sus acciones sean compatibles con las de los dem´as. as. Aspectos externos a los juegos, de la manera en que los hemos presentado, pueden servir para ayudar a coordinar a los jugadores en ciertos equilibrios. Siguiendo a Schelling [1960]: ...entre todas las opciones posibles suele haber alguna en particular que parece ser el punto focal de una selecci´ on coordinada, y, muy a menudo, on la parte para quien es relativamente desfavorable la elige, simplemente, porque sabe que la otra espera que lo haga. As´ As´ı, aspectos aspectos como la moda, las conve convencion nciones es sociales, sociales, las normas, normas, la tradici´ tradici´ on o cualquier otra informaci´ on externa al juego, pueden determinar “puntos focales”, on que cada jugador perseguir´ a en los juegos de coordinaci´ on, on, dado que haci´endolo endolo reduce reduce la incertidum incertidumbre bre frente a lo que los otros esperan que ´el el haga, y esto es de su beneficio. beneficio. Algunas preguntas importantes, respecto a los juegos de coordinaci´ on on son entonces, on en por ejemplo, qu´ e determina el surgimiento de cierto curso de acci´ en estos juegos; de forma fo rma similar, si milar, ser´ ser´ıa interesante interes ante determinar det erminar c´ omo omo la informaci´ on on externa afecta la coordinaci´ on en uno u otro de los posibles equilibrios y, tal vez, lo m´ on as as interesante: qu´ e equilibrio es seleccionado por p or los agentes. Schelling [1960] responde parcialmente a esto diciendo que “[una] parte esencial del estudio de los juegos de motivaci´ on on mixta es necesariamente necesaria mente emp´ emp´ırica”. Y si bien actualmen actualmente te la teor´ teor´ıa de juegos juegos no-cl´ no-cl´ asica ofrece algunas respuestas interesan teresantes tes a estos interrogan interrogantes, tes, algunas algunas otras pueden pueden ofrecerse ofrecerse desde escenarios escenarios elementales, como los que hemos estudiado hasta ahora, analizando las din´ amicas de interacci´ on entre individuos que deben enfrentar algunos juegos de coordinaci´ on on. on.
Ahora: regresando al curso central de la discusi´ on, on, podr po dr´´ıamos preguntarnos: preguntarno s: ¿c´ omo omo se relacionan los distintos principios de soluci´ on que estudiamos al comienzo de la on secci´ on anterior? La respuesta la tenemos en los siguientes teoremas que, de paso, on muestran la importancia central del concepto de equilibrio de Nash en un problema de decisi´ on on interactiva. Teorema 2 (Un 2 (Un agente racional no utiliza estrategias estrictamente dominadas). dominadas). Ninguna estrategia pura estrictamente dominada para un jugador puede hacer parte del perfil de estrategias de un equilibrio de Nash en estrategias puras. Demostraci´ on. on. ∗ Si ci es estrictamente dominada por alg´ un c un c i para alg´ un un jugador i jugador i,, entonces ui (ci∗ , c∗−i ) < ui (ci , c∗−i ) Luego (c (ci∗ , c∗−i ) no puede ser un equilibrio de Nash.
Juegos No-Cooperativos con Informaci´on on Sim´ Si m´ etric et rica a
47
Teorema 3 (Eliminaci´ 3 (Eliminaci´ on por Rondas que conduce a equilibrios de Nash). on Nash). Cuando el proceso de eliminaci´ on iterada de estrategias estrictamente dominadas arroja un unico ´ perfil de estrategias puras c∗ = (ci∗ , c∗−i ), este es el unico ´ equilibrio de Nash del juego. Demostraci´ on. on. Sin p´ erdida erdida de generalidad, asumamos que s´ olo es necesaria una ronda para todos olo los jugadores. El caso general es similar (apoyados en el teorema 2). Debemos probar que c∗ = (c∗1 , . . . , cn∗ ) es un equilibrio de Nash y que es unico. u ´ nico. a. Es un equili equilibri brio o de Nash. Nash. Sea ci = c i∗ , entonces ci es estrictamente dominada por ci∗ , para todo i. As´ı, ui (ci∗ , c−i ) > ui (ci , c−i ), para todo c−i ∈ C −i . Luego, en particular si c−i = c∗−i , entonces, ui (ci∗ , c∗−i ) > ui (ci , c∗−i ) para todo i. Por tanto, c∗ = (c∗1 , . . . , cn∗ ) es un equilibrio de Nash. b. Es unico. u ´ nico. Es consecuencia del teorema 2.
Teorema 4. Si la combinaci´ on de estrategias c∗ = (ci∗ , c∗−i ) es un equilibrio de Nash, entonces sobrevive al proceso de eliminaci´ on iterada de estrategias estrictamente dominadas. Demostraci´ on. on. Es una aplicaci´ on directa del teorema 2. on Ejemplo 18 (El 18 (El Dilema del Prisionero, otra vez). vez). Como ilustraci´ on de los teoremas que acabamos de establecer, retomemos el juego del on dilema del prisionero de la figura 11. Cuando resolvimos por estrategias dominantes, on predecible era (confesar, confesar). Ahora, resolviendo encontramos que la soluci´ por equilibrios de Nash, encontramos que si el sospechoso 1 cree que el sospechoso 2 va a confesar , la mejor decisi´ on on que ´el el puede tomar es tambi´en en confesar, con lo que se quedar´ quedar´ıa con un pago de -4. Si a su vez, vez, el sospechoso sospechoso 2 cree que el sospechoso sospechoso 1 va a elegir su estrategia, confesar , lo mejor que puede hacer es confesar y recibir un confesar, confesar ) es un equilibrio pago de -4. De manera que el par de estrategias (confesar, de Nash en estrategias puras del juego y entrega a los jugadores un pago de -4 a cada uno. Observemos que, tal como establece el teorema 2, el par de estrategias dominadas “no confesar” no hacen parte del equilibrio de Nash. Como resultado del teorema 3, notemos que la unica u´nica combinaci´ on de estrategias que sobrevive a la on eliminaci´ on iterada de estrategias estrictamente dominadas es el equilibrio de Nash on del juego. Y, finalmente, notemos, como aplicaci´ on del teorema 4, que el equilibrio on de Nash sobrevive al proceso de eliminaci´ on on de estrategias. Es importante destacar aqu´ aqu´ı que en este juego es imposible alcanzar, a trav´ trav´es es de estos principios de soluci´ on, on, la asignaci´ on cooperativa resultante de la combinaci´ on on on de estrategias (no confesar, no confesar ) ya que los jugadores no tienen incentivos
48
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
para mantenerse en esta elecci´ on. Cada uno de ellos hace lo mejor que puede inon. dependiente dependientemen mente te de lo que el otro jugador haga. Har´ Har´ıa falta, falta, en este caso, alg´ un mecanismo externo que hiciera a los jugadores jugar cooperativamente, haciendo de esta elecci´ on lo mejor para ellos. La moraleja es importante: el concepto de equilibrio on de Nash muestra muestra que una sociedad sociedad podr podr´ ´ıa, ıa, s´ olo a trav´ t rav´ es es de incentivos individuales, individu ales, llegar a estados que no son optimos ´ socialmente . O, como afirma Aumann [1987b]: “la gente que no coop cooper era a porque orque busca busca su propio propio beneficio eneficio no es nec necesariament esariamente e est´ upida o irracional: puede estar actuando de manera perfectamente racional”. En efecto: en este ejemplo, un equilibrio de Nash no es necesariamente optimo o´ptimo de Pare14 to : (−4, −4) son los pagos correspondientes al unico u ´nico equilibrio de Nash y (−1, −1) los correspondientes al unico u ´ nico optimo o´ptimo de Pareto. Pareto. De hecho, hecho, se considera considera el dilema del prisionero como “piedra filosofal” en muchas discusiones de la econom´ econom´ıa moderna y como una metodolog´ meto dolog´ıa ıa util ´ para abord a bordar ar problemas p roblemas en pol p ol´´ıtica y sociolog´ so ciolog´ıa. ıa. Ejemplos de esto son dos partidos pol p ol´´ıticos considerando su voto frente a un incremento en los impuestos: conjuntamente conjuntamente ser´ ser´ıa mejor para ambos votar favorablemente favorablemente por tal propuesta, pero en caso de que uno de ellos decida apoyarla, es mejor para el otro no hacerlo con el animo a´nimo de ganar popularidad. Espec´ Espec´ıficamente, no apoyar la propuesta es una estrategia dominante para cada partido. Otro ejemplo lo ilustran los pa´ pa´ıses miembros de la OPEP: para todos ser´ ser´ıa deseable deseable que el precio precio del petr´ oleo fuera alto, lo que se lograr´ lograr´ıa si todos to dos “recortaran su producci´ pro ducci´ on”. No obstante, est´ a en el inter´es es de d e cada cad a pa´ıs ıs miembr m iembro o aumenta au mentarr su produc pro ducci´ ci´ on, on, y esto est o har h ar´´ıa que q ue el precio descendiera y afectara negativamente los ingresos de todos. Otro ejemplo es el dilema de la seguridad extendido que estudiamos antes.
Una Nota sobre Evidencia Experimental a. El dilema del prisionero En los experimentos realizados para jugar el dilema del prisionero una sola on on que var´ var´ıa de acuerdo con las vez se ha encontrado un nivel de cooperaci´ “manipulaciones experimentales” de cada caso. Entre los factores manipulables se destacan los ensayos que cada jugador tiene antes de enfrentar el juego “verdadero”, “verdadero”, y sus caracter´ caracter´ısticas personales (sexo, edad, raza, religi´ on, etc.). El nivel de cooperaci´ on on observado se encuentra encuentra suficientemente suficientemente alejado de 0 % y 100 %. Esto ha llevado llevado a muchos muchos investiga investigadores dores a conjetura conjeturarr que hay cierta evidencia de altruismo en los agentes que juegan el Dilema del Prisionero. Para verificar esta hip´ otesis, Shafir y Tversky [1992] compararon el juego original con otesis, una modificaci´ modificaci´ on on de ´este este en la cual uno de los jugadores deb´ deb´ıa jugar primero, y el otro era informado de la elecci´on on de su oponente; el an´ alisis alisis era llevado a cabo sobre los jugadores de la segunda etapa. Se encuentra en estos juegos un menor nivel nivel de cooperaci´ cooperacion o´n que en el juego original, tanto en el caso en que se informa de una defecci´ on, como cuando se informa de una previa cooperaci´ on, on. on. 14
Es decir, existe alguna otra elecci´ on tal que al menos un jugador puede mejorar sin que el otro on empeore.
49
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Con base en estos resultados, Shafir y Tversky argumentan que la cooperaci´on en el juego original no se alcanza gracias al altruismo de los agentes (que al menos generar´ıa cooperaci´ on cuando se informa de una previa cooperaci´on) sino por la dificultad de evaluar acciones cuando sus consecuencias no son claras. Es decir, cuando un agente no conoce la elecci´ on de su oponente, no es capaz de evaluar todos sus pagos posibles, y esto hace que busque la acci´ on cooperativa.
on b. Juegos de coordinaci´ Los tipos de experimentos que presentamos a continuaci´ on tienen como prop´ osito atacar tres interrogantes respecto a los juegos de coordinaci´ on; en principio, determinar qu´e equilibrio se elige dada cierta estructura de interacci´ on; segundo, analizar c´ omo aspectos hist´ oricos inciden en la elecci´ on de un equilibrio; y finalmente, determinar si aspectos ex´ ogenos, en particular, los pagos en estados que no ser´ıan alcanzados por agentes racionales, determinan la elecci´ on de uno u otro equilibrio. En un primer experimento, van Huyck, Battalio y Beil [1990] se proponen recopilar evidencia experimental para determinar si la dominancia en el sentido de Pareto, as´ı como ciertos aspectos hist´ oricos, determinan los equilibrios que ser´ıan seleccionados por los agentes en juegos de coordinaci´ on pura. Para esto dise˜ nan experimentos con sesiones de alrededor de 15 jugadores que deben elegir aisladamente un n´ umero entero de 1 a 7. Los pagos de cada jugador est´an determinados por la elecci´ on que ´este realice y p or el menor valor seleccionado por los miembros del grupo: espec´ıficamente, los pagos para cada jugador en los dos escenarios dise˜ nados, son como aparecen en las figuras 20 y 21. Figura 20: Escenario A
Valor escogido
7 6 5 4 3 2 1
Menor valor escogido 7 6 5 4 3 1.3 1.1 0.9 0.7 0.5 1.2 1.0 0.8 0.6 1.1 0.9 0.7 1.0 0.8 0.9 -
2 0.3 0.4 0.5 0.6 0.7 0.3 -
Observemos que, en ambos escenarios, la situaci´ on en la que todos los individuos eligen el mismo n´ umero constituye un equilibrio de Nash, independientemente de cu´a l sea tal n´ umero. De forma similar, observemos que estos equilibrios de Nash est´ an ranqueados en el sentido de Pareto de acuerdo con el n´ umero que sea elegido por todos; es decir, el equilibrio o´ptimo de Pareto
50
Un Curso de Teor´ıa de Juegos Cl´asica
corresponde a la situaci´ on en que todos los jugadores eligen 7, mientras que el “peor” equilibrio ocurre cuando todos eligen 1. Finalmente, notemos que en el escenario B la elecci´ o n del n´ umero 7 es una estrategia dominante para cada jugador. Uno de los objetivos buscados por los experimentadores con el dise˜ no de este escenario B era determinar si los participantes comprend´ıan suficientemente bien el experimento en el sentido de que percibieran (y eligieran) la estrategia dominante; esto es, si el experimento no era claro para los participantes, estos no elegir´ıan el n´ umero 7.
Figura 21: Escenario B
Valor escogido
7 6 5 4 3 2 1
Menor valor escogido 7 6 5 4 3 1.3 1.2 1.1 1.0 0.9 1.2 1.1 1.0 0.9 1.1 1.0 0.9 1.0 0.9 0.9 -
2 0.8 0.8 0.8 0.8 0.8 0.8 -
La din´ amica del experimento consist´ıa en que todos los jugadores enfrentaran el escenario A en 10 ocasiones, conociendo siempre las elecciones de la etapa inmediatamente anterior; luego deb´ıan pasar al escenario B en 5 ocasiones y, posteriormente, regresar´ıan al escenario A para jugar 5 o 7 veces m´ as. El prop´ osito de esta din´ amica era, por un lado, observar cu´ al equilibrio emerg´ıa en cada escenario a partir de la informaci´ on que iban adquiriendo los jugadores y, por otro lado, determinar si el equilibrio alcanzado en el escenario B se constitu´ıa en un punto focal para la ultima ´ fase a desarrollarse en el escenario A. Algunos de los resultados obtenidos fueron los siguientes: a. Luego de algunas repeticiones en el escenario B, el 96% de los participantes en el experimento eligen el n´ umero 7, lo que indica que el juego era comprendido y que los jugadores ten´ıan incentivos para participar en el experimento. b. Aunque en las etapas iniciales en el escenario A (antes y despu´es de jugar en B) se presenta una alta dispersi´on en las elecciones realizadas por los jugadores, r´ apidamente estos se coordinan en la elecci´ on del n´ umero 1; es decir, en el peor de los equilibrios de Nash en t´erminos de pagos .
51
Juegos No-Cooperativos con Informaci´on Sim´ etrica
El hecho de que los jugadores se coordinen nuevamente en 1 despu´es de haber participado en el escenario B indica que haberse coordinado en 7 en tal escenario, no genera un punto focal para la fase siguiente del juego. Notemos que, contrariamente a lo que sugiere la intuici´ on, el criterio de optimalidad paretiana no es suficiente para la generaci´ on de puntos focales ; de hecho, la coordinaci´ on, de presentarse, se lleva a cabo sobre el equilibro que genera los menores pagos conjuntos; luego son aspectos como el riesgo, y la incertidumbre respecto a la racionalidad de los dem´ as, lo que probablemente incide de manera m´ as importante en la decisi´ on de los jugadores. Un aspecto controlado por los experimentadores era el n´ umero de jugadores en cada sesi´ on; cuando los grupos se reducen a s´ olo 2 jugadores, estos se coordinan m´ as r´ apidamente en la elecci´ on del n´ umero 7; lo anterior sugiere que el tama˜ no del grupo importa, en el sentido que reduce la probabilidad subjetiva que cada individuo asigna a que “los dem´ as” elijan n´ umeros peque˜ nos, y a que permite pensar que los individuos eligen estrategias de “largo plazo” que les garanticen pagos altos gracias a la reputaci´ on adquirida en la etapas iniciales. Sobre esto hablaremos m´ as adelante en la secci´ on de juegos repetidos. En otro experimento con juegos de coordinaci´ on Copper, DeJong y Ross [1990] se proponen estudiar c´ o mo el poder focal de un equilibrio en un juego de coordinaci´ on es influenciado por los pagos de estrategias que no son jugadas en equilibrio. As´ı, proponen juegos como los de la figura 22 donde aparecen dos equilibrios de Nash puros (1, 1) y (2, 2), y donde la tercera estrategia es estrictamente dominada para cada jugador. Figura 22: Coordinaci´ on con estrategias dominadas Juego 1
Juego 2
1
2
3
1
2
3
1
350,350
350,250
700,0
1
350,350
350,250
700,0
2
250,350
550,550
0,0
2
250,350
550,550
1000,0
3
0,700
0,0
600,600
3
0,700
0,1000
500,500
Notemos que la u ´nica diferencia entre los dos juegos son los pagos que obtienen los jugadores por la estrategia 3 que, realmente, no es jugada en equilibrio. La din´ amica del experimento consist´ıa en que cada jugador era emparejado aleatoriamente con otro en 20 ocasiones. Algunos de los resultados aparecen en la figura 23.
52
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 23: Experimento en juegos de coordinaci´ on
Juego 1
Juego 2
Fuente: Cooper, DeJong, Forsythe y Ross (1990)
Observemos que conforme los jugadores ganan experiencia, se coordinan en uno de los equilibrios del juego. Al igual que en el experimento anterior, la dominancia paretiana no es suficiente para determinar en qu´e equilibrio se coordinan los agentes, ya que en el primero de los casos la coordinaci´on se hace sobre el equilibrio (1, 1) que es Pareto-dominado por (2, 2). De igual forma, notemos que los pagos de la estrategia dominada efectivamente afectan la coordinaci´ on de los agentes sobre los equilibrios . Para explicar tal coordinaci´ on ´ recurren a dos hip´otesis. La primera es que cada individuo cuesCopper et al. tiona la racionalidad de su compa˜ nero y as´ı elige la mejor-respuesta ante una estrategia dominada de aqu´el (observemos que, en el primer juego, la coordinaci´ on se alcanza sobre la estrategia 1 que es una mejor-respuesta ante 3, mientras que en el segundo juego la mejor respuesta ante 3 es la estrategia 2, y es precisamente all´ı donde se da la coordinaci´ on). La segunda hip´ otesis es que cada jugador espera encontrar una pareja con la que alcance el m´aximo pago conjunto. Para inclinarse a favor de una u otra hip´ otesis, Copper et al. ´ proponen dos juegos adicionales del estilo del de la figura 24. Figura 24: Juego de coordinaci´ on adicional 1
2
3
1
350,350
350,250
700,0
2
250,350
550,550
0,0
3
0,700
0,0
500,500
Notemos que la mejor-respuesta ante la estrategia 3 es la estrategia 1, luego la coordinaci´ on en (1, 1) favorecer´ıa la primera hip´ otesis. Asimismo, notemos que el m´ aximo pago conjunto se encuentra en (2, 2), luego la coordinaci´ on en
Juegos No-Cooperativos con Informaci´on Sim´ etrica
53
este equilibrio favorecer´ıa la segunda hip´ otesis. Se encontr´ o como resultado de este nuevo experimento la coordinaci´ on en el equilibrio (2, 2), lo que lleva a afirmar a Copper et al. ´ que cada participante asigna una probabilidad positiva a encontrarse con un oponente que sea altruista, en el sentido de buscar el m´ aximo pago conjunto, y act´ ua en consecuencia.
Ejercicios 4. 1. John Stuart Mill [1848] establece que, como excepci´ on del principio econ´ omico de laissez-faire , existen casos donde “la ley es precisa no para predominar sobre el juicio de los individuos respecto de sus propios intereses, sino para dar efectividad a ese juicio”. As´ı, se refiere al caso particular de una reducci´ on de la jornada laboral de diez a nueve horas manteni´ endose el salario constante. Establece que aunque todos los obreros estuvieran convencidos de que se ver´ıan beneficiados por esta medida, ´esta no ser´ıa adoptada a menos que se estableciera una ley que obligara su cumplimiento, ya que: ...si casi todos se atuvieran a las nueve horas, los que prefirieran trabajar diez ser´ıan los que ganar´ıan todas las ventajas de la restricci´ on, al mismo tiempo que el beneficio de infringirla: obtendr´ıan el salario correspondiente a las diez horas por nueve de trabajo y adem´ as el salario de una hora [...] es probable que fueran tantos los que prefirieran las diez horas en las condiciones mejoradas, que no pudiera mantenerse la limitaci´ on como una regla general. (Mill [1848], pp. 948 a 951). a. Describa la situaci´ on mencionada como un juego; defina los jugadores, sus estrategias y sus funciones de pagos. b. Encuentre el equilibrio de Nash de este juego. c. Comente. 2. Discutiendo acerca de la evoluci´ on social y sus beneficios, J. J. Rousseau [1755] describe la siguiente situaci´ on a la que se enfrentan un conjunto de cazadores que persiguen un venado: En el trabajo de cazar un venado cada cazador debe sentir que su prop´osito es mantenerse fiel a su objetivo; sin embargo, si una liebre pasara cerca a alguno de ellos, no habr´ıa duda de que ´este la perseguir´ıa sin escr´ upulos y que, habiendo obtenido su presa, poco le importar´ıa haber causado a sus compa˜ neros la p´erdida de las suyas. a. Modele esta situaci´ on en una bimatriz asumiendo que las u ´nicas acciones disponibles a cada agente son “cazar venado” y “cazar liebre”.
54
Un Curso de Teor´ıa de Juegos Cl´asica
b. Encuentre los equilibrios de Nash del juego. c. Interprete sus resultados. 3. Calcule el equilibrio de Nash del siguiente juego: b1
b2
b3
a1
0,0
50,40
40,50
a2
40,50
0,0
50,40
40,50
0,0
a3 50,40
Muestre que si cualquier jugador adopta una estrategia distinta de la del equilibrio de Nash, la respuesta o´ptima por parte del otro jugador resultar´ a en unos pagos superiores para ambos. As´ı, ¡el equilibrio de Nash es el peor resultado posible! 4. Suponga que a usted se le propone el siguiente juego: Escoja un n´ umero de 1 a 3. Yo trato de adivinarlo. Usted responde (con la verdad): ‘alto’, ‘bajo’ o ‘correcto’ dependiendo de si el n´ umero que yo dije es m´as alto, m´ a s bajo o correcto, respecto al n´ umero que usted escogi´ o. Usted recibir´a el n´ umero de miles de pesos igual al n´ umero de intentos de adivinar que yo haya tenido que hacer antes de acertar”. Construya un juego en forma estrat´ egica que describa la interacci´ on mencionada y encuentre los equilibrios de Nash. 5. Resuelva los siguientes juegos mediante eliminaci´ on de estrategias estrictamente dominadas. Verifique que la soluci´ on es un equilibrio de Nash. Jugador 2 A
B
A
4,2
-6,5
B
6,1
0,-1
Jugador 1
Jugador 2 A
B
A
0,2
4,-25
B
-1,0
2,1
Jugador 1
6. Suponga que en un pa´ıs solo hay autom´ oviles japoneses y franceses. Dos individuos est´ an interesados en comprar cada uno un autom´ovil y sus elecciones posibles son: wi = 1
si i adquiere un veh´ıculo japon´es
wi = − 1
si i adquiere un veh´ıculo franc´es
55
Juegos No-Cooperativos con Informaci´on Sim´ etrica
y sus funciones de pago son v1 (w1 , w2 ) = u 1 (w1 ) + 2w1 w2 v2 (w1 , w2 ) = u 2 (w2 ) + 2w1 w2 donde u 1 (1) = 1, u1 (−1) = 2, u2 (1) = 2, u2 (−1) = 1 a. Describa este juego en una bimatriz 2 × 2. b. Encuentre los equilibrios de Nash de este juego. c. ¿Cree usted que existe en este juego un “efecto conformidad”; es decir, que hace parte del beneficio de cada jugador adquirir un veh´ıculo similar al del vecino?
.
VI
Principio-Soluci´ on de Equilibrios de Nash en Estrategias Mixtas
La amplia posibilidad del concepto de equilibrio de Nash de resolver juegos, que el principio de dominancia iterada no tiene, hace de aqu´ el un concepto m´ as potente y m´ as controversial que el concepto de soluci´ on basado en la idea de que los jugadores no escogen estrategias dominadas y tienen conocimiento com´ un. El problema se complica a´ un m´ as si se tiene en cuenta que casi todos los juegos tienen otro tipo de equilibrios de Nash. Para ver esto, consideremos una vez m´ as el juego de “lanzar la moneda”: Ejemplo 19 (Lanzar la moneda (von Neumann y Morgenstern [1944])). Ya sab´ıamos que en el juego “lanzar la moneda” (matching pennies ) dos agentes lanzan cada uno una moneda; si en ambas monedas aparece cara o sello, el jugador 1 gana la moneda del otro; si difieren, es el jugador 2 el que la gana. Los pagos se ilustran en la bimatriz de la figura 25. Figura 25: Juego de “lanzar la moneda” Jugador 2 Jugador 1
C ≡ cara
C
S
C 1,-1
-1,1
S -1,1
1,-1
S ≡ sello
Para intentar solucionar este juego, tomemos, por ejemplo, el par de estrategias (C, C ); dado que el jugador 2 cree que el jugador 1 escoger´a su estrategia C , lo
56
Un Curso de Teor´ıa de Juegos Cl´asica
mejor que ´el puede hacer es escoger su estrategia S , lo que muestra que (C, C ) no puede ser un equilibrio de Nash. De forma similar, el par de estrategias (C, S ) tampoco puede ser un equilibrio de Nash ya que si el jugador 1 espera que 2 juegue S , lo mejor que este puede hacer es desviarse y jugar S . Por un argumento similar, se puede mostrar que en las dem´as combinaciones de estrategias puras tambi´ en existen incentivos para desviarse unilateralmente por parte de alg´ un jugador. Esto muestra que no existe un equilibrio de Nash en estrategias puras para este juego. Sin embargo, como nos lo ense˜ naron von Neumann y Morgenstern, s´ı existe un equilibrio de otro tipo, conocido como “equilibrio en estrategias mixtas”, en el que cada jugador adopta una estrategia asign´ andole cierta probabilidad a cada una de las estrategias puras de los dem´ as jugadores; es decir, cada jugador asume ciertas probabilidades sobre las estrategias puras que los otros jugadores escoger´ an.
Definici´ on 5 (Estrategia Mixta (von Neumann [1928])). a. En un juego finito en forma estrat´ egica Γ = (N, (C i )i∈N , (ui )i∈N ), una estrategia mixta del jugador i es una distribuci´on de probabilidad sobre el conjunto de estrategias puras C i . Al conjunto de todas las estrategias mixtas del jugador i lo denotamos por ∆i . Para σ i ∈ ∆ i y c i ∈ C i , σ i (ci ) es la probabilidad que la distribuci´ on σi le asigna a la estrategia ci . El soporte de una estrategia mixta σi es el conjunto de estrategias puras a las cuales σ i le asigna una probabilidad estrictamente positiva . b. Una estrategia mixta del juego Γ es una combinaci´ on de distribuciones σ = (σ1 , σ2 , . . . , σn ) donde σ i ∈ ∆ i para todo i; es decir, σ ∈ ×ni=1 ∆i . De acuerdo con la definici´on anterior, es claro que el conjunto de las estrategias mixtas contiene al de las estrategias puras. En este caso, cada σ i le asigna probabilidad 1 a cierta estrategia pura y probabilidad 0 a las dem´ as estrategias. Definici´ on 6 (Utilidad Esperada (von Neumann y Morgenstern [1944])). Sea Γ = (N, (C i )i∈N , (ui )i∈N ) un juego finito en forma estrat´egica. Dado un perfil de distribuciones σ = (σ1 ,...,σn ) ∈ ×ni=1 ∆i , la utilidad esperada del jugador i asociada a este perfil corresponde a la siguiente expresi´ on: ui (σ) ≡
n c∈C (× j=1 σ j (c j )ui (c))
De esta forma, la utilidad esperada de un jugador tiene la misma naturaleza que un valor esperado (matem´ atico); es decir, corresponde a una suma ponderada de todas las utilidades que puede alcanzar el jugador, donde la ponderaci´on de cada una de estas es la probabilidad de ocurrencia del resultado que genera tales pagos.
57
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Ejemplo 20 (Un C´ alculo de Utilidades Esperadas). En el juego de la figura 26, dado que ning´ un agente tiene certeza acerca de la elecci´on de su oponente, cada uno de ellos debe asignar probabilidades a las estrategias de acuerdo con sus creencias. Figura 26: C´ alculo de utilidades esperadas Jugador 2 x2
y2
x1
3, 2
5, 1
y1
4, 1
2, 3
Jugador 1
El jugador 1 puede asignar una probabilidad q a la estrategia x 2 del jugador 2 y por consiguiente, una probabilidad 1 − q a la estrategia y 2 . De igual forma, el jugador 2 asigna una probabilidad p a la estrategia x1 del jugador 1 y una probabilidad 1 − p a la estrategia y1 . Esto puede observarse en la figura 27. Figura 27: (...continuaci´ on) Jugador 2 (q)
(1-q)
x2
y2
(p) x 1
3, 2
5, 1
(1-p) y1
4, 1
2, 3
Jugador 1
Esta estrategia mixta del juego es, entonces, ( p[x 1 ]+(1− p)[y1 ], q [x2 ]+(1−q )[y2 ]). Por consiguiente, la utilidad esperada del jugador 1 de su estrategia x 1 es 3q + 5(1 − q ). De igual forma, la utilidad esperada de su estrategia y 1 es 4q +2(1 − q ). Similarmente, para el jugador 2 la utilidad esperada de su estrategia x 2 es 2 p + 1(1 − p) y de su estrategia y2 es p + 3(1 − p). De manera que los pagos de los jugadores asociados a la estrategia mixta (σ1 , σ2 ), donde σ 1 = ( p, 1 − p), σ 2 = (q, 1 − q ) son: Jugador 1:
p(3q + 5(1 − q )) + (1 − p)(4q + 2(1 − q )) = 2 − 2 pq + 5 p − 2q 2
Jugador 2:
q (2 p + (1 − p)) + (1 − q )( p + 3(1 − p)) = 3 + 3 pq − 2q − 2 p
58
Un Curso de Teor´ıa de Juegos Cl´asica
Ejemplo 21 (Utilidades Esperadas de “lanzar la moneda”). Consideremos el juego de lanzar la moneda , tal como se establece en la figura 25, y que presentamos nuevamente en la figura 28.
Figura 28: “lanzar la moneda” Jugador 2
Jugador 1 (p) C (1-p)
S
(q)
(1-q)
C
S
1,-1
-1,1
-1,1
1,-1
En este juego las utilidades esperadas de los jugadores 1 y 2 para cada una de sus estrategias son: 1 U E (C ) = 2q − 1,
1 U E (S ) = 1 − 2q,
2 U E (C ) = 1 − 2 p,
2 U E (S ) = 2 p − 1
Con esto, las utilidades esperadas por participar en el juego son: 1 U E = 2 p(2q − 1) − 2q + 1
2 U E = 2q (1 − 2 p) + 2 p − 1
Definici´ on 7 (Dominancia Estricta y D´ ebil en Estrategias Mixtas). Sea Γ = {N, (C i )i∈N , (ui )i∈N } un juego finito en forma estrat´ egica. Entonces: a. La estrategia mixta σi ∈ ∆i domina estrictamente a otra estrategia σ i ∈ ∆i para el jugador i si u i (σi , σ−i ) > ui (σi , σ−i ) para todo σ −i ∈ ∆ −i 15 . b. La estrategia mixta σi ∈ ∆ i es estrictamente dominante para el jugador i si ui (σi , σ−i ) > ui (σi , σ−i ) para todo σ−i ∈ ∆ −i , para toda σ i ∈ ∆ i . c. La estrategia mixta σ i ∈ ∆ i domina d´ebilmente a otra estrategia σ i ∈ ∆ i para el jugador i si ui (σi , σ−i ) ≥ u i (σi , σ−i ) para todo σ −i ∈ ∆ −i . 15
De forma similar a los hechos en el caso con estrategias puras, ∆−i denota el conjunto de estrategas mixtas conjuntas de todos los jugadores excepto i .
Juegos No-Cooperativos con Informaci´on Sim´ etrica
59
d. La estrategia mixta σ i ∈ ∆ i es d´ ebilmente dominante para el jugador i si ui (σi , σ−i ) ≥ u i (σi , σ−i ) para todo σ −i ∈ ∆ −i , para toda σi ∈ ∆ i . Ejemplo 22. Consideremos el juego representado por bimatriz de la figura 29. Figura 29: Dominacia en estrategias mixtas
H
F
5,2
1,1
D 1,1
5,2
W 2,3
2,3
S
En este juego ninguna estrategia pura es estrictamente dominada para ninguno de los jugadores. Sin embargo, para cualquier conjetura de 1 acerca de la distribuci´on de probabilidad con la que 2 elige sus estrategias puras (q, 1 − q ), existe una estrategia mixta en la que 1 realiza aleatoriedad entre S y D con probabilidad 1/2 que domina estrictamente a W . Para ver esto notemos que la utilidad esperada por seguir tal estrategia mixta es: 1 1 [5q + 1(1 − q )] + [1q + 5(1 − q )] = 3 2 2 que es estrictamente mayor que el pago que 1 obtendr´ıa con certeza por jugar W , esto es, 2. Lo anterior hace pensar que si un jugador nunca elige una estrategia pura, existe una estrategia mixta que las domina a todas.
El teorema siguiente muestra que si eliminamos una estrategia pura por dominancia estricta podemos estar seguros de que esta estrategia no puede hacer parte de ninguna estrategia mixta estrictamente dominante. Teorema 5 (No debemos apostarle a un perdedor). Una estrategia mixta de un jugador que asigna probabilidad positiva a una estrategia pura estrictamente dominada es tambi´ en estrictamente dominada. Demostraci´ on. Sin p´ erdida de generalidad, supongamos que N = {1, 2}, C 1 = {A, B }, C 2 = {C, D}
60
Un Curso de Teor´ıa de Juegos Cl´asica
y que B es dominada estrictamente por A para el jugador 1. Si σ1 = ( p, 1 − p), donde p > 0 es la probabilidad asociada a la estrategia A del jugador 1 y σ 2 = (q, 1 − q ), donde q es la probabilidad asociada a la estrategia C del jugador 2, entonces u1 (σ1 , σ2 ) = pE (A) + (1 − p)E (B) donde E (A) = qu1 (A, C ) + (1 − q )u1 (A, D) y E (B) = qu1 (B, C ) + (1 − q )u1 (B, D) Pero como u1 (B ∗ ) < u1 (A∗ ), entonces E (B) < E (A). Luego, u1 (σ1 , σ2 ) = pE (A) + (1 − p)E (B) < pE (A) + (1 − p)E (A) = E (A) = 0E (B) + 1E (A) = u 1 (σ1 , σ2 ) donde σ 1 = (1, 0). De acuerdo con la definici´ on, σ1 domina estrictamente a σ 1 .
Definici´ on 8 (Equilibrio de Nash Mixto (Nash [1950b])). En un juego finito en forma estrat´egica Γ = (N, (C i )i∈N , (ui )i∈N ), el perfil de estrategias mixtas σ ∗ = (σi∗ )i∈N ∈ ×ni=1 ∆i es un equilibrio de Nash en estrategias mixtas (o equilibrio de Nash mixto) si, para cada i ∈ N , la estrategia mixta σ i∗ del jugador i es una mejor-respuesta a las estrategias mixtas de los dem´ as jugadores. ∗ Esto es, σ es un equilibrio de Nash en estrategias mixtas para el juego Γ si, y solo si, ∗ ∗ ui (σi∗ , σ−i ) ≥ u i (σi , σ−i ) ∀σi ∈ ∆ i . ∀ i ∈ N ∗ ) = (σ ∗ , σ∗ , . . . , σ ∗ , σ , σ ∗ , . . . , σ∗ ). donde (σi , σ−i n 1 2 i−1 i i+1
Como hemos visto, una estrategia mixta es una distribuci´ on de probabilidad sobre las estrategias puras de un jugador. De esta forma, un equilibrio de Nash en estrategias mixtas corresponde a una situaci´ on en la que al menos uno de los jugadores no se ve beneficiado por “desviarse unilateralmente” a jugar una estrategia pura u otra estrategia mixta; es decir, para ´este resulta mejor elegir su acci´ on de forma aleatoria y no determin´ısticamente. Cuando un jugador sigue una estrategia mixta en un equilibrio de Nash, debe ser indiferente entre las estrategias puras a las cuales les asigna probabilidad positiva: si no lo fuera, entonces aquella estrategia pura que obtiene mayor utilidad esperada dominar´ıa a la estrategia mixta. El siguiente teorema ilustra esta idea y nos permite, efectivamente, calcular equilibrios de Nash mixtos.
61
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Teorema 6. Si un jugador utiliza una estrategia mixta no degenerada (es decir, que asigna una probabilidad positiva a m´ as de una estrategia pura) en un equilibrio de Nash mixto, entonces es indiferente entre todas las estrategias puras a las cuales les ha asignado probabilidad positiva. La afirmaci´ on rec´ıproca no es cierta. Demostraci´ on. Consideremos (sin p´erdida de generalidad) s´ olo el caso N = {1, 2}, C 1 = {A, B }, C 2 = as, que el jugador 1 asigna probabilidades p y 1 − p, con {C, D}. Supongamos, adem´ 0 < p < 1, a las estrategias A y B, respectivamente. Sea σ i∗ la distribuci´ on que asigna la probabilidad p a la estrategia A del jugador 1 y probabilidad 1 − p a la estrategia B; sea σ 2∗ una distribuci´ on cualquiera sobre las estrategias del jugador 2; y supong∗ ∗ ∗ amos que σ = (σ1 , σ2 ) es un equilibrio de Nash. Si E (A) > E (B), donde E (A) es el valor esperado de la estrategia A del jugador 1 y E (B) es el valor esperado de la estrategia B del jugador 1, entonces, u1 (σ1∗ , σ2∗ ) = pE (A) + (1 − p)E (B) < pE (A) + (1 − p)E (A) =E (A) =u(σ1 , σ2∗ ) donde σ1 = (1, 0), y esto contradice la definici´ on de equilibrio de Nash para σ ∗ = (σ1∗ , σ2∗ ). Ejemplo 23 (El Juego de Coordinaci´ on, otra vez). Consideremos nuevamente el juego de coordinaci´ on del ejemplo 19 que presentamos de nuevo en la figura 30, y encontremos su equilibrio de Nash mixto. Figura 30: El Juego de coordinaci´ on q (1-q) D
I
p
D
10,10
0,0
(1-p)
I
0,0
1,1
D≡ Derecha , I≡ Izquierda
Soluci´ on Para comenzar, encontremos las utilidades esperadas de cada uno de los jugadores para cada una de sus estrategias. Si el jugador 1 cree que el jugador 2 va a jugar su estrategia pura derecha (D)con probabilidad q e izquierda (I ) con probabilidad 1 − q , sus pagos esperados por jugar sus estrategias derecha e izquierda son, respectivamente, 1 U E (D) = 10q + 0(1 − q ) = 10q 1 U E (I ) = 0q + 1(1 − q ) = 1 − q
62
Un Curso de Teor´ıa de Juegos Cl´asica
De forma an´ aloga, si el jugador 2 cree que el jugador 1 va a jugar su estrategia derecha con una probabilidad p y su estrategia izquierda con una probabilidad 1 − p, sus pagos esperados por jugar las estrategias derecha e izquierda , respectivamente, son: 2 U E (D) = 10 p + 0(1 − p) = 10 p 2 U E (I ) = 0 p + 1(1 − p) = 1 − p
Como se establece en el teorema 6, cada jugador escoger´ a la probabilidad con la que juega cada una de sus estrategias puras de tal forma que su oponente sea indiferente al momento de elegir entre ´estas; es decir, la utilidad esperada de cada una de sus estrategias puras debe ser igual para cada jugador. As´ı, tenemos que Jugador 10q = 1 − q 1 q ∗ = 11
1
Jugador 2 10 p = 1 − p 1 p∗ = 11
De esta forma, la soluci´ o n del juego indica que cada uno de los jugadores escoger´ a su estrategia Derecha con probabilidad 1/11 y su estrategia Izquierda con probabilidad 10/11. El equilibrio de Nash en estrategias mixtas es σ ∗ = (σ1∗ , σ2∗ ) = [(1/11, 10/11) , (1/11, 10/11)], el cual ofrece a los jugadores pagos esperados, en equilibrio, de (0.9, 0.9), que es inferior al pago en los equilibrios de Nash en estrategias puras (10,10) y (1,1). Notemos, sin embargo, que una vez han sido elegidas las probabilidades con las que cada uno de los jugadores elige cada p osible acci´ on, todos son indiferentes entre jugar su estrategia mixta y jugar una estrategia pura; esto es, los valores esperados de sus utilidades son siempre 0.9.
Ejemplo 24 (Lanzar la moneda, otra vez). En el ejemplo 21 hab´ıamos visto que las utilidades esperadas de los jugadores en el juego de lanzar la moneda vienen dadas por las siguientes expresiones: 1 U E (C ) = 2q − 1,
1 U E (S ) = 1 − 2q
2 U E (C ) = 1 − 2 p,
2 U E (S ) = 2 p − 1
1 (C ) = U 1 (S ) y que U 2 (C ) = U 2 (S ) y, De acuerdo al teorema 6, se tiene que U E E E E por tanto, p = 1/2 y q = 1/2. As´ı, el equilibrio de Nash mixto de este juego es [(1/2, 1/2) , (1/2, 1/2)], y los pagos esperados, en equilibrio, son de cero para cada jugador.
Evidencia Experimental de “lanzar la moneda” Goeree y Holt [2001] dise˜ naron un experimento en el que dos individuos enfrentan un juego con pagos sim´ etricos en el que el unico ´ equilibrio de Nash consiste en
63
Juegos No-Cooperativos con Informaci´on Sim´ etrica
que cada jugador asigne una probabilidad del 50 % a cada una de sus dos estrategias, tal como en el juego de “lanzar la moneda”. Se tomaron parejas de individuos seleccionadas aleatoriamente para participar en el juego por una sola vez. Se encontr´ o que el porcentaje de la poblaci´ on que eligi´ o cada una de las acciones disponibles se ubic´o suficientemente cerca del 50 %, luego aparece cierta relaci´ on entre el porcentaje de individuos que elige cada estrategia pura, y la probabilidad que se le asigna a cada una de estas en el ´unico equilibrio de Nash del juego. Sin embargo, al variar uno de los pagos de s´olo uno de los jugadores, su asignaci´ on de probabilidades, en equilibrio, no cambia ya que su elecci´on de probabilidades se realiza con base en los pagos de su oponente. Recordemos que estas probabilidades se eligen de tal forma que el oponente sea indiferente entre todas sus estrategias puras a las que les asigna probabilidad positiva. A´ un as´ı, los resultados experimentales muestran que ante un pago mayor en un 400 % en una de las estrategias, digamos del jugador 1, el p orcentaje de la poblaci´ on que elige tal estrategia aumenta hasta cerca de un 96 %, mientras que cuando el incremento es s´olo del 10 % tal incremento llega hasta el 92 %. Es decir, modificar levemente o de forma sustancial uno de los pagos de un juego sim´etrico, transforma dram´ aticamente el porcentaje de la poblaci´ on que elige cada una de las estrategias puras. As´ı, en principio encontramos cierto sustento experimental ante los equilibrios te´ oricos del juego “lanzar la moneda” sim´etrico. Sin embargo, cuando se introduce alguna asimetr´ıa en los pagos, tal sustento parece desaparecer. Ejemplo 25 (Juego de “El Gallina”). Este juego ilustra la escena de la pel´ıcula “Rebelde sin causa” de los a˜ nos 1960 en la que dos j´ovenes (uno de ellos, el actor James Dean) se ubican en sus autom´oviles en una misma calle en extremos opuestos y aceleran en direcci´ on contraria (uno contra el otro). Cada uno puede decidir en cierto momento entre las opciones “continuar” (C) o “quitarse del camino”(Q). Desde luego, si ambos contin´ uan, reciben un pago negativo a causa del accidente; en caso de que uno contin´ ue y el otro se retire del camino (caso en el cual no hay accidente) el que se retira es calificado como “gallina” y recibe un pago de cero mientras que el otro recibe un pago positivo. Si ambos se retiran, los dos son calificados como “gallinas”, aunque reciben un pago positivo peque˜ no por haber evitado el accidente. Los pagos se representan en la bimatriz de la figura 31. Aqu´ı encontramos dos equilibrios de Nash en estrategias puras: (C, Q) y (Q, C ). Para encontrar el equilibrio mixto, igualamos las utilidades esperadas de cada una de las estrategias puras de cada jugador: Jugador
1
1 1 U E (C ) = U E (Q) −5q + 2(1 − q ) = 0q + 1(1 − q ) 1 q ∗ = 6
Jugador
2
2 2 U E (C ) = U E (Q) −5 p + 2(1 − p) = 0 p + 1(1 − p) 1 p∗ = 6
64
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 31: Juego de “el gallina” q
(1-q)
C
Q
p
C
-5,-5
2, 0
(1-p)
Q
0,2
1,1
As´ı, el equilibrio mixto de este juego es [(1/6, 5/6), (1/6, 5/6)], con pagos de 5/6 para cada uno de los jugadores.
Nota Sobre Aplicaciones del Juego de “El Gallina” El hecho de que en cada uno de los equilibrios puros de este juego uno de los jugadores obtenga un pago mayor que el del otro, permite pensar que cada uno de estos preferir´ıa el equilibrio que lo favorece y, de ser posible, adelantar´ıa acciones para alcanzarlo. Un ejemplo para “forzar” la elecci´ on de cierto equilibrio en la historia original de este juego p odr´ıa ser que el conductor de uno de los autom´ oviles lanzara el tim´ on de su auto por la ventana como un acto simb´olico para decir que no se quitar´ a del camino. A este respecto, vale la pena se˜ nalar que el juego de El Gallina ha sido utilizado en importantes aplicaciones a nivel pol´ıtico y militar. Entre tales aplicaciones se encuentran la confrontaci´ on nuclear, en donde cada uno de los pa´ıses puede ser fuerte o d´ebil, as´ı como tambi´en el per´ıodo previo a una guerra: en una confrontaci´ on nuclear, un pa´ıs se ve beneficiado si realiza un ataque y el otro no; en caso de que ambos se ataquen, sus resultados son desastrosos para ambos. En el per´ıodo preguerra cada una de las partes puede ceder o mantenerse firme ante las exigencias del otro. Al igual que en la historia original, cada pa´ıs prefiere que sea el otro el que ceda y, de ser posible, adelantar´ a acciones para conseguirlo. O´Neill [1999], por ejemplo, describe los insultos de Bush a Hussein en el per´ıodo previo a la Guerra del Golfo, y su comparaci´on con Hitler, como presiones para que Saddam cediera y se alcanzara el equilibrio que favorec´ıa a Estados Unidos. Ejemplo 26 (La Batalla de los Sexos, otra vez). Encontremos ahora el equilibrio de Nash mixto para el juego de la “batalla de los sexos”, el cual ilustramos de nuevo en la figura 32. Hab´ıamos visto que existen dos equilibrios de Nash en estrategias puras, (F, F ) y (T, T ). Para encontrar el equilibrio de Nash en estrategias mixtas, debemos encontrar la distribuci´ on de probabilidad sobre las estrategias del esposo (σ 1 = ( p, 1 − p)) y de la esposa (σ2 = (q, 1 − q )), que les brinde la mayor utilidad esperada. Si ambos juegan una estrategia mixta no degenerada, es decir 0 < p < 1 y 0 < q < 1, entonces, en el equilibrio de Nash mixto, para cada jugador se deben igualar los pagos esperados de sus dos estrategias. As´ı,
65
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 32: La “Batalla de los Sexos” q
(1-q)
F
T
p
F
2,1
0,0
(1-p)
T
0,0
1,2
Esposo
Esposa
1 1 U E (F ) = U E (T )
2 2 U E (F ) = U E (T )
2q + 0(1 − q ) = 0q + 1(1 − q ) 1 q ∗ = 3
p + 0(1 − p) = 0 p + 2(1 − p) 2 p∗ = 3
Luego, el perfil de distribuciones de probabilidad de equilibrio es ∗
σ =
(σ1∗ , σ2∗ )
=
2 1 , 3 3
,
1 2 , 3 3
El pago esperado de jugar F o T en este equilibrio es 2/3 para cada jugador. Este pago es menor al que podr´ıan obtener en los otros dos equilibrios de Nash. Evidencia Experimental de la “Batalla de los Sexos” En el experimento realizado por Rubinstein [1999] de la batalla de los sexos, se le pide a cada jugador que haga una elecci´ on dependiendo de su g´enero. Los resultados obtenidos indican que el 68 % de los participantes eligi´ o su acci´ on favorita; es decir, la acci´ on que lo conduce a su equilibrio favorito: para los hombres es F en nuestro juego, mientras que es T para las mujeres. Haciendo un an´alisis en el que se clasifique por g´ enero, el 75 % de los hombres eligi´ o su acci´ on favorita, mientras que las mujeres se dividieron equitativamente entre las dos opciones. En otro experimento, Cooper, De Jong, Forsythe y Ross [1993] encontraron que alrededor del 64 % de los participantes eligieron su acci´ on favorita. Observemos que, en ambos experimentos, aparece cierta relaci´ on entre la elecci´on sobre cada una de las estrategias puras en la distribuci´on poblacional, y la distribuci´ on de probabilidades en el equilibrio mixto. El hecho de que la distribuci´ on de hombres y mujeres sea diferente indica que hay patrones culturales de g´ enero, que influyen en las decisiones y que no est´ an incluidos en la matriz de pagos. En el experimento de Rubinstein se modific´ o el juego inicial, permitiendo que hubiera cierta comunicaci´ on previa al juego. En esta comunicaci´ on, el jugador 1 anunciaba que escoger´ıa su acci´on favorita y, seguido a esto, el jugador 2 anunciaba que ser´ıa
66
Un Curso de Teor´ıa de Juegos Cl´asica
´el (ella) quien escoger´ıa su acci´ on favorita. No ten´ıan oportunidad de volver a comunicarse. Se le pregunta a los participantes del experimento cu´ al acci´ on conjunta creer´ıan que ser´ıa elegida por los jugadores. El 41 % de los participantes tiene una inclinaci´ on por la opci´ on que favorece a 2. Lo anterior evidencia un “efecto puntofocal” generado a partir de la comunicaci´ on previa. Las otras tres combinaciones de estrategias alcanzaron participaciones alrededor del 20 %.
Ejemplo 27. Consideremos el juego de la figura 33. Aqu´ı no hay ning´ un equilibrio de Nash en estrategias puras. Sin embargo, como veremos m´ as adelante, debe tener por lo menos un equilibrio de Nash en estrategias mixtas. Para identificar este (o estos) equilibrio(s) utilizaremos el teorema 6; es decir, tendremos en cuenta que, en equilibrio, un jugador utiliza una estrategia mixta si, y s´ olo si, es indiferente entre todas las estrategias puras a las cuales les asigna probabilidad positiva. Figura 33: B´ usqueda de equilibrios mixtos L
M
R
T
7,2
2,7
3,6
B
2,7
7,2
4,5
De acuerdo con esto, consideraremos cuatro posibles casos para hallar equilibrios en estrategias mixtas; en el primero de ellos, supondremos que el jugador 2 asigna probabilidad positiva a todas sus estrategias puras; en los tres casos subsiguientes, asumiremos que este jugador s´olo asigna probabilidades entre dos de sus estrategias haciendo cero la probabilidad con la que juega la otra estrategia. Estos tres casos difieren entre s´ı dependiendo de la estrategia pura a la que se le asigna probabilidad cero. Analicemos entonces los casos: a. El jugador 2 asigna probabilidad positiva a cada una de sus tres estrategias. 2 (L)) es igual al Si esto es cierto, tenemos que el pago esperado de jugar L (U E 2 (M ) ) y al pago esperado de jugar R (U 2 (R)); pago esperado de jugar M (U E E es decir,
2 T + 7 B = 7 T + 2 B = 6 T + 5 B donde X es la probabilidad con que un jugador juega la estrategia X . De la primera igualdad se obtiene que T = B , mientras que de la segunda, T = 3 B , con lo que obtenemos una contradicci´on, por lo cual el jugador 2 no puede asignar probabilidad positiva a sus tres estrategias.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
67
b. El jugador 2 asigna probabilidad cero a su estrategia L Si esto es cierto, obtenemos T = 3 B y − R = 5 M ; y esto es una contradicci´ on porque R y M son n´ umeros positivos. c. El jugador 2 asigna probabilidad cero a su estrategia R Si esto es cierto, obtenemos T = B = 1/2 y M = L = 1/2. Por lo tanto las utilidades esperadas son U 1 = 9/2, U 2 = 9/2. Para verificar si esto constituye un equilibrio de Nash, analicemos cu´anto obtendr´ıa el jugador 2 si decidiera desviarse y jugar, con probabilidad 1, su estrategia R. En tal caso, su utilidad esperada ser´ıa U 2 = 11/2 y, por tanto, le resulta provechoso hacerlo, con lo cual jugar con probabilidad cero la estrategia R no puede constituir un equilibrio de Nash. d. El jugador 2 asigna probabilidad cero a su estrategia M En este caso obtenemos B = 2 T y R = 5 L, es decir
B =
2 1 5 1 ; T = ; R = ; L = 3 3 6 6
Con esta distribuci´ on de probabilidades, las utilidades esperadas de los jugadores 1 y 2 ser´ıan, respectivamente: U 1 = 11/3, U 2 = 16/3. Verifiquemos si el jugador 2 tiene incentivos para desviarse y jugar su estrategia M con probabilidad 1. En tal caso, su pago esperado ser´ıa 11/3, y no tendr´ıa incentivos para desviarse unilateralmente. As´ı, el equilibrio de Nash de este juego es [(1/3, 2/3) , (1/6, 0, 5/6)] ¿Existen las Estrategias Mixtas? En lo que hemos visto, la noci´ on de estrategia mixta, y de equilibrio en estrategias mixtas, se basa en la idea de que los jugadores aleatorizan a la hora de tomar sus decisiones, lo cual equivale a decir que en el momento de decidir qu´ e hacer, estos basan su decisi´ on en el resultado de una loter´ıa que ellos mismos escogen. Vista de esta forma, la aplicabilidad de este concepto resulta bastante abstracta. Radner y Rosenthal [1982], por ejemplo, establecen que “una de las razones por las cuales las ideas de la teor´ıa de juegos no han encontrado una aplicaci´ on m´ as amon , que juega un papel importante en la teor´ıa de juegos y plia, es la de aleatorizaci´ parece tener limitada aplicaci´ on en situaciones pr´ acticas”16 . De forma similar, Aumann [1987b] reconoce que “las estrategias mixtas siempre han sido intuitivamente problem´ aticas”. De manera que es necesario entonces detenernos un momento para analizar tal concepto con cierto detalle. 16
Notemos que el teorema de existencia de al menos un equilibrio de Nash recurre al uso de estrategias mixtas por parte de los jugadores.
68
Un Curso de Teor´ıa de Juegos Cl´asica
En primera instancia, es necesario aclarar que no toda aleatorizaci´ on es un equilibrio entre las estrategias puras disponibles . Para ilustrar esta idea, Rubinstein [1991] propone el siguiente ejemplo: un empleador s´ olo puede supervisar a uno de sus dos empleados A y B. Estos pueden elegir entre esforzarse mucho o poco, y se esforzar´an mucho si la probabilidad de ser supervisados p es al menos del 50 %. El problema del empleador no es entonces si supervisar a A o a B, sino el n´ umero que asigna a p. La pol´ıtica de p = 1/2 es la mejor para el empleador, y un comportamiento aleatorio es ´optimo. Sin embargo, al no ser ´este indiferente entre p = 1 y p = 1/2, sino preferir estrictamente este u ´ltimo valor, tal comportamiento no es un equilibrio mixto en el que las estrategias puras sean “monitorear a A” y “monitorear a B”. Situaciones de este tipo se encuentran en m´ ultiples escenarios; veamos unos ejemplos a continuaci´ on: a. El tipo de lanzamiento (curva o recta) que efect´ ua un lanzador en un juego de b´ eisbol es uno de estos casos. Si el bateador supiera de antemano que le lanzar´ an una recta, se preparar´ıa para esto y lograr´ıa impactarla satisfactoriamente; de igual forma ocurrir´ıa si supiera que le van a lanzar una curva. Por lo tanto, el lanzador podr´ıa ser indiferente entre lanzar una recta o una curva, y su mejor estrategia es “hacerse impredecible” y escoger su lanzamiento de acuerdo con alguna distribuci´ on de probabilidad a priori. b. Un caso similar es el de un ej´ercito decidiendo si atacar p or aire o por tierra. En caso de que el ej´ercito enemigo conociera de antemano el tipo de ataque, lograr´ıa neutralizarlo; el ´exito de la invasi´ on reside entonces en la aleatoriedad respecto al camino a seguir. En segunda instancia, y entre otras posibles interpretaciones de las estrategias mixtas, se encuentran las siguientes:
Idea de purificaci´ on. En este contexto, una estrategia mixta se piensa como un plan de acci´ on que depende de informaci´ on privada que no est´a especificada en el modelo. De esta forma, una vez tal informaci´ on privada se involucra al modelo, las estrategias mixtas se convierten en estrategias puras condicionales a tal informaci´ on. Dos aspectos juegan en contra de esta interpretaci´ on: primero, considerar que los jugadores puedan basar sus decisiones en aspectos que no afecten los pagos. Segundo, que el modelo se hace muy sensible ya que cualquier cambio en algunas de las variables no-especificadas que afectan el comportamiento de los agentes puede perturbar el equilibrio. En el cap´ıtulo siguiente veremos esto formalmente. on entre Grandes poblaciones. Podr´ıa pensarse cada juego como la interacci´ poblaciones grandes, en las que un juego particular se lleva a cabo una vez cada jugador ha sido extra´ıdo aleatoriamente de una de estas poblaciones. En este contexto, una estrategia mixta puede entenderse como una distribuci´ on poblacional sobre las estrategias puras. Los ejemplos que vimos sobre evidencia
Juegos No-Cooperativos con Informaci´on Sim´ etrica
69
experimental de la “batalla de los sexos” o “lanzar la moneda”, en donde la on que escoge cada estrategia pura se asemeja suficienproporci´ on de la poblaci´ temente a la probabilidad determinada por el equilibrio mixto, dan soporte a este argumento. Esta idea est´ a en el centro de la visi´ on evolutiva de la teor´ıa de juegos, conocida como teor´ıa de juegos evolutivos. Sin embargo, para juegos que solo se juegan una vez por parte de un s´olo par de jugadores, la justificaci´ on de las estrategias mixtas como porcentajes de poblaci´ on es, desde luego, bastante limitada.
Ejercicios 5. 1. Encuentre el equilibrio de Nash en estrategias mixtas de la siguiente figura: Izquierda
Derecha
Alta
7,2
2,7
Baja
3,3
4,1
2. (“Halc´ on y Paloma”) Dos individuos involucrados en un conflicto pueden adoptar uno de dos posibles comportamientos: “agresivo” (halc´ on) o “conciliador” (paloma). Si dos Halcones se encuentran, se provocan da˜ nos por una valor de (v − c)/2, donde c > v > 0. Si un halc´ on se encuentra con una paloma, el halc´ on obtiene v y la paloma cero. Si dos palomas se encuentran obtienen cada uno v/2. a. Presente este juego en forma estrat´egica. b. Encuentre los equilibrios de Nash de este juego. c. Determine c´ omo cambian las probabilidades de equilibrio ante cambios en v y c. Explique. 3. En el juego bilateral resumido por la siguiente figura: R
S
T
X
4,1
3,3
2,2
Y
5,5
1,4
3,3
Z
2,4
2,1
1,3
70
Un Curso de Teor´ıa de Juegos Cl´asica
a. ¿Qu´e estrategias del juego sobreviven a la eliminaci´ on iterativa de estrategias dominadas? b. Calcule los equilibrios de Nash, tanto en estrategias puras como mixtas. 4. Analizar nuevamente el juego infantil “piedra - papel - tijera” en el que dos ni˜ nos deben elegir simult´ aneamente una de estas tres opciones, con una se˜ nal en la mano que identifique los respectivos objetos; “piedra” vence a “tijera”, “tijera” vence a “papel” y “papel” vence a “piedra”. El jugador que gane, obtiene un pago de 2; el que pierda, un pago de cero; y, en caso de empate, cada uno recibe un pago de uno. a. Presente este juego en forma estrat´ egica. b. Encuentre la soluci´ on del juego. 5. Los jugadores 1 y 2 escogen, cada uno, un elemento del conjunto {1,...,K }. Si los jugadores escogen el mismo n´ umero entonces el jugador 2 le paga $1 al jugador 1, y si no escogen el mismo n´ umero no se realiza ning´ un pago. Cada jugador quiere maximizar su pago monetario esperado. Encuentre el equilibrio de Nash en estrategias mixtas de este juego. 6. El ej´ercito A tiene un avi´ o n con el que puede atacar uno de tres posibles objetivos. El ej´ercito B tiene un tanque antia´ereo que puede ser asignado a uno de los objetivos. El valor del objetivo k es v k donde v1 > v2 > v3 . El ej´ercito A puede destruir un objetivo s´olo si el objetivo no est´a defendido y ´el ataca. El ej´ercito A desea maximizar el valor esperado de los da˜ nos, y el ej´ercito B lo desea minimizar. Formule la situaci´ on como un juego en forma estrat´egica y encuentre los equilibrios de Nash mixtos. Encuentre el valor minmax de este juego y explique su relaci´ on con los equilibrios de Nash mixtos. 7. Calcule los equilibrios de Nash en estrategias mixtas del juego de la siguiente figura e interprete estos equilibrios: L
M
R
a2
b2
c2
T
8,5
3,9
4,8
a1
6,12
5,2
2,5
B
4,6
5,3
5,7
b1 2,2
3,12
12,5
8. Vimos los problemas que surg´ıan en la coordinaci´ on en juegos con m´ ultiples equilibrios. Algunos resultados recientes en teor´ıa de juegos explican la coordinaci´ on en lo que se ha dado en llamar equilibrios dominantes bajo riesgo (risk-dominant). Un equilibrio de Nash es dominante bajo riesgo si cada una de las estrategias que lo componen es una mejor respuesta a una estrategia mixta del otro jugador, en la que asigna igual probabilidad a todas sus estrategias puras.
71
Juegos No-Cooperativos con Informaci´on Sim´ etrica
a. Muestre que con el criterio de dominancia bajo riesgo, en el juego de coordinaci´ on se “elige” el equilibrio Pareto-dominante. b. Muestre que si los pagos se modifican de la siguiente forma, se elige el equilibrio Pareto-dominado y explique este resultado: D
I
D 10,10 I
-100,2
2,-100
1,1
La relaci´ on que presentan los pagos de este juego constituye lo que se conoce como el juego de “el cazador de venados”, que representa la historia que ya comentamos de J. J. Rousseau en la secci´ on V. 9. En un juego Γ = (N, (C i )i∈N , (ui )i∈N ) una estrategia correlacionada es una distribuci´ on de probabilidad sobre el conjunto de estrategias puras conjuntas de los jugadores en N . Un mediador recomienda confidencialmente a cada uno de los jugadores una estrategia particular. Una vez realizada tal recomendaci´ on, cada jugador es libre de seguirla o no. Una recomendaci´ on del mediador es un equilibrio correlacionado (Aumann [1974]) si, y s´ olo si, la utilidad esperada de cada jugador por seguir la recomendaci´ on del mediador es mayor que la de no hacerlo; esto es, si la recomendaci´ on realizada por el mediador se realiza de acuerdo con la distribuci´ on de probabilidad µ sobre × ni=1 (C i ), decimos que tal recomendaci´ on es un equilibrio correlacionado del juego Γ si, y s´olo si:
µ(ti , t−i )ui (ti , t−i ) ≥
c−i ∈C −i
µ(ti , t−i )ui (di , t−i )
c−i ∈C −i
para todo d i ∈ C i , ti ∈ C i , i ∈ N ; o, lo que es lo mismo,
µ(ti , t−i ) (ui (ti , t−i ) − ui (di , t−i )) ≥ 0
c−i ∈C −i
para todo d i ∈ C i , ti ∈ C i , i ∈ N. a. Encuentre el equilibrio correlacionado que maximiza la suma de las utilidades de los jugadores en los juegos del dilema del prisionero, batalla de los sexos, lanzar la moneda, ultim´ atum y el gallina. b. Encuentre el equilibrio correlacionado que maximiza el pago de la esposa en el juego de la batalla de los sexos. c. Encuentre el equilibrio correlacionado que maximiza el producto de las utilidades de los jugadores en los juegos del dilema del prisionero, batalla de los sexos, lanzar la moneda, ultim´ atum y el gallina.
72
Un Curso de Teor´ıa de Juegos Cl´asica
10. (Dickhaut y Kaplan [1993]) El software Mathematica incluye importantes aplicaciones para facilitar el c´ alculo de algunas soluciones en teor´ıa de juegos. A continuaci´ on presentamos una rutina b´ asica para el c´ alculo de equilibrios de Nash (puros y mixtos) en juegos finitos de dos jugadores. Para empezar es necesario cargar el paquete “nash”, lo cual se logra digitando:
varian’nash’nash’ en el espacio correspondiente para las entradas. Seguido a esto, se procede a introducir el juego. Para esto se le asigna un nombre cualquiera. Los pagos se introducen por celdas de izquierda a derecha y de arriba hacia abajo. Cada fila se delimita utilizando corchetes { }. As´ı, por ejemplo, para introducir el juego de la batalla de los sexos, la rutina ser´ıa:
batalla= {{{2,1},{0,0 }},{{0,0 },{1,2 }}}. Una vez introducido el juego, Mathematica cuenta con un algoritmo que encuentra los equilibrios de Nash del juego. Para utilizarlo basta con digitar “Nash” seguido del nombre asignado al juego dentro de par´entesis angulares. Siguiendo con el ejemplo anterior, el comando ser´ıa:
Nash[batalla] En este caso, Mathematica arroja un resultado de la forma
{{{0, 1}, {0, 1}}, {{2/3, 1/3}, {1/3, 2/3}}, {{1, 0}, {1, 0}}} All´ı, cada par de corchetes representa una de las distribuciones de probabilidad que corresponde a cada equilibrio de Nash del juego. As´ı, p or ejemplo, el primer par de n´ umeros en la salida anterior ilustra el equilibrio de Nash donde ambos jugadores eligen su segunda estrategia (con probabilidad 1), mientras que el segundo par de n´ umeros corresponde al equilibrio mixto del juego. Utilice los comandos mencionados para el c´ alculo de equilibrios de Nash de todos los juegos estudiados hasta ahora. VII
.
Correspondencias de Mejor-Respuesta
Resulta aclarador, con frecuencia, establecer el conjunto de acciones disponibles que le maximizan a cada jugador su utilidad esperada dada cada posible acci´ on conjunta de los dem´as jugadores. A esta colecci´ on de acciones se le conoce como correspondencia de mejor-respuesta , y es claro que una estrategia conjunta en la que las correspondencias de mejor-respuesta de todos los jugadores coinciden, es un equilibrio de Nash del juego. Esto muestra claramente por qu´ e un equilibrio de Nash es un equilibrio de expectativas satisfechas ( fullfilled expectations equilibrium ): en un equilibrio de Nash “mis oponentes har´ an lo que efectivamente yo espero que hagan”.
73
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Definici´ on 9 (Correspondencia de Mejor-Respuesta). La correspondencia de mejor-respuesta del jugador i se define como el conjunto de estrategias del jugador i que le maximiza su utilidad esperada, para cada perfil de estrategias conjuntas de todos los jugadores excepto las de i. Es decir, para e−i ∈ ∆(C −i ):
ψi (e−i ) =
ei |ei ∈ argmax ui (di , e−i ) di ∈∆(C i )
Ilustremos esto con algunos ejemplos. Ejemplo 28. Encontremos las correspondencias de mejor-respuesta de algunos de los juegos que ya hemos estudiado. a. Dilema del prisionero Supongamos que el prisionero 1 juega su estrategia confesar con probabilidad p y el prisionero 2 juega su estrategia confesar con probabilidad q . Las utilidades esperadas de los jugadores 1 y 2 son, respectivamente: 1 U E = p [−4q + 0(1 − q )] + (1 − p) [−5q − 1(1 − q )] = p − 4q − 1 2 U E = q [−4 p + 0(1 − p)] + (1 − q ) [−5 p − 1(1 − p)]
= q − 4 p − 1 Notemos que el jugador 1, independientemente del valor que 2 le asigne a q , maximiza su utilidad esperada cuando otorga un valor de 1 a p. De forma an´ aloga, el jugador 2 maximiza su utilidad esperada asign´ andole un valor de 1 a q : ψ1 (q ) = 1, ψ2 ( p) = 1 As´ı se obtiene como resultado el equilibrio de Nash mostrado antes, donde cada sospechoso juega su estrategia confesar con probabilidad 1. En la figura 34 se muestran las correspondencias de mejor-respuesta de los dos jugadores en el plano ( p, q ). b. Batalla de los sexos De forma similar al caso anterior, el juego de la batalla de los sexos genera las siguientes funciones de utilidad esperada para cada uno de los jugadores: 1 U E = p [2q + 0(1 − q )] + (1 − p) [0q + 1(1 − q )] = p(3q − 1) + (1 − q ) 2 U E = q [1 p + 0(1 − p)] + (1 − q ) [0 p + 2(1 − p)] = q (3 p − 2) + 2 − 2 p
74
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 34: Dilema del prisionero q Equilibrio de Nash 1 Correspondencia de 2 Correspondencia de 1
0
1 p
Podemos ver que para valores de q superiores a 1/3, el jugador 1 maximiza su utilidad esperada cuando p toma un valor de 1; para valores menores a 1/3, el jugador 1 maximiza su utilidad esperada haciendo p igual a cero y, cuando q vale 1/3, el jugador 1 es indiferente entre todos los valores de p. De igual forma, para valores de p superiores a 2/3, el jugador 2 maximiza su utilidad esperada cuando q toma un valor de 1. Para valores de p menores a 2/3, el jugador 2 maximiza su utilidad esperada haciendo q igual a cero y, cuando p vale 2/3, el jugador 2 es indiferente entre todos los valores de q . De esta forma, las correspondencias de mejor-respuesta vienen dadas por:
ψ1 (q ) =
1 α ∈ [0, 1] 0
si q > 13 , si q = 13 , si q < 13 .
ψ2 ( p) =
1 β ∈ [0, 1] 0
si p > 23 , si p = 23 , si p < 23 .
Llevando este an´ alisis al plano ( p, q ) obtenemos la figura 35. Notemos que en esta figura aparecen los tres equilibrios de Nash (dos puros y uno mixto) encontrados anteriormente, pero ahora surgen como las intersecciones de las correspondencias de mejor-respuesta de los dos jugadores. c. El gallina En este juego, las funciones de utilidad esperada para cada uno de los jugadores son de la siguiente forma:
1 U E = p [−5q + 2(1 − q )] + (1 − p)(1 − q ) = p(1 − 6q ) + (1 − q ) 2 U E = q [−5 p + 2(1 − p)] + (1 − q )(1 − p) = q (1 − 6 p) + (1 − p)
75
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 35: Batalla de los Sexos q EN puro (F, F ) 1
Correspondencia de 2 Correspondencia de 1 1/3
EN Mixto 2/3
EN puro (T, T )
1 p
Entonces,
ψ1 (q ) =
0 α ∈ [0, 1] 1
si q > 16 , si q = 16 , si q < 16 .
ψ2 ( p) =
0 β ∈ [0, 1] 1
si p > 16 , si p = 16 , si p < 16 .
Nuevamente, llevando estas correspondencias de mejor-respuesta al plano ( p, q ), obtenemos la figura 36. Notemos la aparici´ on de los tres equilibrios de Nash encontrados previamente. Figura 36: Juego de “El Gallina” q EN puro (Q, C ) 1 Correspondencia de 1
Correspondencia de 2 EN mixto EN puro (C, Q)
1/6
0 1/6
1 p
atum (Un Juego con Infinitos Equilibrios) d. Juego del ultim´ Consideremos nuevamente el juego del ultim´ atum, representado por la bimatriz de la figura 37.
76
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 37: Juego del ultim´ atum q
(1 − q )
A
N
p
E
2,2
2,2
(1 − p)
F
3,1
0,0
All´ı, las funciones de utilidad esperada de los jugadores 1 y 2, respectivamente, son: 1 U E = p(2 − 3q ) + 3q 2 U E = q (1 − p) + 2 p
luego las correspondencias de mejor-respuesta son:
ψ1 (q ) =
1 α ∈ [0, 1] 0
si q < 2/3, si q = 2/3, si q > 2/3.
ψ2 ( p) =
1 si p < 1, β ∈ [0, 1] si p = 1.
Graficando estas correspondencias de mejor-respuesta obtenemos la figura 38. Figura 38: Juego del Ultim´ atum q
Equilibrio de Nash puro
1
Correspondencia de 2
Correspondencia de 1
Equilibrios de Nash mixtos
0
1 p
Equilibrio de Nash puro
Notemos que en este juego aparecen infinitos equilibrios de Nash. Adem´as, recordemos que al final del ejemplo 12 mencionamos que, en general, no es correcto eliminar estrategias d´ ebilmente dominadas ya que podr´ıamos estar
77
Juegos No-Cooperativos con Informaci´on Sim´ etrica
eliminando algunas posibles soluciones del juego. En este ejemplo ocurre tal situaci´ on ya que si lo solucionamos a trav´es del concepto de estrategias d´ebilmente dominadas, la u´nica soluci´ on ser´ıa la combinaci´ on de estrategias (F, A), y todos los dem´ as equilibrios de Nash, simplemente, no aparecer´ıan. Teorema 7 (Teorema de Nash [1950b]). Todo juego finito en forma estrat´ egica tiene al menos un equilibrio de Nash (en estrategias puras o mixtas). Demostraci´ on. Sea Γ = (N, (C i )i∈N , (ui )i∈N ) un juego finito en forma estrat´egica, y sea ∆ = ×ni=1 ∆i . Entonces17 probemos los siguientes puntos: 1. ∆ es convexo: Sean σ = (σi ), σ = (σi ) ∈ ∆, σ = (σi ); es claro que para λ ∈ [0, 1], λσ + (1 − λ)σ = (λσi + (1 − λ)σi ). Aqu´ı podemos asumir que =c σi = pcj j=1i , donde pcj es la probabilidad asociada a la estrategia pura c j con
ci = j=1 pcj =
1, y pci ≥ 0; similarmente, para σi = pcj
tendremos que
=ci
j=1
. Entonces
=ci a. λσi + (1 − λ)σi = (λpcj + (1 − λ) p c j ) j=1 ,
b. λpcj + (1 − λ) pcj ≥ 0 y c.
=ci j=1 (λpcj +(1 − λ) pcj )
= λ
=ci j=1 pcj +(1 − λ)
y esto prueba la convexidad del conjunto ∆.
=ci j=1 pcj
= λ1+(1 −λ)1 = 1
2. ∆ es compacto ya que ∆i es compacto (s´ımplex unitario) para todo i. 3. Ahora: sea γ i : ∆ → ∆i , definida por γ i (σ) = {σi ∈ ∆i /ui (σi , σ−i ) ≥ ui (σi , σ−i ) para todo σi ∈ ∆i } y sea γ : ∆ → ∆ definida por γ (σ) = (γ 1 (σ), γ 2 (σ), . . . , γn (σ)). Si probamos que γ i es semicontinua superiormente y que para todo σ ∈ ∆, γ i (σ) es no-vac´ıo y convexo, entonces γ tiene un punto fijo; es decir, existe σ ∗ ∈ ∆ tal que σ ∗ ∈ γ (σ ∗ ); esto es, si σ i∗ ∈ γ i (σ∗ ), entonces ∗ ∗ ui (σi∗ , σ−i ) ≥ u i (σi , σ−i )
para todo σ i ∈ ∆ i
es decir, σ ∗ es un equilibrio de Nash. 17
La demostraci´ on de este teorema requiere la aplicaci´on del Teorema de Punto Fijo de Kakutani que establece lo siguiente:“Si S ⊆ Rn es un conjunto no-vac´ıo, compacto y convexo, y si ϕ : S → S es una correspondencia semicontinua superiormente tal que para todo x ∈ S el conjunto ϕ(x) es no-vac´ıo y convexo, entonces ϕ tiene un punto fijo en S , es decir, existe x ∈ S tal que x ∈ ϕ (x) . Recordemos que a) S es compacto si es cerrado y acotado; b) S es convexo si para todo s 1 , s2 ∈ S y λ ∈ [0, 1] se tiene que λs1 + (1 − λs2 ) ∈ S ; c) ϕ : S → S es una correspondencia semicontinua superiormente si, y s´ olo si, Graf (ϕ) = x∈S {(x, y)}|y ∈ ϕ (x)} es un conjunto cerrado en S × S .
78
Un Curso de Teor´ıa de Juegos Cl´asica
a. Probar que γ i (σ) es no-vac´ıo; es decir, que el problema m´ ax ui (σi , σ−i )
σi ∈∆i
para σ −i fijo
tiene soluci´ on, es inmediato por el teorema de Weierstrass 18 . b. Probemos que γ i (σ) es convexo. Si tenemos σi , σi ∈ γ i (σ), entonces ui (σi , σ−i ) ≥ u i (σi , σ−i )
para todo σi ∈ ∆ i
) ≥ u i (σi , σ−i ) ui (σi , σ−i
para todo σi ∈ ∆ i
As´ı, ui (λσi + (1 − λ)σi , σ−i ) ≥ u i (σi , σ−i ), para todo σ i ∈ ∆ i . c. Probemos que el gr´ afico de γ es cerrado, Graf (γ ) = {(σ, σ )|σ ∈ γ (σ)} Sea (σn , σn ) ∈ Graf (γ ) y (σn , σn ) → (σ, σ ), donde σ, σ ∈ ∆. Debemos probar que (σ, σ ) ∈ Graf (γ ), es decir que σ γ (σ) para alg´ un σ ∈ ∆ → σ entonces, de Pero, como σn,i i
ui (σn , σ−i ) ≥ u i (σi , σ−i )
σi ∈ ∆ i
ui (σn , σ−i ) ≥ u i (σi , σ−i )
σi ∈ ∆ i
tenemos σ i ∈ γ i (σ), y esto completa la demostraci´ on.
Observemos que este teorema garantiza, para juegos con un n´ umero finito de jugadores, la existencia de al menos una combinaci´ on de estrategias tal que ninguno de ellos tiene incentivos unilaterales para desviarse. El lector podr´ıa preguntarse aqu´ı por qu´ e si el teorema de Nash que acabamos de presentar es aplicable para cualquier conjunto finito de jugadores, los ejemplos y aplicaciones presentados en este cap´ıtulo u´nicamente han involucrado a dos jugadores. Como dijimos, von Neumann y Morgenstern reconoc´ıan que para tratar con juegos de m´ as de dos jugadores deber´ıa recurrirse a una metodolog´ıa diferente a la utilizada en juegos de dos jugadores, ya que en aqu´ ellos casos algunos jugadores podr´ıan formar alianzas que los beneficiaran frente a terceros jugadores. Sin embargo, Nash no pareci´ o creerlo as´ı. De hecho, algunos piensan que la consideraci´ on de la formaci´ on de alianzas y la cooperaci´on por parte de von Neumann, frente a la omisi´ on de ´estas por parte de Nash, y el que aqu´el no considerara atractiva la iniciativa de este ultimo ´ cuando se propon´ıa demostrar la existencia de equilibrios en juegos finitos, ten´ıa razones en la sicolog´ıa profunda de los dos individuos. Nassar [2001], por ejemplo, dice: 18
El teorema de Weierstrass dice: “Si X ⊆ Rn es un conjunto no-vac´ıo, compacto y f : X → R una funci´ on continua, entonces f (·) alcanza un m´ aximo y un m´ınimo en X ”. Ver Monsalve [2005].
79
Juegos No-Cooperativos con Informaci´on Sim´ etrica
No resulta en absoluto sorprendente que ambos genios chocaran entre s´ı, ya que hab´ıan llegado a la teor´ıa de juegos a partir de visiones opuestas sobre la forma en que interact´ ua la gente. Von Neumann, que se hab´ıa hecho adulto discutiendo en caf´ es europeos y colaboraba en la construcci´ on de la bomba at´ omica y los ordenadores , consideraba a las personas como seres sociales que est´ an en permanente comunicaci´ on, y por ello le resultaba perfectamente natural poner el acento en la importancia central que ten´ıan en la sociedad las coaliciones y la acci´ on conjunta. Nash tend´ıa a pensar en las personas como seres que estaban aislados de sus semejantes y que actuaban por su cuenta, raz´on por la cual le parec´ıa mucho m´ as natural una perspectiva basada en los modos en que la gente reacciona a los incentivos individuales.
Ejercicios 6. 1. Grafique las correspondencias de mejor-respuesta y encuentre los equilibrios de Nash (puros y mixtos) de los siguientes juegos: x2
y2
x2
y2
x1 9,4
6,4
x1 3,1
1,3
y1 8,5
4,3
y1 5,5
4,2
x2
.
VIII
y2
x2
y2
x1 10,1
0,0
x1 -6,-6
-6,-6
y1 0,0
1,1
y1 -6,-6
-1,-1
Un Refinamiento del Equilibrio de Nash: Perfecci´ on de Mano Temblorosa (Selten [1975])
Desde 1975 comenz´ o a verse claramente que la definici´on amplia del concepto de equilibrio de Nash en ocasiones no prove´ıa de una adecuada descrip ci´ on del problema bajo estudio. Para remediar esto, se empezaron a desarrollar “refinamientos” de tal concepto, algunos de ellos exigiendo “m´ as racionalidad” por parte de los jugadores, pero tambi´ en otros, como el Premio Nobel en Econom´ıa de 1994, Reinhard Selten, quien en 1975 definiera el concepto de “equilibrio de Nash de mano temblorosa”, utilizando cierta “irracionalidad” como mecanismo para llegar a una fuerte noci´ on de racionalidad; es decir, mostrando que la racionalidad no necesariamente podr´ıa abastecerse de s´ı misma .
80
Un Curso de Teor´ıa de Juegos Cl´asica
El refinamiento de mano temblorosa establece que un equilibrio de Nash razonable debe ser inmune a peque˜ nas probabilidades de error en la ejecuci´ on de las estrategias. Con esta noci´ on de equilibrio de Selten se llega a una idea m´ as “evolutiva” que “racional” que consiste b´ asicamente en que los eventos con baja probabilidad de ocurrencia no deber´ıan preocuparnos . Veamos esto. Sea Γ = (N, (C i )i∈N , (ui )i∈N ) un juego finito en forma estrat´ egica, y µ i,c la probabilidad de que la estrategia c ∈ C i sea jugada, por error, por el jugador i, donde c∈C i µi,c < 1.
Definamos, con ´estas probabilidades, µ i,c el subconjunto de ∆(C i ) consistente en aquellas estrategias mixtas que el jugador i puede implementar, dados los errores de probabilidad µi,c , as´ı: ∆i (µ) = {σ ∈ ∆ i (ci )|σi,c ≥ µ i,c } donde µ = (µi,c )i∈N,c∈C i . Con lo anterior, se construye el juego perturbado (asociado a Γ), notado Γ(µ), as´ı: Γ(µ) = (N, ×ni=1 ∆i (µ), (ui )ni=1 ) Por el teorema de Nash, estos juegos tienen al menos un equilibrio de Nash. Definici´ o n 10 (Equilibrio de Nash Perfecto de Mano Temblorosa). Un equilibrio de Nash (σ ∗ ) de un juego en forma estrat´egica Γ es perfecto de mano temblorosa (trembling hand ) si para alguna sucesi´on de juegos perturbados on de estrategias mixtas {σ µ∗ t } cada una {Γ(µt )}∞ t=1 , podemos encontrar una sucesi´ de las cuales es un equilibrio de Nash de los juegos Γ(µ t ), tales que σ µ∗ t → σ ∗ cuando t → ∞. Definimos como ∆(C i , µi,c )c∈C i = {xi ∈ ∆(C i )|xi,c ≥ µ i,c } el conjunto de estrategias mixtas que el jugador i puede implementar dados los errores µ = (µ i,c )ci C i . Consideremos los juegos perturbados. ∈
Lo anterior equivale a decir que σ ∗ es perfecto si, y s´olo si, en cada vecindad de σ ∗ existe alguna estrategia interior y para la cual σ ∗ es una mejor-respuesta. Pero, que el concepto de equilibrio de Nash de mano temblorosa tiene sentido comienza a validarse porque, efectivamente, este tipo de equilibrios con “ruido” existen. Teorema 8 (Existencia de Equilibrios de Nash Perfectos). Todo juego finito en forma estrat´ egica tiene al menos un equilibrio de Nash perfecto. Demostraci´ on. Ver Selten [1975]. Ejemplo 29 (C´ alculo de Equilibrios de Nash Perfectos). Calculemos los equilibrios de Nash perfectos de los juegos batalla de los sexos, dilema del prisionero y ultim´ atum.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
81
a. Batalla de los sexos Analicemos cada uno de los equilibrios de Nash de este juego. i. Si p = 1, ψ2 ( p) = 1 y si p = 1 − , (para > 0 “peque˜ no”) ψ2 ( p) = 1. De forma similar, si q = 1, entonces su mejor-respuesta es ψ 1 (q ) = 1 y si q = 1 − , ψ1 (q ) = 1; luego el equilibrio en el que ambos van a f´ utbol, ([(1, 0), (1, 0)]), es perfecto. ii. Si p = 0, ψ2 ( p) = 0 y s i p = , (para > 0 “peque˜ no”) ψ2 ( p) = 0. De igual forma, para el jugador 1 tenemos que si q = 0, ψ1 (q ) = 0, y si q = , ψ1 (q ) = 0; por lo tanto, el equilibrio en el que ambos van a teatro, ([(0, 1), (0, 1)]), tambi´en es perfecto. iii. Ahora consideremos el equilibrio mixto: si p = 2/3, ψ 2 ( p) = β para todo β ∈ [0, 1] y si p = 2/3 + entonces ψ2 ( p) = 1. Para el jugador 1 tenemos que si q = 1/3 entonces ψ1 (q ) = α y si q = 1/3 + entonces ψ2 ( p) = 1; como 1 ∈ [0, 1] entonces [(2/3, 1/3), (1/3, 2/3)] tambi´en es perfecto.
b. Dilema del prisionero Sabemos que si q = 1, ψ1 (q ) = 1 y si q = 1 − (para > 0 “peque˜ no”), ψ1 (q ) = 1; de forma similar, si p = 1, ψ2 ( p) = 1 y si p = 1 − , ψ2 ( p) = 1. Por lo tanto p = 1, q = 1 es un equilibrio perfecto para el dilema del prisionero. c. Ultim´ atum Analicemos los equilibrios de Nash de este juego: a. Tomemos inicialmente el equilibrio en estrategias puras (F, A). Verifiquemos para el jugador 1: si q = 1, ψ1 (q ) = 0, y si q = 1 − (para > 0 “peque˜ no”), entonces ψ1 (q ) = 0; verifiquemos ahora para el jugador 2: si p = 1, ψ2 ( p) = β para todo β ∈ [0, 1], mientras que si p = 1 − , entonces ψ2 ( p) = 1. Como en este equilibrio la mejor-respuesta en el juego perturbado para ambos agentes hace parte de la mejor-respuesta en el juego original, el equilibrio de Nash en estrategias puras donde el jugador 1 escoge F y el jugador 2 escoge A es perfecto. b. Analicemos ahora el equilibrio mixto en el que el jugador 1 escoge p = 1 y el jugador 2 escoge q = 2/3. Aqu´ı, ψ1 (q ) = α para todo α ∈ [0, 1], mientras que si q = 2/3 − entonces ψ1 (q ) = 1. Para el jugador 2 tenemos que si p = 1, ψ2 ( p) = β para todo β ∈ [0, 1] mientras que si p = 1 − , entonces ψ2 ( p) = 2/3, por lo tanto este tambi´en es un equilibrio perfecto. c. Por u ´ ltimo, tomemos cualquiera de los equilibrios en los que el jugador 1 escoge E ( p = 1) y el jugador 2 escoge q < 2/3. Para el jugador 1, si q < 2/3, ψ1 (q ) = 1; y para el jugador 2, si p = 1, entonces ψ 2 ( p) = β para todo β ∈ [0, 2/3), mientras que si p = 1 − , entonces ψ2 ( p) = 1. Como en este equilibrio la mejor-respuesta del juego perturbado no hace parte de la mejor-respuesta del juego original, este conjunto de equilibrios no es perfecto.
82
Un Curso de Teor´ıa de Juegos Cl´asica
Ejercicios 7. 1. Encuentre los equilibrios perfectos (de mano temblorosa) de los siguientes juegos: x2 x1 10,10 y1
2,-100
y2
x2
y2
-100,2
x1 -6,-6
-6,-6
1,1
y1 -6,-6
-1,-1
2. Encuentre los equilibrios de Nash perfectos (de mano temblorosa) de los juegos halc´ on y paloma, gallina y dilema de seguridad.
.
IX
Infinitas Estrategias y Equilibrios de Nash
Hasta ahora hemos analizado juegos con un n´ umero de estrategias que, si bien puede ser suficientemente grande, es finito. Sin embargo, en muchas situaciones de inter´es en econom´ıa y otras ciencias sociales, resulta util ´ considerar que cada jugador tiene a su disposici´ on conjuntos con infinitas estrategias. Ejemplos de esto son la cantidad de recursos que cada pa´ıs decide invertir en educaci´ on anualmente, la ubicaci´ on de los establecimientos comerciales en una ciudad, la cantidad de un producto agr´ıcola que un campesino lleva al mercado, o el precio que establecen dos o m´ as firmas que compiten en una industria. Claramente en cada uno de estos casos los conjuntos de estrategias son infinitos, por lo cual algunos de los resultados presentados hasta ahora deben ser revisados. Una vez establecido el teorema de Nash sobre la existencia del equilibrio en juegos finitos, algunos te´ oricos en juegos percibieron esta “debilidad”, y se preguntaron si al permitir que los conjuntos de estrategias fueran infinitos tal equilibrio segu´ıa existiendo. A continuaci´ on ilustramos dos teoremas que respondieron a estas inquietudes. Teorema 9 (Debreu [1952], Glicksberg [1952], Fan [1952]). Considere un juego en forma estrat´ egica Γ = (N, (C i )i∈N , (ui )i∈N ) cuyos espacios de estrategias C i son subconjuntos no-vac´ıos, compactos 19 y convexos de Rn. Si todas las funciones de pago ui son continuas en c y cuasic´ oncavas 20 en ci , existe un equilibrio de Nash en estrategias puras Demostraci´ on. Ver Glicksberg [1952] 19 20
Un conjunto en Rn es compacto si, y s´ olo si, es cerrado y acotado. Ver Monsalve [2005] para una definici´ on precisa de cuasiconcavidad.
83
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Teorema 10 (Glicksberg [1952]). Considere un juego en forma estrat´ egica Γ = (N, (C i )i∈N , (ui )i∈N ) cuyos espacios de estrategias C i son subconjuntos no-vac´ıos y compactos de R n . Si las funciones de pago ui son continuas en C = ×ni=1 , entonces existe un equilibrio de Nash en estrategias mixtas. Demostraci´ on. Ver Glicksberg [1952] Ejemplo 30 (Juego con Infinitas Estrategias sin Equilibrios de Nash Puros). Consideremos el siguiente juego con dos jugadores 1 y 2, y conjuntos de estrategias C 1 = C 2 = [0, 1], con c1 ≤ c 2 donde las funciones de pago vienen dadas por: u1 (c1 , c2 ) = −|c1 − c2 | u2 (c1 , c2 ) =
− (c1 − c2 − 1/4)1/2 si c 1 ≥ 1/4, − (c1 − c2 + 1/4)1/2 si c 1 < 1/4
y encontremos primero las correspondencias de mejor-respuesta para este juego. En el caso del jugador 1, observemos que su m´aximo pago posible (cero) lo alcanza cuando c1 = c2 ya que, en cualquier otro caso, incurrir´a en una p´ erdida igual al valor absoluto de la diferencia entre c1 y c2 . Para el jugador 2 podemos buscar la condici´ on de primer orden ∂u2 /∂c 2 = 0 y despejar c 2 , con lo que obtenemos:
c2 =
c1 − 1/4 si c1 ≥ 1/4, c1 + 1/4 si c1 < 1/4
Figura 39: Juego sin equilibrios de Nash Puros C 2 1
Correspondencia de mejor-respuesta de 1
◦
0
1
C 1
Correspondencia de mejor-respuesta de 2
Como es claro en la figura 39, al ser discontinua la correspondencia de mejorrespuesta del jugador 2, ´esta no se intercepta en ning´ un punto con la del jugador 1, y
84
Un Curso de Teor´ıa de Juegos Cl´asica
por tanto en este juego no hay equilibrio de Nash en estrategias puras. ¿Qu´e hip´ otesis del teorema anterior est´ a fallando en este ejemplo? ¿Tendr´ a equilibrios de Nash en estrategias mixtas?
Ejercicios 8. 1. Considere un juego compuesto por dos jugadores cuyos conjuntos de estrategias puras son C 1 = [0, 50] = C 2 . Las funciones de pago son: u1 (c1 , c2 ) = 100c1 − 10c21 + 10c1 c2 u2 (c1 , c2 ) = 200c2 − 15c22 + 10c1 c2 a. Calcule los equilibrios de Nash. b. Compare los pagos que obtienen los jugadores en el equilibrio de Nash con respecto a los que obtendr´ıan si eligieran c 1 y c 2 para maximizar u 1 + u2 . Comente. 2. Dos jugadores est´ an negociando c´ omo repartirse una unidad monetaria. Ambos jugadores indican simult´ aneamente la porci´ on que querr´ıan conseguir, s 1 y s2 respectivamente, donde 0 ≤ s1 , s2 ≤ 1. Si s1 + s 2 ≤ 1, los jugadores ven cumplidas sus peticiones; si s1 + s2 > 1, ambos jugadores reciben un pago de cero. a. Establezca las correspondencias de mejor-respuesta de los dos jugadores. b. ¿Cu´ ales son los equilibrios de Nash en estrategias puras de este juego? 3. Suponga que dos jugadores escogen ubicaciones a 1 y a2 en el intervalo [0, 1]. Cada uno quiere estar tan cercano al otro como sea posible. El pago de cada jugador es −|a1 − a2 |. Calcule los equilibrios de Nash en estrategias puras. 4. Dos candidatos a un cargo p´ ublico est´ an decidiendo simult´ aneamente sobre la plataforma pol´ıtica de sus propuestas. Para tomar su decisi´ on de voto, los electores u ´nicamente tienen en cuenta tal plataforma pol´ıtica. A los candidatos u ´ nicamente les interesa ganar las elecciones; no les afecta el tipo de plataforma que eligen. Normalicemos el espectro ideol´ ogico al intervalo [0,1] donde 0 representa, digamos, “extrema izquierda”, mientras 1 representa “extrema derecha”. Los electores se encuentran uniformemente distribuidos en el intervalo [0,1]. Cada elector vota por el candidato que se encuentre m´ as cerca a su posici´on ideol´ ogica; en caso de que dos candidatos se encuentren a igual distancia, el elector lanza una moneda para tomar su decisi´ on. Gana el candidato con un mayor porcentaje de votos y, en caso de empate, nuevamente se lanza una moneda.
85
Juegos No-Cooperativos con Informaci´on Sim´ etrica
a. Establezca las correspondencias de mejor-respuesta de cada candidato y encuentre el equilibrio de Nash del juego. b. Explique este resultado. 5. (Sion y Wolfe [1957].). Dos personas juegan un juego de suma cero (lo que gana un jugador lo pierde el otro). Los conjuntos de estrategias son S i = [0, 1] para i = 1, 2; las funciones de pago son
ui (si , s j ) =
−1 si < s j < si + 12 , 0 si = s j , si + 12 , 1 en otro caso.
i = 1, 2
Muestre que este juego no tiene equilibrios de Nash en estrategias puras. 6. Asuma dos jugadores 1 y 2 que eligen respectivamente x 1 y x2 , y cuyas funciones de pago est´ an dadas por:
si x 1 < x2 − (1 − a − b), si x 1 > x2 + (1 − a − b),
x1 0
u1 (x1 , x2 ) =
x1
x2 − x1 + 1 + a − b 2
x2
x2 + (1 − a − b)] si x 2 < x1 − (1 − a − b), si x 2 > x1 + (1 − a − b),
x2 0
u2 (x1 , x2 ) =
si x 1 ∈ [x2 − (1 − a − b),
x1 − x2 + 1 + b − a 2
si x 2 ∈ [x1 − (1 − a − b), x1 + (1 − a − b)]
Muestre que para que exista un equilibrio en este juego son necesarias las siguientes condiciones: a. b.
.
X
a−b 1+ 3
1+
b−a 3
2
4 ≥ (a + 2b); 3
2
4 ≥ (b + 2a) 3
Juegos “Din´ amicos” con Informaci´ on Sim´ etrica
Hasta ahora hemos estudiado la forma estrat´egica de un juego, que consiste, fundamentalmente, en tres elementos: los jugadores, el conjunto de estrategias para cada jugador, y los pagos que recibe cada jugador por cada posible combinaci´ on de
86
Un Curso de Teor´ıa de Juegos Cl´asica
estrategias. Ahora pasamos a examinar lo que en adelante llamaremos la forma ex´ busca modelar, no s´ olo qui´enes son los jugadores, cu´ ales sus tensiva de un juego . Esta estrategias y los pagos resultantes de cada combinaci´ on de estrategias, sino tambi´en los momentos en que esas estrategias se juegan, y la informaci´ on disponible al momento de ser elegidas. Por lo tanto, un juego en forma extensiva deber´ıa especificar, al menos, los siguientes elementos: a. Qui´enes son los jugadores. b. Cu´ ando act´ ua cada jugador. c. Qu´e acciones est´ an disponibles para cada jugador cuando le corresponde actuar. d. Qu´ e conoce cada jugador cuando le corresponde actuar acerca de las acciones que ya han realizado otros jugadores. e. Los pagos que cada jugador recibe por cada posible combinaci´ on de acciones. La forma m´ as com´ un de ilustrar un juego en forma extensiva es mediante un diagrama de arbol ´ . Cada punto posible de distribuci´ o n en el ´arbol lo llamamos nodo. Por convenci´on, y para saber d´ onde comienza el juego, al nodo inicial se le representa con un c´ırculo vac´ıo, y todos los nodos siguientes se representan con c´ırculos llenos . Las ramas que parten de un nodo son las diferentes acciones disponibles al jugador en ese momento. Cada rama, a su vez, conduce a otro nodo. Si no existen ramas que partan de cierto nodo, a ´este se le llamar´ a nodo terminal y all´ı se asignar´ an los pagos de los jugadores. Para la clase de problemas que son de inter´es a este nivel, los juegos en forma extensiva son instrumentos convenientes para examinar interacciones que se realizan a trav´ es del tiempo, y los juegos en forma estrat´egica son m´ as adecuados para problemas de toma de decisiones simult´ aneas . Sin embargo, merece se˜ nalarse que es posible tratar el caso en el que los jugadores mueven simult´aneamente de la misma forma en que tratamos los problemas en los que un jugador mueve despu´es de otro, pero sin saber qu´e movimiento realiz´o este u ´ltimo. De hecho, esto muestra que la “din´ amica” aqu´ı considerada no es del todo sustancial. La figura 40 es una representaci´ o n en forma extensiva de un juego en el que el jugador 1 mueve primero, eligiendo entre dos acciones L o R. El jugador 2 mueve despu´es, decidiendo entre L o R . El jugador 2 aparece en dos nodos: el nodo que resulta cuando el jugador 1 juega L y el nodo que resulta cuando el jugador 2 juega R. Sin embargo, aqu´ı, el jugador 2 no conoce la decisi´ on tomada por el jugador 1 ; es decir, no conoce en cu´al nodo debe tomar su decisi´ on. Esta dificultad que encuentra el jugador 2 de no poder distinguir entre estos dos nodos se indica conect´andolos a trav´ es de una l´ınea punteada. Al observar qu´e nodos est´ an conectados de esta
Juegos No-Cooperativos con Informaci´on Sim´ etrica
87
manera, podemos determinar qu´ e conoce cada jugador acerca de las acciones de los dem´ as jugadores al momento de tomar su decisi´ on. Cuando un jugador no puede distinguir entre diferentes nodos al momento de tomar su decisi´ on (como es el caso del jugador 2 en la figura 40), reunimos todos esos nodos en un solo conjunto llamado conjunto de informaci´ on . Figura 40: Juego con Informaci´ on Imperfecta 1
R L 2 L R L R 10 7 8 6 0 3 2 1
Si en el a´rbol todos los conjuntos de informaci´ on tienen un solo nodo, diremos que on perfecta . En otro caso (como sucede con nuestro ejemplo el juego tiene informaci´ on imperfecta . de la figura 40) diremos que tiene informaci´ En la forma extensiva, una estrategia de un jugador especifica las acciones que toma en cada conjunto de informaci´on del juego. En el ejemplo anterior, las estrategias del jugador 1 son L y R, y las estrategias del jugador 2 (dentro del conjunto de informaci´ on conformado por los dos nodos de la parte inferior de la figura 40) son L y R . Ahora consideremos el mismo ejemplo anterior, s´ olo que esta vez asumiremos que el jugador 2 s´ı sabe cu´ al fue la decisi´on tomada por el jugador 1 y, por tanto, conoce el nodo en el que debe tomar su decisi´on. El a´rbol de este juego se representa en la ´ figura 41. Este es un juego con informaci´on perfecta pues ambos jugadores toman su decisi´ on sobre un solo nodo; es decir, los conjuntos de informaci´on est´ an conformados por un solo elemento. Para resolver los juegos de las figuras 40 y 41 debemos especificar qu´ e saben los agentes al momento de tomar sus decisiones. Inicialmente, asumamos que en ambos juegos tenemos informaci´ on sim´etrica21 . ¿C´ omo podemos resolver el juego de la figura 40? Basta observar que, dado el problema de informaci´ on imperfecta que 21
La simetr´ıa en la informaci´on se referir´ a al conocimiento com´ un del juego.
88
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 41: Juego con Informaci´ on Perfecta 1
R L 2 2 L R L R 10 7 8 6 0 3 2 1
afecta al jugador 2, ´este es equivalente al juego en forma estrat´ egica (es decir, de decisiones simult´ aneas) de la figura 42. Figura 42: Representaci´ on Estrat´egica de un Juego en Forma Extensiva Jugador 2 Jugador 1
L
R
L 10,0
7,3
R 8,2
6,1
Como el u´nico equilibrio de Nash de este juego es (L, R ) con pagos (7,3), entonces el u ´nico equilibrio de Nash de la figura 40 es tambi´en (L, R ). Algo diferente sucede cuando intentamos resolver el juego de la figura 41. Siguiendo con el m´etodo de encontrarle un juego en forma estrat´ egica que le sea equivalente y resolverlo, debemos tener cuidado al elegir las estrategias posibles del jugador 2, puesto que ´este ahora s´ı sabe cu´al fue la acci´on que tom´ o el jugador 1. Una forma de reducir este problema de dos tiempos a uno de un solo tiempo (movimientos simult´ aneos) es asignarle al jugador 2 “planes de contingencia”. As´ı, las estrategias del jugador 2 no son L y R sino (L , L ), (L , R ), (R , L ) y (R , R ), donde el plan de contingencia gen´erico (A, B) significa jugar A si el jugador 1 juega L, y jugar B si el jugador 1 juega R. Por tanto, un plan de contingencia como (L , L ) significa jugar L sin importar qu´ e haya jugado el jugador 1. La forma estrat´ egica del juego se representa en la figura 43.
89
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 43: Representaci´ on Estrat´ egica de un Juego en Forma Extensiva con Informaci´ on Perfecta Jugador 2 Jugador 1
(L , L )
(L , R )
(R , L )
(R , R )
L
10,0
10,0
7,3
7,3
R
8,2
6,1
8,2
6,1
Aqu´ı aparecen dos equilibrios de Nash en estrategias puras: (L,(R , R )) y (R, (R , L )). El primero de estos podr´ıa interpretarse (abusando de la notaci´ on) como el mismo equilibrio (L, R ) encontrado en el juego con informaci´ on imperfecta. Cabe entonces preguntarse: ¿cu´ al es el otro equilibrio? Esto es f´ acil dilucidarlo si entendemos que este es un juego con informaci´on, adem´ as de perfecta, completa. Observemos, en primera instancia, que cada uno de los pagos en los equilibrios de Nash (7,3) y (8,2) favorece a uno de los jugadores y no son comparables en el sentido de Pareto. Resulta, sin embargo, que en este juego s´ı se podr´ıa decidir cu´ al de los dos equilibrios de Nash es “m´ as cre´ıble”, y esta decisi´on la tomar´ a el jugador que tiene “m´ as poder” en el juego: el jugador 1. Es f´acil observar esto en la figura 41. Si el jugador 1 juega L, el jugador 2 (como agente racional) jugar´ a R , y esto le da un pago de 3; si el jugador 1 juega R, el jugador 2 jugar´ a L , que le da un pago de 2. Pero como el jugador 1 sabe esto (es decir, conoce las acciones que el jugador 2 tomar´ a en respuesta a las suyas, y adem´ as conoce los pagos correspondientes a cada una de estas acciones), conducir´ a al jugador 2 a tomar la acci´ o n que m´ as le conviene a ´el (jugador 1); es decir, para el jugador 1 es mejor elegir R que L, ya que si escoge R, el jugador 2 elige L , y el jugador 1 recibe un pago de 8; mientras que si escoge L, el jugador 2 escoger´ a R , y el jugador 1 recibe un pago de 7. Por tanto, el equilibrio que cre´ıblemente se jugar´a, dada la estructura del juego, es aquel en el que el jugador 1 (el que tiene “el poder” del juego) obtiene un mayor pago: (R, (R , L )). Una conclusi´ on adecuada es que en este tipo de juegos con informaci´ on perfecta y completa, el jugador que mueve primero (el l´ıder) puede conducir al jugador que mueve despu´es (el seguidor) a obrar en su conveniencia (del l´ıder). Ahora es posible resumir el proceso que acabamos de emplear para distinguir cu´ al de los dos equilibrios de Nash en estrategias puras del juego de la figura 42 era m´ as cre´ıble . a. Inicialmente resolvimos el problema del jugador 2 en el nodo 2A; es decir, cuando el jugador 1 jug´ o L. Se resolvi´ o jugando R . b. Despu´ es resolvimos el problema del jugador 2 en el no do 2B; es decir, cuando el jugador 1 jug´ o R. Se resolvi´o jugando L .
90
Un Curso de Teor´ıa de Juegos Cl´asica
c. Finalmente resolvimos el problema del jugador 1 en el nodo inicial. Conociendo lo anterior, el jugador 1 compar´ o cu´ al estrategia le ofrec´ıa mejores pagos. El problema se resolvi´ o jugando R. Este proceso se conoce como soluci´ on del juego por inducci´ on hacia atr´ as que, en juegos con informaci´ on completa y perfecta, ofrece, en general, el equilibrio de Nash m´ as cre´ıble del juego. Pero en el fondo hemos analizado el juego de una manera m´ as articulada: observemos que hemos estudiado las elecciones o´ptimas en cada uno de los nodos, lo que equivale a decir que hemos encontrado, con este proceso, una serie de estrategias que son un equilibrio de Nash en cada uno de los “peque˜nos juegos” que aparecen despu´ es de cada nodo. Para ver que s´ı es as´ı, observemos que el equilibrio de Nash encontrado por inducci´ on hacia atr´ a s fue (R, (R , L )) y ´este contiene las mejores estrategias de los jugadores cuando les corresponde actuar. En efecto: Figura 44: Subjuegos del Juego de la figura 41 2A
2B
L R 8 6 2 1
L R 10 7 0 3
a. En el peque˜ no juego que comienza en el nodo 2A (dado que el jugador 1 ha elegido L ), la mejor estrategia es jugar R . b. En el peque˜ no juego que comienza en el nodo 2B (dado que el jugador 1 ha elegido R), la mejor estrategia es jugar L . c. En el juego que comienza en el nodo inicial, es decir, en el juego total de la figura 41, la mejor estrategia del jugador 1, dada la estrategia optima ´ del 22 jugador 2, es jugar R . A estos peque˜ nos juegos, incluido el juego total, los llamamos los subjuegos del juego original , y a una colecci´ on de estrategias para los jugadores que conformen un equilibrio de Nash en cada uno de los subjuegos la llamaremos un equilibrio de Nash ´ nico ENPS perfecto en subjuegos (ENPS). En nuestro ejemplo de la figura 41, el u 22
Una estrategia es un plan de acci´ on completo que le especifica al jugador una acci´on para cada contingencia en la que le corresponda actuar.
91
Juegos No-Cooperativos con Informaci´on Sim´ etrica
es (R, (R , L )), el cual fue calculado mediante inducci´ on hacia atr´ as. Pero esto no es una coincidencia; de hecho, todo ENPS de un juego finito en forma extensiva con informaci´ on perfecta y completa puede calcularse mediante el m´etodo de inducci´ on hacia atr´ as . Sin embargo, es conveniente anotar que, en general, el concepto de ENPS puede aplicarse a cualquier juego (finito o no) en forma extensiva, y que no sucede lo mismo con el proceso de inducci´on hacia atr´ as. Estas dos nociones coinciden en juegos finitos con informaci´ on perfecta y completa. Por ejemplo, en el juego ya presentado de la figura 40, el jugador 2 enfrenta problemas de informaci´ on. En este juego, el proceso de inducci´ on hacia atr´ as ni siquiera es posible iniciarlo debido a estas dificultades de informaci´ on. En su lugar, como el u´nico subjuego de este juego es el juego mismo, entonces el u ´nico ENPS es el mismo equilibrio del juego total: (L, R ). Ejemplo 31 (La Batalla de los Sexos en Forma Secuencial). Consideremos una modificaci´ on del juego de la batalla de los sexos, permitiendo que, en el momento en que la esposa deba tomar su decisi´ on, ya conozca la decisi´ on tomada por el esposo. La representaci´on en forma extensiva de este juego aparece en la figura 45. Figura 45: Batalla de los Sexos Secuencial Esposo
T F Esposa Esposa F T F T 2 0 0 1 1 0 0 2
Resolviendo por inducci´ on hacia atr´ as, observemos que si la esposa sabe que su esposo jug´ o F en la primera etapa, ella elige F ya que obtiene un pago de 1, que es mayor que 0. De igual forma, si sabe que el esposo jug´o T en la primera etapa, lo mejor que puede hacer es tambi´en jugar T , obteniendo un pago de 2. Entonces, como el esposo sabe esto, en la primera etapa decide jugar F para obtener un pago de 2, mayor que 1, que ser´ıa lo que obtendr´ıa por jugar T . La soluci´ on por inducci´ on hacia atr´ as es, entonces, (F, F ). La representaci´on de este juego en forma estrat´ egica aparece en la figura 46.
92
Un Curso de Teor´ıa de Juegos Cl´asica
Figura 46: Batalla de los Sexos Secuencial: Representaci´ on Estrat´egica Esposa (F, F )
(F, T )
(T, F )
(T, T )
F
2,1
2,1
0,0
0,0
T
0,0
1,2
0,0
1,2
Esposo
Observemos que en esta bimatriz aparecen tres equilibrios de Nash: (F, (F, F )), (F, (F, T )), (T, (T, T )) Los dos primeros equilibrios corresponden a la situaci´on en que ambos jugadores eligen F , es decir, coinciden con la soluci´ on por inducci´ on hacia atr´ as. ¿Qu´e representa, entonces, el tercer equilibrio de Nash? Este equilibrio corresponde a la situaci´ on en que ambos jugadores eligen T ; sin embargo, notemos que la elecci´ on de T por parte del esposo se basa en una “amenaza no-cre´ıble” de parte de la esposa con la que ella asegura jugar T independientemente de lo que haga el esposo. Notemos que si esto fuera cierto, el esposo deber´ıa jugar T , raz´ on por la cual esta configuraci´ on de estrategias es un equilibrio de Nash. Sin embargo, decimos que la amenaza de la esposa no es cre´ıble porque, en la contingencia en que el esposo jugara F , lo mejor que p odr´ıa hacer la esposa no es jugar T sino, como vimos, tambi´en jugar F . As´ı, este u ´ltimo equilibrio de Nash no es perfecto en subjuegos. Notemos, adem´ as, que el primero de los equilibrios de Nash (F, (F, F )) tampoco es cre´ıble, ya que est´ a basado en una “promesa” en que la esposa asegura elegir F independientemente de lo que haga el esposo. Sin embargo, si el esposo “se equivocara” y elige T en lugar de F , lo mejor que podr´ıa hacer la esposa es jugar T y no F ; de esta forma, tal equilibrio de Nash tampoco ser´ıa cre´ıble (perfecto en subjuegos).
Fundamentos Te´ oricos Formalizemos ahora los conceptos estudiados en la secci´ on anterior definiendo, en primer lugar, el concepto de ´ arbol . Este concepto fue desarrollado por von Neumann en 1928, y posteriormente generalizado por Harold Kuhn en 1953. Definici´ o n 11 (Definici´ o n de ´arbol).
a. Dado un conjunto de jugadores N = {1, 2, . . . , n}, definimos un ´ arbol T como un par (X, ) donde X es un conjunto de elementos llamados nodos y es
93
Juegos No-Cooperativos con Informaci´on Sim´ etrica
una relaci´ on transitiva23 y asim´etrica24 sobre X , llamada de precedencia , tales que: i. Existe un u ´nico elemento O ∈ X (llamado nodo inicial ) tal que O x para todo x ∈ X , x = O; es decir, el nodo inicial precede todos los nodos. ii. Para todo x ∈ X , x = O, si x x y x x, entonces x = x , x x o x x ; es decir, todo nodo distinto del inicial tiene un u ´nico predecesor. iii. Existe al menos un x0 ∈ X (llamado nodo terminal ) tal que no existe x ∈ X , con x = x 0 , x0 x . b. Denotamos por Z al conjunto de nodos terminales de X . Asociamos a cada nodo x ∈ X \ Z , un solo jugador i ∈ N mediante una funci´ on 25 : i : X \ Z → N x → i(x) Es decir, esta funci´ on indica qu´ e jugador mueve en cada nodo. c. Tambi´ en asumiremos que el jugador i(x) que mueve en el nodo x ∈ X \ Z tiene un conjunto finito de estrategias puras C i(x) para el nodo x. Los pagos los definimos mediante las funciones: ui : × x∈X \Z C i(x) →
R
i ∈ N
para
d. Finalmente, supondremos que existe una partici´ on 26 H de X \ Z . Este conjunto on ) estar´ H (llamado el conjunto de los conjuntos de informaci´ a conformado entonces por conjuntos de la forma h(x) para x ∈ X , donde h(x) es el con junto de informaci´ on que contiene a x. Este H debe satisfacer las siguientes condiciones: a. Si h(x) ∈ H y x ∈ h(x), entonces i(x) = i(x ); es decir, el mismo jugador mueve dentro de cada nodo de un conjunto de informaci´ on. b. Si h(x) ∈ H y x ∈ h(x), entonces C i(x) = C i(x ) ; es decir, el jugador que mueve en un conjunto de informaci´ on tiene el mismo conjunto de elecciones en cada uno de los nodos de ese conjunto de informaci´on.
Ahora podemos definir un juego en forma extensiva . 23
La relaci´ on de precedencia es transitiva si x y , y z implica x z . La relaci´ on de precedencia es asim´ etrica si no es p osible x x . 25 an en Z . X \ Z denota el conjunto de elementos que est´an en X y que no est´ 26 Es decir, H es una colecci´on de subconjuntos de X \ Z ; todos estos subconjuntos son no vac´ıos y disjuntos, adem´ as de que su uni´on coincide con X \ Z . 24
94
Un Curso de Teor´ıa de Juegos Cl´asica
Definici´ o n 12 (Forma Extensiva). Un juego en forma extensiva es una tupla Γ = (N, (X, ),Z,i, {C i(x) }x∈X \Z , H, (ui )i∈N ) que satisface las condiciones de la definici´o n de ´arbol (definici´ on 11). Definici´ o n 13 (Juego Finito en Forma Extensiva). Un juego finito en forma extensiva es un juego en forma extensiva en el que el conjunto de nodos X es un conjunto finito. En otro caso, diremos que es un juego infinito en forma extensiva. Ejemplo 32. Consideremos el juego que estudiamos al inicio de esta secci´ on y que presentamos nuevamente en la figura 47. Figura 47: Juego Finito en Forma Extensiva 1
R L 2 L R L R 10 7 8 6 0 3 2 1
Este es un juego finito en forma extensiva de dos jugadores (N = { 1, 2}). Los con juntos de estrategias de los jugadores 1 y 2 son C 1 = {L, R} y C 2 = {L , R }; el conjunto de nodos no-terminales es X \ Z = {1A, 2A, 2B }, donde el nodo 1A es el nodo inicial en el que mueve el jugador 1, y 2A y 2B son los nodos en los que mueve el jugador 2. Observemos que el jugador 1 tiene solo un conjunto de informaci´ on formado por el nodo 1A, y el jugador 2 tiene a su vez un solo conjunto de informaci´ o n formado por los nodos 2A y 2B. Por tanto, H = {{1A}, {2A, 2B }}. Observemos que H es un conjunto de subconjuntos no vac´ıos, disjuntos por pares y cuya uni´on es X \ Z . Los pagos asociados a cada posible combinaci´ on de estrate gias son: u1 (L, L ) = 10, u1 (L, R ) = 7, u1 (R, L ) = 8, u1 (R, R ) = 6, u2 (L, L ) = 0, u2 (L, R ) = 3, u2 (R, L ) = 2, u2 (R, R ) = 1.
95
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Ejemplo 33. Consideremos ahora el juego de la figura 48. Figura 48: Juego Finito en Forma Extensiva 1
R L 2 2 L R L R 10 7 8 6 0 3 2 1
Este tambi´en es un juego finito en forma extensiva de dos jugadores (N = {1, 2}). Los conjuntos de estrategias de los jugadores 1 y 2 son C 1 = {L, R} y C 2 = {(L , L ), (L , R ), (R , L ), (R , R )} Observemos que una estrategia del jugador 2 es un plan de contingencia ; es decir, una especificaci´ on de las acciones que ´el elige en cada uno de los nodos en los que puede mover. Por ejemplo, la estrategia (R , L ) del jugador 2 significa jugar R si el jugador 1 juega L y jugar L si el jugador 1 juega R. El conjunto de nodos no terminales es X \ Z = {1A, 2A, 2B }, donde el nodo 1A es el nodo inicial en el que mueve el jugador 1, y 2A y 2B son los nodos en los que mueve el jugador 2. Observemos que el jugador 1 tiene solo un conjunto de informaci´on formado por el nodo 1A, mientras que el jugador 2 tiene dos conjuntos de informaci´on formados por los nodos 2A y 2B. Por tanto H = {{1A}, {2A}, {2B }}. Observemos que H es una partici´ on de X \ Z . Los pagos asociados a cada posible combinaci´ on de estrategias son: u1 (L, (L , L )) = 10,
u1 (L, (L , R )) = 10,
u1 (L, (R , L )) = 7,
u1 (L, (R , R )) = 7,
u1 (R, (L , L )) = 8,
u1 (R, (L , R )) = 6,
u1 (R, (R , L )) = 8,
u1 (R, (R , R )) = 6,
u2 (L, (L , L )) = 0,
u2 (L, (L , R )) = 0,
u2 (L, (R , L )) = 3,
u2 (L, (R , R )) = 3,
u2 (R, (L , L )) = 2, u2 (R, (R , R )) = 1.
u2 (R, (L , R )) = 1,
u2 (R, (R , L )) = 2,
96
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
Ejemplo 34 (Figura 34 (Figura que no representa un juego en forma extensiva). extensiva). Consideremos la figura 49 en la que una de las hip´otesis otesis importantes de la definici´ on on de arbol a´rbol no se satisface y, por lo tanto, no constituye una representaci´ on on en forma extensiva de un juego. Figura 49: No representa un juego en forma extensiva 1
L R 2A 2B x x L L R R x 1A 1B 1C L R L R L R
Obs´ Ob s´erve er vese se que qu e aqu´ aq u´ı x x y x y a su vez x vez x x, x , y adem´ as x as x = x , y no se cumple que x x o x x ; por lo tanto, no se cumple la hip´otesis otesis ii en la que se establece que cada nodo debe tener un unico nodo que lo preceda. En este caso el nodo x es ´ precedido por dos nodos diferentes, x y x .
Definici´ on o n 14 (Juego 14 (Juego en Forma Extensiva con Informaci´ on on Sim´ Si m´etri et rica ca)). Un juego Γ en forma extensiva tiene informaci´ on sim´etrica etr ica (o ( o completa) complet a) si Γ es de conocimiento com´ un. En otro caso diremos que el juego tiene informaci´ un. on asim´ as im´etri et rica ca (o incompleta). Definici´ on o n 15 (Juego 15 (Juego en Forma Extensiva con Informaci´ on on Perfecta). Perfecta). on perfecta cuando H Un juego Γ en forma extensiva tiene informaci´ cuando H est´ est´ a conformado u unicamente ´ nicamente por conjuntos de un solo elemento. En otro caso, diremos que el juego tiene informaci´ on imperfecta . Ejemplo 35. Consideremos el juego finito en forma extensiva representado en la figura 50. Este es un juego con informaci´ on imperfecta porque el conjunto de informaci´ on on on del jugador 3 est´ a compuesto por m´as as de un nodo. De hecho, est´a compuesto por los
97
Juegos No-Cooperativos con Informaci´on on Sim´ Si m´ etric et rica a
Figura 50: Juego con Informaci´ on on Imperfecta 2 0 L 0
2B
1A A
R 3
D
1
2A
4 R L 3 3B 3A R L R L 0 1 3 0
2 1
3 3
1 2
1 1
nodos 3A 3A y 3B , lo cual est´a ilustrado ilustrado p or la l´ınea punteada que los une. En otras palabras, el jugador 3, en el momento en el que le corresponda actuar, no sabe si el jugador 2, en la etapa inmediatamente anterior, eligi´ o la acci´ on on L o la acci´ on on R. As´ As´ı, este es un juego con informaci´ on imperfecta porque no todos los conjuntos de on informaci´ on on est´ an conformados por un unico an u ´nico nodo.
Acerca de las Estrategias de un Juego en Forma Extensiva Hab´ Hab´ıamos notado notado el conjunto conjunto de estrategia estrategiass puras de un jugador jugador i(x) en el nodo x dentro del juego extensivo Γ como C i(x) , que puede escribirse equivalentemente como C (hi), donde hi es el conjunto de informaci´ on on que contiene al nodo x y en el que mueve el i --´ esimo e´simo jugador. En el conjunto de informaci´ on on h i , una estrategia mixta para el jugador i en hi debe ser entonces una distribuci´ on on de probabilidad sobre las estrategias puras C (hi ); es decir, un elemento del conjunto que notaremos ∆i (C (hi )). Luego una estrategia mixta del i -´ -´esimo esimo jugador es un u n elemento del conjunto × hi ∈H ∆i (C (hi )). Y as´ı, ı, una estrategia mixta del juego en forma extensiva extensiva debe ser un producto de estas distribuciones; es decir, un elemento de
×i∈N (×hi ∈H ∆i (C (hi ))) Definici´ on o n 16 (Estrategia 16 (Estrategia de Comportamiento). Comportamiento). Una estrategia de comportamiento del juego en forma extensiva Γ (estrategia mixta
98
Un Curso de Teor´ eor´ıa de Juegos Cl´asica asica
de un juego en forma extensiva) es un elemento de
×i∈N (×hi ∈H ∆i (C (hi ))) Podemos preguntar, ahora, cu´ al al es la relaci´ on entre las estrategias de comportamienon to del juego en forma extensiva y las estrategias mixtas del correspondiente juego en forma estrat´egica. egica. Es claro que ambas formas de juego tienen las mismas estrategias puras; sin embargo, las estrategias de comportamiento y las estrategias mixtas (en su forma de descripci´on) on) son distintas, como se ver´ a analizando analizando el ejemplo ejemplo del inicio inicio de la secci´ on. on. Las formas extensiva extensiva y estrat´ egica egica del juego aparecen en las figuras 51 y 52, respectivamente.
Figura 51: Forma Extensiva 1
R L 2A 2B L R L R 10 7 8 6 0 3 2 1
Una estrategia mixta del juego en forma estrat´egica egica de la figura 52 es, por ejemplo, σ = (σ1 , σ2 ), donde σ1 = ( pL , pR ) y σ2 = ( pL L , pL R , pR L , pR R ) bajo la interpretaci´ on conocida. En su lugar, una estrategia de comportamiento del juego de la on figura 51 es, por ejemplo, b = (b1 , b2 ), donde b1 = ( pL , pR ) y b2 = (( pL , pR ), (q L , q R )), donde pL ≡ b1 (L/1) L/1) es la probabilidad con que el jugador 1 juega L en el nodo 1; pR ≡ b1 (R/1) R/1) es la probabilidad con que el jugador 1 juega R en el nodo 1; pL ≡ b 2 (L /2A) es la probabilidad con que el jugador 2 juega L juega L si alcanza el nodo 2A; pR ≡ b 2 (R /2A) es la probabilidad con que el jugador 2 juega R si alcanza el nodo 2A 2A; q L ≡ b 2 (L /2B ) es la probabilidad con que el jugador 2 juega L juega L si alcanza el nodo 2B 2B ; y q R ≡ b 2 (R /2B ) es la probabilidad con que el jugador 2 juega R si alcanza el nodo 2B 2B .
Sin embargo, podemos mostrar que la estrategia mixta σ = (σ 1 , σ2 ) “genera” una estrategia estrategia de comportamien comportamiento to bajo una regla bayesian bayesianaa de construcci construcci´ on. ´ Para el jugador 1, su estrategia de comportamiento es la misma estrategia mixta: b mixta: b 1 = σ = σ 1 = (1/ (1/2, 1/2). Para el jugador 2, la estrategia de comportamiento es
99
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 52: Forma Estrat´egica Jugador 2 (L , L )
(L , R )
(R , L )
(R , R )
L
10,0
10,0
7,3
7,3
R
8,2
6,1
8,2
6,1
Jugador 1
b2 (L /2A) = b 2 (R /2A) = b 2 (L /2B) = b 2 (R /2B) = 1/2; es decir, la estrategia mixta σ = ((1/2, 1/2), (1/4, 1/4, 1/4, 1/4)) genera la estrategia de comportamiento b1 = (1/2, 1/2), b2 = ((1/2, 1/2), (1/2, 1/2)). Tambi´en podemos mostrar que la anterior estrategia de comportamiento genera una estrategia mixta dentro de una regla bayesiana de construcci´ on. Para el jugador 1, su estrategia mixta σ 1 es la misma estrategia de comportamiento: σ 1 = b 1 = (1/2, 1/2). Para el jugador 2, σ2 (L , L ) =Prob(L /2A)Prob(L /2B) = (1/2)(1/2) = 1/4 σ2 (L , R ) =Prob(L /2A)Prob(R /2B) = (1/2)(1/2) = 1/4 σ2 (R , L ) =Prob(R /2A)Prob(L /2B) = (1/2)(1/2) = 1/4 σ2 (R , R ) =Prob(R /2A)Prob(R /2B) = (1/2)(1/2) = 1/4 Es f´acil ver que, en este ejemplo, toda estrategia mixta del juego en forma estrat´ egica genera una estrategia de comportamiento del juego en forma extensiva y viceversa. Sin embargo, ¿ser´ a esto cierto para cualquier juego en forma extensiva? La respuesta es no, como se explica a continuaci´ on. Para esto consideremos el juego en forma extensiva de la figura 53 En este juego el jugador 1 tiene dos conjuntos de informaci´on. En el primero, ´este tiene tres acciones L, M y R. En el segundo, tiene dos acciones X y Y . Por tanto, el jugador 1 tiene 6 estrategias que son (L, X ), (L, Y ), (M, X ), (M, Y ), (R, X ) y (R, Y ). Por otra parte, el jugador 2 tiene s´ olo un conjunto de informaci´ on con dos acciones, l y r. Por tanto, las estrategias del jugador 2 son l y r. Consideremos la siguiente estrategia de comportamiento para el jugador 1. En su primer conjunto de informaci´ on, el jugador 1 mueve L, M y R con probabilidades p L , pM y p R , respectivamente (desde luego p L + pM + pR = 1). En su segundo conjunto de informaci´ on, ´este mueve X e Y con probabilidades p X y p Y , respectivamente (de nuevo p x + pY = 1). Por otra parte, el jugador 2 mueve l y r con probabilidades p l y
100
Un Curso de Teor´ıa de Juegos Cl´ asica
Figura 53: Estrategias de Comportamiento 1 L T 0 M R 2 l l r r 1 Y X Y X Y X Y X T 1
T 2
T 3
T 4
T 5
T 6
T 7
T 8
pr respectivamente (con pl + pr = 1). Estas estrategias de comportamiento generan la siguiente distribuci´ on de probabilidad sobre los nodos terminales: p(T 0 ) = p L
p(T 1 ) = p M pl px
p(T 2 ) = p M pl pY
p(T 3 ) = p M pr px
p(T 4 ) = p M pr pY
p(T 5 ) = p R pl px
p(T 6 ) = p R pl pY
p(T 7 ) = p R pr px
p(T 8 ) = p R pr pY
Una estrategia mixta que genera la misma distribuci´ on de probabilidad sobre los nodos terminales, dada la estrategia mixta ( pl , pr ) del jugador 2, satisface: p(T 0 ) = p(L, X ) + p(L, Y )
p(T 1 ) = p(M, X ) pl
p(T 2 ) = p(M, Y ) pl
p(T 3 ) = p(M, X ) pr
p(T 4 ) = p(M, Y ) pr
p(T 5 ) = p(R, X ) pl
p(T 6 ) = p(R, Y ) pl
p(T 7 ) = p(R, X ) pr
p(T 8 ) = p(R, Y ) pr
Por ejemplo, pL = p(L, X ) + p(L, Y ) pM pY = p(M, Y )
pM pX = p(M, X ) pR pX = p(R, X )
pR pY = p(R, Y ) Ahora podemos tomar pL 2 p(M, X ) = p M pX
pL 2 p(M, Y ) = p M pY
p(R, X ) = p R pX
p(R, Y ) = p R pY
p(L, X ) =
p(L, Y ) =
101
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Y as´ı, esta estrategia mixta es equivalente a la estrategia de comportamiento especificada. Sin embargo, consideremos alguna estrategia mixta para el jugador 1: p(L, X ), p(L, Y ), p(M, X ), p(M, Y ), p(R, X ), p(R, Y ). Si el jugador 2 utiliza la estrategia mixta ( p l , pr ), la distribuci´ on de probabilidad asociada sobre los nodos terminales a esta estrategia mixta es: p(T 0 ) = p(L, X ) + p(L, Y )
p(T 1 ) = p(M, X ) pl
p(T 2 ) = p(M, Y ) pl
p(T 3 ) = p(M, X ) pr
p(T 4 ) = p(M, Y ) pr
p(T 5 ) = p(R, X ) pl
p(T 6 ) = p(R, Y ) pl
p(T 7 ) = p(R, X ) pr
p(T 8 ) = p(R, Y ) pr
Una estrategia mixta que genera la misma distribuci´ on de probabilidad sobre los nodos terminales, dada la estrategia mixta ( p l , pr ) del jugador 2, satisface: pL = p(L, X ) + p(L, Y ) pM pl pX = p(M, X ) pl pM pl pY = p(M, Y ) pl pM pr pX = p(M, X ) pr pM pr pY = p(M, Y ) pr pR pl pX = p(R, X ) pl pR pl pY = p(R, Y ) pl pR pr pX = p(R, X ) pr pR pr pY = p(R, Y ) pr Por ejemplo, i. p L = p(L, X ) + p(L, Y )
ii. p M pX = p(M, X )
iv. p R pX = p(R, X )
iii. pM pY = p(M, Y )
v. p R pY = p(R, Y )
De las ecuaciones ii y iii tenemos: vi.
p(M, X ) p(M, Y ) = pX pY
Dado que p X + pY = 1, entonces vii. pX =
p(R, X ) p(R, X ) + p(R, Y )
y
pY =
p(R, Y ) p(R, X ) + p(R, Y )
As´ı, de las ecuaciones vi y vii podemos concluir que no siempre existe una estrategia de comportamiento que sea equivalente a la estrategia mixta especificada .
102
Un Curso de Teor´ıa de Juegos Cl´ asica
Los juegos en forma extensiva en los que podemos identificar estrategias mixtas con estrategias de comportamiento satisfacen una condici´ on que, aunque restrictiva, la satisfacen la mayor´ıa de los juegos estudiados en la pr´ actica. En estos juegos, llamados de memoria perfecta , ning´ un jugador olvida ninguna informaci´ on que alguna vez conoci´ o. En general, asumiremos que los juegos extensivos tienen memoria per fecta ; es decir, que si dos nodos est´an en el mismo conjunto de informaci´ on de cierto jugador, las movidas que el jugador hace para llegar a cualquiera de los dos son las mismas: un jugador nunca olvida sus movidas. Definici´ o n 17 (Memoria Perfecta). Un juego en forma extensiva Γ tiene memoria perfecta cuando: i. Si x ∈ h(x), entonces ni x x ni x x (si dos nodos est´ an en el mismo conjunto de informaci´ on, ninguno debe anteceder al otro). ii. Si x ∈ h(x ), x x e i(x) = i(x ) (y por tanto, igual a i(x )), entonces existe un nodo x∗ ∈ X (posiblemente x mismo) tal que x∗ ∈ h(x), x∗ x , y la acci´ on tomada en x para llegar a x es la misma que la acci´ on tomada en x∗ para llegar a x a trav´es de x (si las trayectorias fueran distintas, el jugador habr´ıa “olvidado” lo que antes hizo). Un ejemplo de un juego en forma extensiva con memoria imperfecta es el de la figura 53. Este no es un juego de memoria perfecta porque el jugador 1 olvida si elige M o R cuando tiene que mover en su segunda oportunidad. Teorema 11 (Equivalencia entre Estrategias de Comportamiento y Estrategias Mixtas (Kuhn [1953])). En un juego con memoria perfecta, toda estrategia mixta genera una unica ´ estrategia de comportamiento y cada estrategia de comportamiento genera una unica ´ estrategia mixta. M´ as a´ un, la estrategia mixta generada por una estrategia de comportamiento genera, a su vez, una estrategia de comportamiento que coincide con la estrategia de comportamiento original. Demostraci´ on. Ver Kuhn [1953]. Debido a este teorema, bajo la hip´ otesis de memoria perfecta utilizamos los t´erminos estrategias mixtas y estrategias de comportamiento de manera intercambiable y, en adelante, asumiremos que todos los juegos en forma extensiva tienen memoria perfecta. Continuando entonces con la descripci´ on de un juego en forma extensiva, presentamos su subestructura m´as importante: la noci´ on de subjuego. Definici´ o n 18 (Subjuego de un Juego en Forma Extensiva). Un subjuego F de un juego en forma extensiva Γ es un juego en forma extensiva conformado por un nodo de Γ (nodo inicial del subjuego) y todos sus sucesores, con
Juegos No-Cooperativos con Informaci´on Sim´ etrica
103
la propiedad de que si x est´a en F y x ∈ h(x ), entonces x tambi´en est´ a en el 27 subjuego F (es decir, un subjuego no “rompe” conjuntos de informaci´on) . Ejemplo 36. El juego finito en forma extensiva de la figura 54 posee tres subjuegos: Figura 54: Subjuegos de un Juego en Forma Extensiva 1 L R 2 R (8,6,8) (6,0,6) L 3 G F 1 G G F F (0,0,0) (7,10,7) (7,10,7) (0,0,0)
a. El subjuego que comienza en el nodo de elecci´ on del jugador 2. b. El subjuego que comienza en el nodo de elecci´on del jugador 3. c. Y el juego total representado en la figura 54. Observemos que los juegos que comienzan en los segundos nodos de elecci´o n del jugador 1 no pueden ser subjuegos porque un subjuego nunca “rompe” conjuntos de informaci´ on.
Definici´ o n 19 (Equilibrio de Nash). Una estrategia de comportamiento σ ∗ ∈ ×i∈N (×hi ∈H ∆i (C (hi ))) de un juego en forma extensiva Γ es un equilibrio de Nash si ning´ un jugador puede incrementar su pago esperado utilizando, unilateralmente, una estrategia de comportamiento diferente; es decir, si para todo i ∈ N , 27
Un subjuego del juego Γ es cualquier juego que puede ser “podado” del a´rbol del juego Γ suprimiendo todos los nodos y ramas que no siguen alguna subra´ız X y haciendo que el nodo X sea la ra´ız del subjuego. Si X es una subra´ız entonces cualquier jugador que mueve en X , o despu´es, sabe qu´ e ha ocurrido en el no do X .
104
Un Curso de Teor´ıa de Juegos Cl´ asica ∗ ) u (σ , σ ∗ ) ui (σi∗ , σ−i ≥ i i −i
para todo σi ∈ ×hi ∈H ∆i (C (hi ))
Definici´ o n 20 (Equilibrio de Nash perfecto en subjuegos). Una estrategia de comportamiento σ ∗ de un juego en forma extensiva Γ es un equilibrio de Nash perfecto en subjuegos (ENPS) si la restricci´on de σ ∗ a cualquier subjuego es un equilibrio de Nash del subjuego. El siguiente teorema resume algunas de las principales caracter´ısticas de los equilibrios de juegos en forma extensiva. Teorema 12.
i. Todo juego finito en forma extensiva tiene al menos un equilibrio de Nash. ii. Todo equilibrio de Nash perfecto en subjuegos es un equilibrio de Nash del juego en forma extensiva. iii. Todo juego finito en forma extensiva con informaci´ on perfecta y completa tiene al menos un equilibrio de Nash perfecto en subjuegos. iv. Todo equilibrio de Nash perfecto en subjuegos de un juego finito en forma extensiva con informaci´ on perfecta y completa puede calcularse mediante inducci´ on hacia atr´ as; es decir, comenzando con los nodos anteriores a los terminales, el jugador all´ı asignado, optimiza; luego, teniendo esto en cuenta, los jugadores asignados a los nodos inmediatamente anteriores, optimizan; etc. Demostraci´ on. Ver Selten [1975]. Ejemplo 37 (Calcular ENPS puede ser dispendioso). Consideremos el juego de dos jugadores de la figura 55. Figura 55: C´ alculo de ENPS Jugador 2 L1
R1
Jugador 1 U 1 2,2
-1,3 0,0
D1
3,-1
Pagos per´ıodo 1
Jugador 2 L2
R2
Jugador 1 U 2
6,4
3,3
D2
3,3
4,6
Pagos per´ıodo 2
En el primer per´ıodo, los jugadores 1 y 2 eligen simult´ aneamente U 1 o D 1 (jugador 1) y L 1 o R 1 (jugador 2); estas elecciones son reveladas al final del periodo 1 con los pagos correspondientes. En el periodo 2, los jugadores 1 y 2 eligen simult´ aneamente
105
Juegos No-Cooperativos con Informaci´on Sim´ etrica
U 2 o D2 (jugador 1) y L 2 o R2 (jugador 2). El objetivo de cada jugador es maximizar la suma de sus pagos en los dos periodos. Calculemos los ENPS de este juego cuya forma extensiva se representa en la figura 56. Figura 56: C´ alculo de ENPS 1 U D1 1 2 L1 R1 L1 R1 1 1 1 1 U 2 D2 U 2 D2 U 2 D2 U 2 D2 8 6
5 5
5 5
6 8
5 7
2 6
2 6
3 9
9 3
6 2
6 2
7 5
6 4
3 3
3 3
4 6
Una combinaci´ on de estrategias es ENPS si cada una de las estrategias que la conforman es un equilibrio de Nash en cada uno de los subjuegos. Sean, el subjuego 1, el subjuego que sigue a U 1 L1 ; el subjuego 2, el subjuego que sigue a U 1 R1 ; el subjuego 3, el subjuego que sigue a D 1 L1 ; y el subjuego 4, el que le sigue a D 1 R1 . Por tanto, este juego tiene cinco subjuegos: el juego total y los cuatro subjuegos propios. Cada uno de estos u ´ltimos tiene dos equilibrios de Nash: (U 2 , L2 ) y (D2 , R2 ). La primera etapa tiene cuatro posibles resultados: (U 1 , L1 ), (U 1 , R1 ), (D1 , L1 ) y (D1 , R1 ). Por tanto, existen 4(24 ) = 64 posibles ENPS. Sin embargo, queda como ejercicio al lector probar que s´olo las siguientes estrategias son los ENPS del juego: Jugador 1
Jugador 2
1. ((U 1 , U 2 , U 2 , U 2 , D2 ), (R1 , L2 , L2 , L2 , R2 )) 2. ((U 1 , U 2 , U 2 , D2 , D2 ), (R1 , L2 , L2 , R2 , R2 )) 3. ((D1 , D2 , D2 , D2 , U 2 ), (L1 , R2 , R2 , R2 , L2 )) 4. ((D1 , D2 , U 2 , D2 , U 2 ), (L1 , R2 , L2 , R2 , L2 )) 5. ((D1 , U 2 , U 2 , U 2 , U 2 ), (R1 , L2 , L2 , L2 , L2 )) 6. ((D1 , D2 , U 2 , U 2 , U 2 ), (R1 , R2 , L2 , L2 , L2 )) 7. ((D1 , U 2 , D2 , U 2 , U 2 ), (R1 , L2 , R2 , L2 , L2 )) 8. ((D1 , D2 , D2 , U 2 , U 2 ), (R1 , R2 , R2 , L2 , L2 ))
106
Un Curso de Teor´ıa de Juegos Cl´ asica
9. ((D1 , D2 , D2 , D2 , D2 ), (R1 , R2 , R2 , R2 , R2 )) 10. ((D1 , U 2 , D2 , D2 , D2 ), (R1 , L2 , R2 , R2 , R2 )) 11. ((D1 , D2 , D2 , U 2 , D2 ), (R1 , R2 , R2 , L2 , R2 )) 12. ((D1 , U 2 , D2 , U 2 , D2 ), (R1 , L2 , R2 , L2 , R2 )) La soluci´ on de equilibrio de Nash perfecto en subjuegos pretende tomar en cuenta los incentivos de las partes en cada punto posible de decisi´ on. La t´ecnica de focalizar el juego en cada subjuego es u ´ til en la medida en que elimina cualquier equilibrio de Nash que asuma comportamientos implausibles (fuera de la trayectoria de equilibrio) por parte de los jugadores; sin embargo, y a pesar de todas estas previsiones, algunas complicaciones pueden surgir. Ejemplos de esto se ilustran con los ahora considerados “cl´ asicos” juegos del ciempi´es y de la “cadena de tiendas”, que presentamos a continuaci´on. Ejemplo 38 (El Juego del Ciempi´es (Rosenthal [1981])). Consideremos dos jugadores que hacen parte de un proceso que cada uno de ellos puede alternativamente detener. A medida que el proceso tome m´ as etapas en detenerse, mayores son los pagos que obtienen los jugadores: en particular, por cada etapa que avance el proceso, los pagos conjuntos se incrementan en una unidad monetaria, digamos 1 euro. Sin embargo, cada jugador prefiere el pago resultante de que sea ´el quien detenga el proceso, a que sea su oponente, en la etapa inmediatamente posterior, quien lo haga. El proceso tiene un m´ aximo de 100 etapas. La representaci´ on en forma extensiva de este juego aparece en la figura 57. Figura 57: Juego del Ciempi´es 1
D
2 C
D
1 0
1 C
D
0 2
2 C
D
2 1
2 C
... ... D
1 3
48 50
1 C
D
50 49
2 C
C
51 50
D
49 51
Observemos que en la primera etapa s´olo hay un euro. El jugador 1 tiene la oportunidad de detener el juego, lo que significar´ıa un pago de 1 para ´el y 0 para el jugador 2. En la segunda etapa hay 2 euros; el jugador 2 puede detener el juego con un vector de pagos (0,2), o continuarlo. Notemos que los mayores pagos conjuntos son (51,50) que se alcanzan si en todas las etapas cada jugador al que le corresponda ´ actuar decide continuar el juego. Este es un juego con informaci´on perfecta (porque
Juegos No-Cooperativos con Informaci´on Sim´ etrica
107
todos los conjuntos de informaci´ on est´ an conformados por un u ´ nico nodo) y completa (porque los dos jugadores conocen todos los posibles resultados del juego y los pagos para ambos jugadores). Por tanto, de acuerdo con el teorema 12, el equilibrio de Nash perfecto en subjuegos puede calcularse por el m´ etodo de inducci´ on hacia atr´ as. As´ı, en el u ´ltimo nodo de decisi´ on, el jugador 2, como agente racional, elige D que le genera un pago de 51, mayor al que obtendr´ıa si eligiera C que le da un pago de 50. Sabiendo esto, en la etapa anterior el jugador 1 elegir´ıa D que le da un pago de 50, desde luego mayor que lo que obtendr´ıa por jugar C dado que su oponente elegir´ıa C , esto es, 49. Con un argumento similar, en el antepen´ ultimo nodo de decisi´ on el jugador 2 elegir´ıa D para obtener 50 y no 49, que ser´ıa lo que obtendr´ıa por jugar C, dado que el jugador 1 elegir´ıa D. Continuando el mismo razonamiento hasta el nodo inicial, se observa que el resultado por inducci´ on hacia atr´ as de este juego es que el jugador 1 elija D, finalizando instant´ aneamente el juego. Los pagos que reciben los jugadores son (1,0); luego el ENPS del juego del ciempi´ es es claramente sub´ optimo ya que, como dijimos, eligiendo C en todas las etapas, los jugadores terminar´ıan con pagos de (51,50). Siguiendo a McKelvey y Palfrey [1992], “no obstante esta inequ´ıvoca predicci´ on, los te´ oricos en juegos no se han visto demasiado c´ omodos con el an´ alisis anterior del juego, pregunt´ andose si ´este realmente refleja la forma en que cualquiera lo jugar´ıa”. En principio, observemos que el resultado predicho por el ENPS requiere de una estructura de informaci´ on muy fuerte: que la racionalidad de los jugadores sea de conocimiento com´ un . Esto es, para que el jugador 1 elija D en la primera etapa requiere de 100 rondas de eliminaci´ on de estrategias dominadas. Notemos que aun si ambos jugadores son racionales, y ambos saben que su oponente es racional, pero alguno de ellos desconoce que su oponente sabe que ´el es racional, entonces el ENPS no resulta una predicci´ on razonable como soluci´ on del juego. Surge otra complicaci´ on a ra´ız de que cada jugador debe jugar varias veces: supongamos que en la primera etapa el jugador 1 elige C . La noci´ on de inducci´ on hacia atr´ as implicar´ıa que el jugador 2 deber´ıa jugar D porque, en caso contrario, el jugador 1 jugar´ıa D en el tercer nodo. Sin embargo, es claro que el jugador 1 no jug´ o seg´ un la inducci´ on hacia atr´ as en el primer nodo. As´ı, lo mejor que puede hacer el jugador 2 en el segundo nodo depende de sus creencias acerca de c´omo jugar´ a el jugador 1 en sus nodos siguientes. Por tanto, dependiendo de qu´ e tan fuertes sean las creencias del jugador 2 de que el jugador 1 seguir´a jugando C , puede resultar razonable para el jugador 2 jugar C y obtener un resultado que domine en el sentido de Pareto al ENPS. Otro argumento que cuestiona el resultado predicho por el ENPS se basa en la noci´ on de que al menos uno de los jugadores realmente desconoce los pagos que su oponente obtendr´ıa en cada posible resultado. Sin embargo, tal discusi´ on la aplazamos hasta el pr´oximo cap´ıtulo cuando estudiaremos juegos con informaci´ on incompleta. A continuaci´ on presentamos cierta evidencia experimental respecto al juego del ciempi´ es.
108
Un Curso de Teor´ıa de Juegos Cl´ asica
Evidencia Experimental del Juego del Ciempi´ es (McKelvey y Palfrey [1992]) McKelvey y Palfrey [1992] presentan evidencia experimental de varias versiones del juego del ciempi´ es, mostrando c´ omo tales resultados se alejan notablemente de las predicciones hechas por el concepto de equilibrio de Nash perfecto en subjuegos. Para dar una idea global de estos resultados, vale la pena se˜ nalar que, contrario a lo que predice la teor´ıa, solo 37 de los 662 juegos que llevaron a cabo terminaron en la primera etapa. Por otro lado, 23 de los juegos llegaron hasta la ultima ´ etapa, mientras que el resto terminaron en per´ıodos intermedios dispersos. Algunas de las principales conclusiones extra´ıdas de los resultados del experimento son: a. Se rechaza cualquier hip´ otesis de racionalidad de los agentes en el sentido de eliminar sucesivamente estrategias dominadas. b. La probabilidad de que un jugador decida terminar el juego aumenta conforme ´este se aproxima a la u´ltima etapa. c. A medida que los jugadores ganan experiencia se comportan m´as racionalmente, lo cual evidencia aprendizaje en el juego. d. Se encuentran individuos que nunca deciden terminar el juego; a estos jugadores se les cataloga como altruistas ya que tal comportamiento corresponde al de agentes que buscan maximizar la suma de los pagos, y no sus pagos individuales. Con base en estos aspectos, McKelvey y Palfrey [1992] construyen un modelo param´etrico con el que se proponen explicar tales resultados. Concluyen que los comportamientos mostrados por los sujetos experimentales pueden explicarse por un modelo que asuma informaci´ on incompleta en el juego, una peque˜ na fracci´ on de agentes altruistas, as´ı como la posibilidad de que los jugadores cometan errores, tanto en sus creencias sobre el comportamiento de los otros como en las acciones que eligen. Vale la pena se˜ nalar, nuevamente, que la incompletitud en la informaci´ on se refiere a que los jugadores creen que existe alguna posibilidad de que sus oponentes obtengan pagos diferentes a los que los experimentadores trataban de inducir. Ejemplo 39 (el juego de “la cadena de tiendas ” (Selten [1975])). Una cadena de tiendas tiene sucursales en 20 ciudades diferentes. Actualmente la u ´nica tienda presente en cada ciudad pertenece a esta cadena, pero tambi´en hay un entrante potencial en cada ciudad. Cada mes, en una ciudad diferente, un entrante potencial decide si entra o no al mercado y, seguido a esto, la cadena decide si se “acomoda” a la entrada del otro competidor, o si le declara una “batalla comercial”. El mejor resultado en cada mes, desde el punto de vista de la cadena, es que el entrante potencial se mantenga fuera del mercado, ya que esto le permitir´ıa ser la
Juegos No-Cooperativos con Informaci´on Sim´ etrica
109
u ´ nica firma en tal ciudad. El resultado m´ as deseable, desde el punto de vista de cada firma entrante, es “entrar” y que la cadena “se acomode”; esto es, que no le declare la batalla comercial. En cada etapa en que cualquier firma debe tomar una decisi´ on, conoce toda la historia del juego; luego hablamos de un juego con informaci´ on perfecta. La representaci´ on en forma extensiva del juego que se lleva a cabo cada mes, aparece en la figura 58. Figura 58: Juego de la Cadena de Tiendas Entrante potencial
Entra No entra Cadena de Tiendas 5 Se acomoda 1 Declara guerra comercial 2 0 2 0
Observemos que el juego de cada mes tiene dos equilibrios de Nash en estrategias puras: uno en el que la firma entrante se mantiene fuera y la cadena “amenaza” con iniciar una guerra, y otro en el que la firma entrante incursiona en el mercado y la cadena se acomoda. Desde luego, el primero de estos equilibrios no es perfecto en subjuegos ya que, en caso de que la cadena tuviera que decidir, preferir´ıa acomodarse a declarar una guerra comercial. Volvamos nuevamente al juego original. Como, en cada etapa, cada firma conoce la historia del juego, podemos solucionarlo por inducci´ on hacia atr´ as. Observemos en la figura 58 que en la u ´ ltima etapa la soluci´ on ser´a que el entrante potencial efectivamente entre al mercado y que la cadena se acomode. Continuando con el mismo razonamiento, podemos extender este argumento para todas las etapas. Al igual que en el ejemplo anterior del juego del ciempi´ es, este equilibrio de Nash perfecto en subjuegos resulta poco intuitivo. En particular, podr´ıamos pensar que la cadena de tiendas puede “amenazar” con declarar una guerra comercial con el fin de obtener cierta reputaci´ on que le permita disuadir la entrada futura de otras firmas al mercado. Nuevamente, una posible “salida” a esta aparente paradoja consiste en que cada firma asigne probabilidades subjetivas diferentes de cero, respecto al comportamiento de su oponente; pero al igual que en el ejemplo anterior, esta discusi´ on la dejamos para el cap´ıtulo siguiente.
110
Un Curso de Teor´ıa de Juegos Cl´ asica
Ejercicios 9. 1. Considere una modificaci´ on del juego de el gallina de la p´agina 63 donde al momento de tomar su decisi´ on, el jugador 2 ya conoce la decisi´on del jugador 1. a. Represente este juego en forma extensiva. b. Represente este juego en forma estrat´ egica. c. Encuentre la soluci´ on por inducci´ on hacia atr´ as. d. Encuentre los equilibrios de Nash. e. Encuentre los equilibrios de Nash perfectos en subjuegos. f. Explique las diferencias (si existen) entre estos dos ultimos. ´ 2. Considere nuevamente el juego de dos jugadores con conjuntos de estrategias C 1 = [0, 50] = C 2 y funciones de pago u1 (c1 , c2 ) =100c1 − 10c21 + 10c1 c2 u2 (c1 , c2 ) =200c2 − 15c22 + 10c1 c2 Suponga que el jugador 1 elige primero y el jugador 2 conoce la decisi´ o n de 1 al momento de jugar. a. Encuentre la soluci´ on por inducci´ on hacia atr´ as. b. Encuentre el equilibrio de Nash perfecto en subjuegos. c. Contraste los resultados encontrados con los de la secci´ on VIII. 3. Utilice la inducci´ on hacia atr´ as para encontrar el equilibrio de Nash del siguiente juego. Dos jugadores, Diego y Miguel, empiezan con $2 cada uno. En la primera ronda, Diego puede retirarse (R) y robarle los $2 a Miguel. En ese caso el juego se acaba. Si no se retira, Diego puede cooperar (C ) al no robar a Miguel, y la naturaleza le da $1 a Diego. Luego, en la segunda ronda, Miguel puede retirarse (R) y robarle $2 a Diego, en cuyo caso se acaba el juego, o cooperar (C ), y la naturaleza le da $1 a Miguel. El juego contin´ ua as´ı hasta que alguno de los jugadores se retire, o hasta que ambos tengan $10.
.
XI
Juegos Repetidos
Hasta esta instancia se ha asumido impl´ıcitamente que una vez dos o m´ as jugadores involucrados en alguna situaci´ on alcanzan los resultados de ´esta, su relaci´ on termina y no vuelven a encontrarse nunca m´as. Podr´ıamos decir que tal situaci´ on refleja m´ as la excepci´on que la regla; es decir, lo usual es encontrar casos en los cuales
Juegos No-Cooperativos con Informaci´on Sim´ etrica
111
los jugadores deben enfrentarse a una misma situaci´ on varias veces (disponiendo de alguna informaci´ on acerca de los resultados de interacciones pasadas) antes de iniciar cada nueva interacci´ on. Los juegos a los que se enfrentan compa˜ neros de oficina, empresas l´ıderes en alguna industria e, incluso, superpotencias nucleares, clasifican f´ acilmente en esta categor´ıa. Algunos aspectos importantes hacen que el estudio de los juegos repetidos merezca un an´ alisis especial. Dado que los jugadores reconocen que sus interacciones se llevar´an a cabo repetidas veces, el mediano y el largo plazo que antes no eran tenidos en cuenta, ahora cobran importancia. De esta forma, resulta plausible que algunos jugadores no valoren u ´nicamente los beneficios que obtendr´ıan en una primera interacci´ on sino que m´ as bien p odr´ıan interesarse por sus beneficios de largo plazo. Siendo esto as´ı, acciones diferentes a las que prescriben los conceptos soluci´ on que hemos visto (como el de equilibrio de Nash) p odr´ıan ser tomadas racionalmente por los jugadores si ´estas les dan la posibilidad de alcanzar mayores beneficios futuros. Como dijimos antes, de forma previa a cada nueva interacci´ on, los jugadores cuentan con alguna informaci´ on acerca de los resultados de las interacciones anteriores. Este hecho permite que cada jugador, desde el presente, pueda condicionar sus acciones futuras a los resultados que hayan sido obtenidos hasta el momento en que deba llevar a cabo una nueva acci´on. Como ejemplo de esto, recordemos el juego de “pa´ıs grande” y “pa´ıs peque˜ no”, en el que sus estrategias eran “armarse” y “permanecer desarmado”. Podr´ıamos pensar que este es un juego al que se enfrentan los dos pa´ıses cada a˜ no. Espec´ıficamente, el primer d´ıa del a˜ no, los dos pa´ıses, simult´ aneamente y de forma aislada, deben tomar una decisi´ on. Teniendo en cuenta las repercusiones que les traer´ıa a ambos iniciar una carrera armamentista, p odr´ıan adoptar posiciones como “permanecer desarmado hasta tanto el otro pa´ıs permanezca desarmado” y alcanzar resultados diferentes con respecto al caso en el que el juego se jugaba una sola vez. Como resulta claro a partir de este ejemplo, escenarios de cooperaci´ on t´ acita, amenazas, retaliaciones y normas sociales, entre otros, pueden estudiarse en este contexto. Como su nombre lo indica, un juego repetido es aquel en el que un conjunto de jugadores deben enfrentar el mismo juego de estado varias veces. Dos escenarios para el an´ alisis de este tipo de juegos han sido desarrollados en la literatura: aquellos en los cuales hay conocimiento com´ un del n´ umero finito de veces que se repetir´a el juego de estado y aquellos en los cuales al menos una de las partes desconoce cu´ ando terminar´ a el juego. Tradicionalmente estos dos escenarios se conocen como de horon izonte finito y de horizonte infinito (superjuegos), respectivamente. A continuaci´ analizamos los juegos de horizonte infinito, y hacia el final de la secci´ on los de horizonte finito. Las definiciones que introducimos a partir de ahora son v´ alidas para ambos escenarios. Definici´ o n 21 (Juego de Estado). Un juego de estado es un juego finito en forma estrat´egica G = (N, (A i )i∈N , (ui )i∈N ), donde N = 1, 2,...,n es el conjunto que indiza a los jugadores; A i es el conjunto de
112
Un Curso de Teor´ıa de Juegos Cl´ asica
acciones disponibles para cada jugador i ∈ N en cada etapa; y u i : A → R es la funci´ on de pagos (utilidad) para el jugador i, que asigna un pago (n´ umero real) a cada combinaci´ on de acciones (a1 ,...,an ) ∈ A, donde A = × i∈N Ai es el conjunto de acciones conjuntas (o combinaciones de acciones) de los jugadores.
on sim´etrica (o En lo que sigue, nos centraremos en juegos repetidos con informaci´ completa). Sin embargo, como vimos antes, dado que cada jugador no conoce la acci´ on que los dem´ as jugadores escoger´an en una misma etapa en la que deban actuar, diremos que el juego de estado tiene informaci´ on imperfecta. A diferencia de la forma en que se generan los pagos en los juegos por etapas que hemos estudiado hasta ahora, en los juegos repetidos asumimos que despu´es de cada interacci´ on, los jugadores reciben los pagos correspondientes y, seguido a esto, s´ı vuelven a interactuar. Como en los juegos repetidos las estrategias se escogen al inicio del juego, cada jugador debe poder comparar las posibles sucesiones futuras de pagos, de tal forma que pueda elegir de antemano entre las estrategias que determinar´ an tales sucesiones. A este respecto es de destacarse que la forma en que un jugador dado valora sus pagos futuros en t´erminos presentes, involucra factores sicol´ ogicos, culturales, religiosos, econ´ omicos, entre otros. Por esta raz´ on, se introducen en la literatura diferentes formas de medir los pagos. A continuaci´on exponemos dos de estas formas: 1. Pagos descontados Seg´ un este criterio, decimos que un jugador i prefiere una sucesi´on infinita de pagos { mit }∞ on { nit }∞ olo si, existe un n´ umero δ ∈ (0, 1) t=1 a otra sucesi´ t=1 si, y s´ tal que ∞
t=1
∞
t−1
δ
mit ≥
δ t−1 nit
t=1
Este n´ umero δ es la “tasa de descuento”, es decir, aquella mediante la cual se valora un pago futuro en t´ erminos presentes. Formas alternativas de interpretar este n´ umero se relacionan con la “paciencia” de los jugadores con respecto al paso del tiempo (si δ es m´as cercano a 1 el agente es “paciente”, pero si δ es cercano a 0, el agente es “impaciente”); o la “probabilidad” de que llegada cierta etapa, el juego contin´ ue, siendo esta mayor en cuanto δ sea cercano a 1. t−1 mi repreCon el criterio de “pagos descontados” la expresi´ on (1 − δ ) ∞ t t=1 δ senta el pago de la sucesi´ on { mit }∞ para el jugador i; el t´ e rmino (1 δ ) act´ ua − t=1 como un factor de normalizaci´ on, de tal forma que tal pago est´ e acotado por los mismos n´ umeros correspondientes a los pagos del juego de estado. Notemos que con este criterio de valoraci´ on los pagos alcanzados en etapas futuras son menores conforme estas se hacen m´ as lejanas. Desde luego, podr´ıan presentarse jugadores para los cuales pagos presentes y futuros reciben valoraciones exactamente iguales o, de forma equivalente, su paciencia sea infinita (δ = 1). En tales casos, el criterio de pagos descontados no es adecuado para comparar sucesiones de pagos. Esto nos lleva a introducir un segundo criterio.
113
Juegos No-Cooperativos con Informaci´on Sim´ etrica
2. L´ımite de los promedios La esencia de este criterio es simplemente la comparaci´on de los pagos promedio de cualquier par de sucesiones cuando el n´ umero de etapas va al infinito; es i ∞ decir, una sucesi´on { mt }t=1 es preferida estrictamente a otra sucesi´ on { nit }∞ t=1 si, y s´olo si, l´ımT →∞
T i k=1 mk
T
> l´ımT →∞
T i k=1 nk
T
Notemos que, con este criterio, p´ erdidas en un subconjunto finito de etapas no son tenidas en cuenta; lo u ´nico importante es el promedio de largo plazo 28 . Un ejemplo plausible de esto son las personas que est´an dispuestas a hacer grandes sacrificios presentes con el a´nimo de obtener futuras ganancias por un per´ıodo de tiempo de duraci´on indefinida; como lo importante en este caso es el promedio total, tales sacrificios presentes no revisten mayor importancia a la hora de elegir entre tal opci´on y otra que genere pagos menores pero estables a trav´es del tiempo. Ejemplo 40. Determinemos cu´ al de las siguientes sucesiones de pagos ser´ıa elegida por un jugador racional de acuerdo con los criterios de pagos descontados y de l´ımite de los promedios: {mit } = {5, 1, 1, 1,....}
{nit} = {2, 2, 2,....} De acuerdo con el criterio de pagos descontados, el pago de la sucesi´ on m it es ∞
δ t−1 mti =
t=1
5 − 4δ 1 − δ
mientras que el pago descontado de la sucesi´on n it es ∞
t=1
nti =
2 1 − δ
Por lo tanto, siempre y cuando δ ≥ 3/4, la sucesi´ on n it es preferida a la sucesi´ on m it . Es decir, si la paciencia del jugador que enfrenta estas dos sucesiones de pagos es suficientemente alta, preferir´ıa tener un pago de 2 siempre, que tener un pago de 5 28
Si los l´ımites mencionados no existen, el criterio puede modificarse a T T i nik k=1 mk l´ım inf T →∞ > l´ım inf T →∞ k=1 T
T
donde l´ım inf es el menor l´ımite de alguna subsucesi´ on convergente de la sucesi´on de pagos. M´ as precisamente, l´ıminf es el ´ınfimo de los l´ımites de las subsucesiones convergentes.
114
Un Curso de Teor´ıa de Juegos Cl´ asica
hoy y 1 a partir de ma˜ nana. La paciencia es, pues, requerida para que el jugador no se vea demasiado atra´ıdo por el pago (alto) de 5 en la primera etapa. Ahora comparemos las dos sucesiones con base en el criterio de l´ımite de los promedios; de esta forma, T k k=1 mi l´ım =1 T →∞ T mientras que l´ım
T →∞
T k k=1 ni
T
=2
Como dijimos, si el criterio es el de pagos descontados y el jugador es poco paciente (δ ≤ 3/4), prefiere la sucesi´ on mti a la sucesi´ on nit. De forma similar, observemos que si el jugador valora igual pagos presentes y futuros (criterio de l´ımite de los promedios) la sucesi´ on nit es preferida a la mit . Es decir, el criterio de l´ımite de los promedios favorece la sucesi´ on que otorgue mayores beneficios de largo plazo, aunque en el corto plazo no sea demasiado favorable.
Ejemplo 41. Consideremos las sucesiones de pagos, para t = 1, 2, . . . , hti =
1 , 3t
jit
1 = − 2
t
y determinemos qu´e sucesi´on es preferida con base en los criterios de pagos descontados y l´ımite de los promedios.
Pagos descontados Con este criterio, la sucesi´ on {hti } genera los pagos 1 δ δ 2 δ 3 hi = + 2 + 3 + 4 + ... 3 3 3 3 luego hi =
1 3 − δ
mientras que la sucesi´ on j it genera los pagos
−1 δ δ δ δ − ... = ji = − + − + 2 4 8 16 2 + δ De esta forma, la sucesi´ on de pagos hti es preferida a jit , independientemente del valor de la tasa de descuento.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
115
L´ımite de los Promedios Con este criterio, el l´ımite del promedio de los pagos de cada una de las sucesiones es T k k=1 hi l´ım =0 T →∞ T y T k k=1 ji l´ım =0 T →∞ T luego con este criterio las dos sucesiones son indiferentes para el jugador.
Antes de continuar, vale la pena aclarar un aspecto relacionado con los criterios de valoraci´ on de pagos: estos no son susceptibles de ser elegidos de forma estrat´egica entre los agentes con el fin de inducir cierto resultado del juego. Estos criterios son tomados de manera ex´ ogena por cada jugador de acuerdo con factores hist´ oricos, pol´ıticos, religiosos o cualquier otro que incida en la importancia que ´este le asigna al futuro con respecto al presente. Asumimos adem´ as que el criterio de valoraci´ on de pagos de los jugadores es de conocimiento com´ un en el juego.
Una vez sabemos c´omo valorar los pagos futuros por parte de los jugadores, es necesario establecer ahora, de forma adecuada, el concepto de estrategia en un juego amico, una estrategia para el jugador i esrepetido. Como en cualquier juego din´ pecifica un plan de acci´ on completo ante cualquier contingencia en la que i pueda encontrarse. En los juegos repetidos con informaci´on sim´etrica que estudiamos en esta secci´ on, las contingencias a las que se puede enfrentar el jugador i en una etapa t son todas las posibles sucesiones de acciones escogidas por los N jugadores hasta la etapa t − 1. Nos referiremos a estas sucesiones como las historias del juego. Definici´ o n 22 (Historia del Juego). k Sea a = (ak1 , ak2 ,...,akn ) el vector que indica la elecci´o n de los n jugadores en la etapa k. La historia del juego en la etapa t se define como la sucesi´on de vectores t ∞ ht = {ak }t−1 k=0 . El conjunto de todas las posibles historias {h }t=1 se denota por H . As´ı, podemos definir formalmente una estrategia en un juego repetido. Definici´ o n 23 (Estrategia Pura en un Juego Repetido). Para el jugador i en un juego repetido, una estrategia pura s i es una funci´on que asigna a cada historia h t una acci´ on ai : si : H → A i ht → s i (ht ) = a i De forma similar, podemos definir una estrategia mixta. Definici´ o n 24 (Estrategia Mixta en un Juego Repetido). Una estrategia mixta del jugador i, (σ i ), en un juego repetido, es una funci´ on que
116
Un Curso de Teor´ıa de Juegos Cl´ asica
asigna una distribuci´ on de probabilidad sobre el conjunto de estrategias puras, para cada posible historia del juego σi : H → ∆(Ai ) ht → σ i (ht ) Como un ejemplo sencillo de lo anterior, consideremos el juego del Dilema del Prisionero que presentamos nuevamente. Figura 59: Dilema del Prisionero, otra vez
C
NC
-4,-4
0,-5
NC -5,0
-1,-1
C
Aqu´ı las estrategias del juego de estado son “confesar” (C ) y “no confesar” (N C ). As´ı, una estrategia factible, digamos para el jugador i, en el juego repetido infinitamente, ser´ıa “no confesar” en la primera etapa, y en las etapas posteriores “no confesar” si en la etapa anterior el jugador j eligi´ o “no confesar”, y “confesar” si en la etapa anterior el jugador j eligi´ o “confesar”. Otra estrategia podr´ıa ser: elegir en la primera etapa “no confesar” y seguir eligiendo “no confesar” hasta tanto el resultado de la etapa anterior haya sido (“no confesar, no confesar”); en caso contrario, elegir “confesar”. El hecho a destacar de las dos estrategias brevemente enunciadas es que, en un juego repetido, las estrategias escogidas por los jugadores al inicio del juego indican qu´e acci´ on debe elegirse ante cualquier posible historia del mismo. De esta forma, puede decirse que cada jugador est´a pre-programado para seguir una regla de comportamiento de acuerdo al desarrollo del juego, de tal manera que s´ olo es necesario saber qu´ e ha ocurrido hasta cierta etapa, para determinar inmediatamente la acci´ on a ser elegida en la etapa siguiente. Pasamos ahora a definir las funci´ on de pago. Definici´ on 25. (Funci´ on de Pago en un Juego Repetido) on de pago para cada jugador i ∈ N es La funci´ gi : H → A →
R
que toma la forma gi [(st (ht ))]∞ t=0 = V (ui ), donde V viene dada de acuerdo con el criterio de valoraci´ on de pagos que se elija.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
A.
117
Juegos Repetidos Infinitamente
Llegamos, entonces, a la definici´ on central de esta secci´ on. Definici´ on 26. (Juego Repetido Infinitamente) Un juego repetido infinitamente es un juego donde N = 1, 2,...,n es el conjunto que indiza a los jugadores, S i es el conjunto de estrategias para el jugador i, y g i es la funci´ on de pagos del jugador i ∈ N asociada al criterio de valoraci´ on elegido. A continuaci´ on presentamos una serie de ejemplos en los que algunos de los juegos que hemos visto se repiten infinitamente; aparte de esto aprovechamos para definir e ilustrar algunas de las estrategias m´ as conocidas en los juegos repetidos. a. Estrategia del gatillo De forma sencilla, esta estrategia establece “cooperaci´ on” hasta tanto ambos juon de la cooperaci´ on , gadores hayan cooperado, pero a partir de cualquier desviaci´ no volver a cooperar. En el contexto del dilema del prisionero nos referimos a cooperaci´ on como la acci´ on “no confesar” (NC), ya que genera los mayores pagos, siendo estrictamente dominada para ambos jugadores. Formalmente podemos establecer esta estrategia de la siguiente manera: - ai1 = N C, para todo i - si a it−k = N C , para todo k = 1, 2.....t − 1, entonces ait = N C - si a it−k = un i, para alg´ un k, entonces ait = C N C para alg´ Ejemplo 42 (“Estrategia del gatillo” en “el Dilema del Prisionero”). Consideremos el juego repetido en el que el juego de estado descrito por la figura 60 se juega infinitas veces con el criterio de valoraci´ on de pagos descontados donde la tasa de descuento es ex´ogena y com´ un δ ∈ (0, 1). Analicemos este juego asumiendo que ambos jugadores siguen estrategias del gatillo, y mostremos que seguir esta estrategia constituye un equilibrio de Nash perfecto en subjuegos y que la cooperaci´o n (no confesar, no confesar) puede hacer parte de tal equilibrio si δ es suficientemente cercano a 1. Para esto analicemos los posibles tipos de subjuegos a los que se enfrenta un jugador i en este juego; estos pueden ser clasificados en dos grandes categor´ıas: los que provienen de la mutua cooperaci´ on (NC,NC ) y los que provienen de la defecci´ on (C ) de al menos uno de los jugadores. En este ´ultimo caso, el pago que recibe el jugador que no confes´o en la etapa en que su oponente se desvi´o es -5; si contin´ ua no-confesando, sus pagos en cada una de las etapas ser´ an de -5 debido a que, como su oponente sigue la estrategia del gatillo en lo que sigue del juego, entonces elige C . Si sigue la estrategia del gatillo, y en adelante confiesa, su pago en cada etapa ser´ a -1. Claramente, en este tipo de subjuegos es mejor seguir la estrategia del gatillo que no hacerlo. Consideremos ahora los subjuegos que provienen de la
118
Un Curso de Teor´ıa de Juegos Cl´ asica
cooperaci´on de ambos agentes; el pago por desviarse de la cooperaci´ on vendr´a dado por: −4δ πC = 0 + (−4)δ + ( −4)δ 2 + (−4)δ 3 + ... = 1 − δ mientras que el pago por continuar cooperando, dado que el otro jugador tambi´en sigue la estrategia del gatillo, es: πN C = − 1 + (−1)δ + ( −1)δ 2 + (−1)δ 3 + ... =
−1 1 − δ
Podemos comparar estas dos series de pagos para determinar cu´ando es mejor cooperar que no hacerlo, es decir, cu´ando πN C =
−1 −4δ = π C ≥ 1 − δ 1 − δ
Despejando, es f´ acil mostrar que siempre y cuando δ ≥ 1/4 resulta mejor “no confesar” que hacerlo en el juego repetido infinitamente cuando ambos jugadores siguen estrategias del gatillo. Analicemos ahora este mismo juego con el criterio de l´ımite de los promedios. Cuando nos encontramos en un subjuego que proviene de la no cooperaci´ on, continuar no confesando genera pagos de -5, luego el l´ımite de los promedios es tambi´en -5, mientras que seguir la estrategia del gatillo genera como l´ımite -1. As´ı, al igual que antes, es mejor seguir la estrategia en este tipo de subjuegos. Analicemos ahora qu´ e ocurre para subjuegos que provienen de la mutua cooperaci´on: desviarse de la estrategia genera la sucesi´ on de pagos: t πD = (0, −4, −4, −4,...)
y as´ı l´ım
T →∞
T k=1 (−4)
T
= − 4
Mientras que continuar con la estrategia genera la sucesi´on de pagos t πE = (−1, −1, −1, −1,...)
as´ı l´ım
T →∞
T k=1 (−1)
T
= − 1
Luego para un jugador que valore los pagos de acuerdo con el criterio de l´ımite de los promedios, siempre ser´ a mejor seguir la estrategia del gatillo que desviarse. Un punto importante aqu´ı es que la cooperaci´ on entre ambos en el dilema del prisionero (que no es equilibrio de Nash en el juego de un s´olo tiro) surge como equilibrio de Nash (perfecto en subjuegos) cuando la interacci´on se repite una y otra vez.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
119
Notemos que esta cooperaci´ on se alcanza de forma m´ as f´ acil con agentes que valoren de igual forma el presente y el futuro, que con agentes que den mayor importancia al presente, ya que aquellos tendr´ıan pocos incentivos a desviarse de la cooperaci´ on motivados por los beneficios de corto plazo.
Ejemplo 43 (“estrategia del gatillo” en “halc´ on y paloma”). Consideremos una estrategia del gatillo para el juego de “Halc´ on y Paloma”, que presentamos en la figura 60, en el que cada jugador elige su acci´on P hasta tanto ambos hayan elegido en la etapa anterior P . En caso de cualquier desviaci´ o n de P , empiezan a coordinarse alternadamente en cada uno de los equilibrios de Nash puros, digamos, empezando en el que favorece al jugador 1. Figura 60: Halc´ on y Paloma
H
P
H -1,-1
4,0
P 0,4
2,2
El pago por seguir la estrategia es πP =
2 1 − δ
mientras que el pago por desviarse genera los siguientes pagos: πD = 4 + 0δ + 4δ 2 + 0δ 3 + 4δ 4 + . . . que puede expresarse como πD =
4 4 = (1 − δ )(1 + δ ) 1 − δ 2
Por lo tanto, siempre es mejor desviarse de la estrategia del gatillo en subjuegos que provienen de la cooperaci´ on de ambos jugadores (P, P ). Desde luego, en subjuegos que provienen de (H, H ), es mejor tambi´en desviarse. Notemos, sin embargo, que de acuerdo con el criterio de l´ımite de los promedios, un jugador ser´ıa indiferente entre seguir la estrategia y no hacerlo, ya que sus pagos promedio, en el l´ımite, son iguales a 2 en ambos casos.
Ejemplo 44 (“estrategia del gatillo” en “el juego del gallina”). Consideremos ahora el juego del gallina repetido infinitamente bajo estrategias del gatillo para ambos jugadores:
120
Un Curso de Teor´ıa de Juegos Cl´ asica
C
Q
C -5,-5
2,0
Q 0,2
1,1
De forma similar al caso anterior, podemos definir una estrategia del gatillo como jugar Q si en la etapa anterior ambos jugaron Q; en caso contrario, elegir alternadamente cada uno de los equilibrios de Nash puros. De acuerdo con el criterio de pagos descontados, el pago por seguir la estrategia es πQ =
1 1 − δ
mientras que el pago por desviarse es πD =
2 1 = (1 − δ )(1 + δ ) 1 − δ 2
As´ı, como δ ∈ (0, 1) tenemos que siempre 2 2 1 > 1 − δ 2 (1 − δ )(1 + δ ) (1 − δ ) luego seguir la estrategia del gatillo no constituye un equilibrio de Nash perfecto en subjuegos en el juego de “el gallina” con el criterio de pagos descontados, ya que siempre ser´a mejor desviarse de la cooperaci´ on. Al igual que en el caso anterior, notemos que bajo el criterio de l´ımite de los promedios, las dos sucesiones de pagos son equivalentes, luego no hay incentivos unilaterales a desviarse, de parte de ninguno de los jugadores. Notemos que para subjuegos que provienen de (C, C ) siempre es mejor seguir la estrategia (alternar entre (C, Q) y (Q, C )) que seguir jugando C . As´ı, con el criterio de l´ımite de los promedios, la estrategia del gatillo s´ı constituye un equilibrio de Nash perfecto en sub juegos para el juego del gallina.
Ejemplo 45 (“estrategia del gatillo” para la batalla de los sexos). Consideremos nuevamente el juego batalla de los sexos, cuya matriz de pagos est´ a dada por la bimatriz de la figura 61. Establezcamos la siguiente estrategia para cada uno de los jugadores: jugar F en las etapas impares y T en las etapas pares, siempre y cuando el otro jugador haya hecho lo mismo. En caso contrario jugar la estrategia mixta que asigna a F y T probabilidades de 2/3 y 1/3 respectivamente para el jugador 1, y 1/3 y 2/3 respectivamente para el jugador 2. Para verificar que esta estrategia constituye un equilibrio de Nash perfecto en subjuegos, encontremos los beneficios por seguirla y por desviarse de
121
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Figura 61: Batalla de los sexos
F
T
F 2,1
0,0
T 0,0
1,2
ella. La utilidad del jugador 1 por seguir la estrategia es: 1 U S = 2 + δ 1 + 2δ 12 + δ 13 + 2δ 14 + ...
y entonces 1 U S =
2 − δ 1 2 − δ 1 = (1 − δ 1 )(1 + δ 1 ) 1 − δ 12
De forma similar, para el jugador 2 tenemos: 2 U S = 1 + 2δ 1 + δ 12 + 2δ 13 + δ 14 + ...
y entonces 2 = U S
1 + 2δ 2 1 − δ 22
Ahora encontremos la utilidad de 1 por desviarse:
1 2 +0 3 3 2δ 1 2δ 2 2δ 3 1 U D = + 1 + 1 + ... 3 3 3 1 U D
= 0 + δ 1
2
luego 1 U D =
2 3
+ 0
1 3
+1
2 3
1 3
+ ...
2δ 1 3(1 − δ 1 )
Con un procedimiento similar, la utilidad del jugador 2 por desviarse es: 2 U D =
2δ 2 3(1 − δ 2 )
Por lo tanto, para el jugador 1 es mejor seguir la estrategia que desviarse si 2 − δ 1 2δ 1 ≥ 2 3(1 − δ 1 ) 1 − δ 1
122
Un Curso de Teor´ıa de Juegos Cl´ asica
es decir, si δ 1 ≥ 0, 866. De forma similar, para el jugador 2 es mejor seguir la estrategia que desviarse si 1 + 2δ 2 2δ 2 ≥ 3(1 − δ 2 ) 1 − δ 22 es decir, si δ 2 ≥ 0, 4361 Notemos que la tasa de descuento que garantiza la cooperaci´ on es mayor para aquel jugador que se vea m´ as beneficiado en la etapa cero (en este caso el jugador 1). Es decir, una vez se han coordinado en el equilibrio que lo favorece entonces, a menos que su tasa de descuento sea suficientemente alta, este tendr´ a incentivos a jugar su estrategia mixta en cada per´ıodo en vez de alternar la escogencia de sus dos estrategias puras.
b. Estrategia “Garrote y Zanahoria” on de la cooperaci´ on de parte Esta estrategia consiste en que, seguido a cada desviaci´ de alguno de los jugadores, se inicia una etapa de mutua penalizaci´ on; terminada esta etapa, los jugadores vuelven a cooperar hasta tanto no se presente alguna nueva desviaci´ on. Es decir, despu´ es de cada defecci´ on, ambos jugadores escoger´ a n por alg´ un tiempo (digamos, una etapa) la acci´ on que les reporte menores pagos conjuntos como se˜ nal de castigo, con el a´nimo de que puedan volver a un per´ıodo (posiblemente infinito) de cooperaci´ on. Notemos que, con respecto a la estrategia del gatillo, la estrategia del garrote y la zanahoria presenta una menor retaliaci´ on ya que, si bien castiga cualquier defecci´on, el p er´ıodo de castigo no es de duraci´ on infinita como en aquella, sino que despu´es de cierto plazo se puede volver a la cooperaci´ on. Con relaci´ on a los ejemplos que comentamos en la introducci´ on de la secci´on, podr´ıa decirse que una estrategia de este tipo es m´ as com´ un en un grupo de compa˜ neros de trabajo, mientras que la estrategia del gatillo caracterizar´ıa a los pa´ıses con capacidad de iniciar una guerra nuclear. Ilustremos con un ejemplo la estrategia del garrote y la zanahoria. Ejemplo 46 (garrote y zanahoria para el ejemplo de halc´ on y paloma). Consideremos el juego halc´ on y paloma asumiendo que se repite infinitamente. Podemos establecer formalmente una estrategia de “garrote y zanahoria” para cada jugador i de la siguiente forma: - ai1 = P - Si a it−1 = P , para todo i, o a it−1 = H , para todo i, entonces ait = P
Juegos No-Cooperativos con Informaci´on Sim´ etrica
123
- Si ait−1 = un i = j, entonces ait = H a jt−1 para alg´ Mostremos que el resultado (P, P ) puede alcanzarse como parte de un equilibrio de Nash perfecto en subjuegos en el juego repetido infinitamente. Para esto necesitamos mostrar que tal estrategia es de equilibrio para todos los subjuegos posibles del juego repetido. De esta forma, identifiquemos los posibles tipos de subjuegos que pueden aparecer: 1. Subjuegos que provienen de la mutua cooperaci´ on (P, P ) 2. Subjuegos que provienen de la mutua penalizaci´ on (H, H ) 3. Subjuegos que provienen de una etapa en la que uno de los jugadores cooper´ oy el otro penaliz´ o (H, P ) y (P, H ) Analicemos el primer caso; si se proviene de una etapa de mutua cooperaci´ on (P, P ), seguir la estrategia equivale a jugar P nuevamente, mientras que “desviarse” corresponde a jugar H . As´ı, si un jugador decide desviarse por una sola vez, recibe un pago de 4 pero, seguido a esto, llegar´ıa la etapa de “penalizaci´ on” en la que cada uno gana -1, y posteriormente regresar´ıan a la fase de cooperaci´ on en donde los pagos, en cada etapa, son nuevamente de 2 para cada jugador. As´ı, con el criterio de pagos descontados, ser´ıa mejor cooperar que desviarse si, y s´ olo si, 2 + 2δ + 2δ 2 + ... ≥ 4 − δ + 2δ 2 + 2δ 3 + ..., es decir, si, y s´ olo si, 3δ 2 − 5δ + 2 ≤ 0, lo que ocurre siempre que δ ≥ 2/3. Para el segundo caso (subjuegos que provienen de la etapa de penalizaci´ on) la estrategia indica “cooperar”, generando pagos de 2 para cada jugador, mientras que desviarse genera un pago de 4 en la etapa en que se genera la desviaci´o n, -1 en la etapa siguiente y, a continuaci´ on, 2. Luego el valor de δ que sostiene “cooperar” como un resultado de equilibrio es el mismo del caso anterior. Para el u ´ ltimo caso, subjuegos que provienen de una etapa en la que s´ olo uno de los jugadores cooper´o, la estrategia indica entrar en la etapa de penalizaci´ on gener´ andose un pago de -1 para cada jugador, y posteriormente entrar en la etapa de cooperaci´ on con pagos de 2. Desviarse de la estrategia equivale a ganar cero en tal etapa, y retrasar el inicio de la penalizaci´ on un per´ıodo. As´ı, para cualquier valor de δ se sostiene la estrategia de garrote y la zanahoria en este tipo de subjuegos. Tomando los tres casos, encontramos que se alcanza la cooperaci´ on en el juego de halc´ on y paloma repetido infinitamente con jugadores que adoptan la estrategia de garrote y zanahoria como un equilibrio de Nash perfecto en subjuegos, siempre que δ ≥ 2/3. Estudiemos ahora qu´e pasar´ıa si los jugadores valoraran sus pagos futuros de acuerdo con el criterio de l´ımite de los promedios. Consideremos entonces los subjuegos que provienen de la mutua cooperaci´ on (P, P ). En tal caso, seguir la estrategia garantiza un pago de 2 en cada etapa; as´ı el l´ımite de los promedios es 2. Desviarse, por su
124
Un Curso de Teor´ıa de Juegos Cl´ asica
parte, genera un pago de 4 en la primera etapa, -1 en la segunda y, a partir de ah´ı, 2 nuevamente. De esta forma el l´ımite de los pagos promedio, nuevamente, es 2, con lo cual cada jugador ser´ıa indiferente entre seguir la estrategia o desviarse. Es decir, la ganancia “moment´ anea” que se obtiene por desviarse no es suficientemente atractiva, ya que “en el largo plazo” los pagos promedios son iguales.
Ejemplo 47 (garrote y zanahoria para el dilema del prisionero). Consideremos los subjuegos que provienen de la mutua cooperaci´ on. De acuerdo con el criterio de pagos descontados, seguir la estrategia “garrote y zanahoria” representa un pago de -1/1-δ , mientras que “desviarse” representa un pago de (−4δ + 3δ 2 )/(1 − δ ), correspondiente a un pago de 0 en la primera etapa, -4 en la segunda y -1 en adelante, indefinidamente. As´ı, es mejor seguir la estrategia en estos subjuegos si
−1 −4δ + 3δ 2 > 1 − δ 1 − δ es decir, si δ ≥
1 3
Para subjuegos que provienen de la no cooperaci´on de al menos uno de los jugadores, claramente resultar´ a mejor seguir la estrategia “garrote y zanahoria” que “desviarse” y obtener, persistentemente, menores pagos. As´ı, la estrategia “garrote y zanahoria” constituye un equilibrio de Nash perfecto en subjuegos para el dilema del prisionero con el criterio de pagos descontados, siempre que δ ≥ 2/3. Al igual que con la estrategia del gatillo, notemos que con el criterio de l´ımite de los promedios, la estrategia “garrote y zanahoria” constituye un equilibrio de Nash perfecto en subjuegos ya que los pagos promedio por seguir la estrategia como por desviarse (en el l´ımite) son iguales. Observemos que la tasa de descuento que garantiza la cooperaci´on en el dilema del prisionero bajo la estrategia “garrote y zanahoria” es mayor al que se requer´ıa con la estrategia del gatillo. Esto evidencia que la “amenaza” de un castigo mayor, como el suministrado por la estrategia del gatillo, es suficiente para generar cooperaci´ on, mientras que amenazas m´ as d´ebiles, como la del garrote y la zanahoria, requieren de una mayor paciencia de los jugadores para garantizar la cooperaci´ on. Esto nos lleva a pensar que es m´as dif´ıcil alcanzar la cooperaci´ on en un escenario de “guerra fr´ıa” hacia una confrontaci´ on nuclear que entre un par de compa˜ neros de oficina, dadas las represalias que conlleva la defecci´ on en cada uno de los casos.
c. Estrategia del “ojo por ojo” (“tit por tat”) La estrategia “ojo por ojo”, aunque en varias ocasiones ha resultado ser la m´ as
Juegos No-Cooperativos con Informaci´on Sim´ etrica
125
efectiva para jugadores que se enfrentan a escenarios de juegos repetidos 29 , es, muy probablemente, la m´ as simple de todas. La estrategia “ojo por ojo” indica iniciar cooperando y, a partir de la segunda etapa, jugar la acci´ on que el otro jugador tom´ o en la etapa anterior. Formalmente podemos establecer: - ai1 = C - ait = a jt−1 para todo t > 1 donde C representa la acci´on cooperativa i, j = 1, 2. Ejemplo 48 (“tit por tat” para el dilema del prisionero). Como esta estrategia indica que se debe iniciar cooperando, los pagos de seguir la estrategia en el comienzo del juego y en los subjuegos que provienen de la cooperaci´on vienen dados por −1 πE = 1 − δ Por su parte, los pagos por desviarse de la estrategia vienen dados por πD =
−5δ −5δ = (1 − δ )(1 + δ ) 1 − δ 2
As´ı, es mejor seguir la estrategia que desviarse si δ ≥ 1/4; sin embargo, “tit por tat” no es perfecta en subjuegos. Para ver esto, supongamos que en la primera etapa el jugador 2 se desv´ıa. Los pagos para el jugador 1 quedan de la siguiente forma:
−5 −5 = (1 − δ )(1 + δ ) 1 − δ 2 Pero entonces, si el jugador 1 se desv´ıa y “perdona” la desviaci´ on de 2 en la primera etapa, obtiene
−δ 1 − δ luego es mejor desviarse si δ ≤ 1,79; pero como δ ∈ (0, 1), siempre es mejor desviarse.
Ejemplo 49 (tit por tat para el juego del gallina). Modifiquemos los pagos del juego del gallina y supongamos que se repite infinitamente. El juego de estado viene dado por la matriz de pagos de la figura 62. Los pagos se han modificado ligeramente, aument´ andose los que reciben si ambos deciden detenerse, y el pago del que decide seguir cuando el otro se detiene. Si ambos jugadores siguen la estrategia del “tit por tat”, empezar´ an jugando (Q, Q) y continuar´ an haci´ endolo indefinidamente; luego sus pagos ser´ an 4/(1 − δ ) . Si un jugador, digamos el 1, decide desviarse de la estrategia por una sola etapa, entonces, 29
M´ as adelante veremos algunos resultados del torneo de computadores de Axelrod [1984] que confirman esto.
126
Un Curso de Teor´ıa de Juegos Cl´ asica
Figura 62: Juego del gallina
C
Q
C -5,-5
6,0
Q 0,6
4,4
en la etapa de la desviaci´ on el resultado ser´ a (C, Q), gener´ a ndole un pago de 6, pero esto hace que los resultados siguientes sean (Q, C ), (C, Q), (Q, C ),... alternando pagos de 6 y 0 para cada jugador. De esta forma, ser´ a mejor seguir la estrategia del “tit por tat” que desviarse siempre y cuando 4 ≥ 6 + 6δ 2 + 6δ 4 + ... 1 − δ es decir, siempre que 4 6 ≥ 1 − δ 1 − δ 2 lo cual es cierto siempre que δ ≥ 1/2. Sin embargo, la estrategia del “tit por tat” no es perfecta en subjuegos. Para ver esto, supongamos que en una etapa cualquiera, digamos la primera, un jugador, digamos el 2, se desv´ıa “por error” (juega C ) . Si esto es as´ı, de acuerdo con la estrategia, el jugador 1 deber´ıa responder jugando C , y el 2 jugando Q, lo cual generar´ıa una sucesi´ on de resultados (Q, C ), (C, Q), (Q, C ),... 2 con pagos de 6δ/1 − δ para el jugador 1. Si este jugador “se desv´ıa” de la estrategia y “perdona” al jugador 2 por su error, ganar´ıa cero en la primera etapa; pero a partir de all´ı ganar´ıa 4, luego su pago ser´ıa 4δ/1 − δ . De esta forma es mejor desviarse de la estrategia y “perdonar” el error de la primera etapa siempre que 4δ 6δ ≥ (1 − δ ) 1 − δ 2 es decir, siempre que δ ≥ 1/2. Notemos adem´ as que para los subjuegos que empiezan en (C, C ) es mejor desviarse para cualquier valor de δ ya que es mejor alternar pagos de 0 y 6 que perder siempre 5. As´ı, podemos concluir que la estrategia del “tit por tat” no es p erfecta en subjuegos. No obstante, tal estrategia tiene caracter´ısticas importantes, lo cual se hizo evidente por primera vez en el torneo de computadores de Axelrod [1984] que comentamos brevemente a continuaci´ on.
Juegos No-Cooperativos con Informaci´on Sim´ etrica
127
Sobre el Torneo Computarizado del dilema del prisionero” de Axelrod [1984] A mediados de los a˜ nos 1980 el profesor de ciencia pol´ıtica y pol´ıtica p´ ublica de la Universidad de Michigan, Robert Axelrod, convoc´ o a investigadores de varias disciplinas para que dise˜ naran programas de computador que jugaran repetidamente el dilema del prisionero a trav´ es del “m´ etodo de liga”, es decir, cada uno de los participantes era enfrentado una vez con cada uno de los dem´ as concursantes y con un programa aleatorio. Se especificaba como objetivo de cada uno de ellos hacer que la suma de los pagos obtenidos en todos los juegos fuera la m´ as alta posible. Habiendo especificado esto, se realiz´o un primer torneo con 14 concursantes. Los resultados fueron publicados y se convoc´o a un segundo torneo con 62 concursantes, quienes ya conoc´ıan los resultados anteriores. Un resultado importante que se pudo extraer de los dos torneos fue que la estrategia “ojo por ojo” (“tit por tat”) fue la vencedora en ambos casos . Con base en los “enfrentamientos” particulares entre pares de estrategias, y los resultados generales del torneo, Axelrod se˜ nala algunas de las caracter´ısticas que hab´ıan permitido a la estrategia “tit por tat” ubicarse en el puesto m´ as alto y a otras alcanzar puntuaciones tambi´ en altas. A continuaci´ on mencionamos tales caracter´ısticas y un breve comentario respecto a cada una de ellas. a. No ser “envidioso” : esto quiere decir no cambiar cierto comportamiento porque el oponente est´e ganando m´ as, sino comparar las ganancias individuales con las propias ganancias potenciales (no con las del otro). A este respecto se muestra que tit por tat no gan´ o en ninguna sola partida; sus puntuaciones altas fueron conseguidas a trav´ es de comportamientos que permit´ıan que ambas estrategias puntuaran alto. b. No ser el primero en no cooperar : un resultado interesante es que todas las estrategias que quer´ıan explotar a sus rivales, es decir, que quer´ıan ser la primera en no cooperar, se ubicaron en la parte inferior de la tabla de puntuaciones. As´ı, una conclusi´ on importante es la posici´ on desfavorable que se alcanza por iniciar una guerra . c. Devolver tanto la cooperaci´ on como la defecci´ on : simplemente, castigar defecciones del rival y premiar actitudes cooperativas. Penalizaciones demasiado largas, como la de la estrategia del gatillo, son muy costosas. d. No creerse demasiado inteligente : reglas claras y sencillas son de un mejor entendimiento para un rival, y esto promueve la cooperaci´ on a trav´ es de la confianza. Claramente la estrategia “tit por tat” satisface las condiciones de Axelrod: es bastante sencilla, nunca deja ofensa sin castigo, nunca busca el enfrentamiento, no guarda rencor por mucho tiempo y est´ a dispuesta a restaurar la cooperaci´ on. Sus virtudes principales son, entonces, promover la cooperaci´ on y no dejarse explotar.
128
Un Curso de Teor´ıa de Juegos Cl´ asica
Sin embargo, cuando “tit por tat” se aplica a problemas reales espec´ıficos, los “errores de percepci´on” pueden ser demasiado costosos. Dixit y Nalebuff [1991], por ejemplo, comentan el caso de cuando en 1987 Estados Unidos responden al espiona je ruso en su embajada en Mosc´ u reduciendo el n´ umero de diplom´ aticos sovi´eticos autorizados para trabajar en Estados Unidos. Seguido a esto, los sovi´ eticos, por su parte, responden retirando el personal nativo contratado en la embajada sovi´ etica en Washington. El resultado de tales acciones fue que, para ambos pa´ıses, se dificult´ o sustancialmente el desarrollo de sus labores diplom´ aticas. Desde esta perspectiva, una vez desencadenada la serie de penalizaciones, ser´ıa deseable para ambos que al menos una de las partes, siendo un poco indulgente, se desviara de su estrategia e iniciara un per´ıodo de cooperaci´ on. Esto evidencia el hecho de que la estrategia “tit por tat” no es perfecta en subjuegos. Finalmente, notemos que la serie de penalizaciones en el ejemplo mencionado pudo haberse desatado simplemente por un error de percepci´on en cuanto a la acci´on de una de las partes; sobre esto profundizaremos en el siguiente cap´ıtulo.
B.
Teoremas Populares (“Folk Theorems”)
Como hemos visto en lo corrido de esta secci´ on, parece razonable que los pagos promedio que obtienen los jugadores que enfrentan juegos repetidos infinitos en algunos equilibrios de Nash perfectos en subjuegos son por lo menos iguales a los que obtendr´ıan en los equilibrios de Nash del juego de estado correspondiente. Recordemos que en algunos de los ejemplos presentados, con el criterios de valoraci´ on de l´ımite de los promedios siempre era mejor optar por la elecci´on cooperativa que por una que generara beneficios superiores en el corto plazo pero que “penalizaba” en el mediano y/o largo plazo. De forma similar, vimos que con el criterio de valoraci´ on de pagos descontados, siempre que la tasa de descuento fuera suficientemente alta, era preferible cooperar que no hacerlo. La presentaci´ on heur´ıstica que acabamos de hacer corresponde a lo que se conoce en la literatura de teor´ıa de juegos como teoremas populares , por haberse hecho una serie de aproximaciones informales a estos resultados, antes de que se presentara una demostraci´ on formal expl´ıcita. La intuici´ on (y la tradici´ on) suger´ıan que en juegos repetidos infinitamente, cada jugador podr´ıa alcanzar cualquier pago promedio que no fuera menor a aquel que obtendr´ıa en el juego de una sola etapa si su objetivo fuera minimizar la p´erdida que su oponente buscara infligirle , es decir, se podr´ıa alcanzar cualquier pago promedio mayor o igual que el valor minmax del juego. Teorema 13 (“Teorema Popular” para el Criterio de L´ımite de los Promedios). Sea vi el valor minmax del jugador i en el juego Γ = (N, (C i )i∈N , (ui )i∈N ). Todo perfil de pagos w con w i ≥ v i para todo i, es un perfil de pagos de equilibrio de Nash perfecto en subjuegos del juego Γ repetido infinitamente con el criterio de valoraci´ on de pagos “l´ımite de los promedios”.
129
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Demostraci´ on. Ver Aumann y Maschler [1995]. Teorema 14 (“Teorema Popular” para el Criterio de Pagos Descontados). Sea v i el valor minmax del jugador i en el juego Γ = (N, (C i )i∈N , (ui )i∈N ). Para todo perfil de pagos w con wi ≥ v i para todo i, existe un n´ umero δ ∈ (0, 1) y un n´ umero > 0, tal que para todo δ > δ el juego Γ repetido infinitamente con el criterio de pagos descontados tiene un equilibrio de Nash perfecto en subjuegos con pagos w que satisface ||w − w|| < . Demostraci´ on. Ver Aumann y Maschler [1995]. Una representaci´ on gr´ afica de los dos teoremas anteriores para el juego del dilema del prisionero puede observarse en la figura 63. Figura 63: Dilema del prisionero (-5,-0)
u1 (-1,-1)
(-4,-4) (0,-5)
u2 La envolvente convexa de los cuatro pagos correspondientes a las posibles combinaciones de las estrategias puras representa el conjunto de pagos factibles (en estrategias puras y mixtas). Observemos que el valor minmax en este juego es -4 para cada jugador. As´ı, de acuerdo con los teoremas populares, todos los perfiles de pago promedio factibles, a la derecha y arriba de (-4,-4) (regi´ on sombreada), pueden ser alcanzados en equilibrios del juego repetido infinitamente.
C.
Juegos Repetidos Finitamente
Consideremos una situaci´ on en la que dos jugadores deben enfrentar el mismo juego un n´ umero finito de veces y, desde el inicio, ambos tienen conocimiento de este n´umero. Al igual que antes, asumamos que, de forma previa a cada etapa, cada jugador conoce las decisiones de su oponente y recibe los pagos correspondientes a la u ´ltima interacci´ on.
130
Un Curso de Teor´ıa de Juegos Cl´ asica
Como hablamos de un juego con informaci´ on sim´etrica, podemos aproximarnos a su an´ alisis con el m´ etodo de inducci´ on hacia atr´ as. Con el fin de ilustrar este m´etodo para la clase de juegos en cuesti´on, consideremos nuevamente el juego del dilema del prisionero, ahora en un contexto en el que los dos jugadores saben que enfrentar´ an el mismo juego, digamos, 20 veces. Empezando en la u ´ ltima etapa, ambos jugadores saben que la combinaci´ on de estrategias que predeciblemente se jugar´ a es la del equilibrio de Nash del juego de estado: como no hay una etapa futura, cada jugador observa que “no cooperar” domina a “cooperar”, y act´ ua en consecuencia, independientemente de la historia del juego. En la p en´ ultima etapa, los dos jugadores, sabiendo lo que har´ an en la etapa 20, perciben que, dado que su elecci´on en esta etapa no afecta la elecci´ on en la u ´ltima etapa, act´ uan ego´ıstamente y eligen nuevamente la combinaci´ on correspondiente al equilibrio de Nash del juego de estado. Siguiendo con el mismo argumento hasta la etapa inicial, encontramos que el u´nico equilibrio de Nash del juego repetido finitamente consiste en jugar, en cada una de las etapas, la combinaci´ on de estrategias de equilibrio de Nash del juego de estado. Desde luego, en tanto el n´ umero de repeticiones que deben enfrentar los jugadores se hace m´as grande, este resultado, predicho por el concepto de equilibrio de Nash perfecto en subjuegos, se vuelve cada vez menos plausible. En general, ocurre algo similar a lo que vimos en la secci´ on anterior con el juego del ciempi´ es. Esto es, que en experimentos controlados se observa alg´ un grado de cooperaci´ on en las etapas iniciales e intermedias, que tiende a atenuarse conforme el final del juego se aproxima. Al igual que en aquel ejemplo, una posible explicaci´ on de estos comportamientos est´ e en la incompletitud de la informaci´ on acerca de los pagos del oponente. Como dijimos, esto lo analizamos m´ as adelante. Sin embargo, otra posible explicaci´ on, planteada por el te´ orico en juegos Ariel Rubinstein (Osborne y Rubinstein [1994]) est´ a en el papel que juega la u´ltima etapa en la toma de decisiones de los jugadores en cada una de las etapas. As´ı, si estos perciben la ultima ´ etapa suficientemente lejos (y esto puede ser incluso 10 o 20 etapas), esta no afecta el comportamiento presente. Por lo tanto, para hablar de la elecci´ on de los jugadores en ese momento, resultar´ıa m´ as pertinente recurrir a herramientas de los juegos repetidos infinitamente que a los de horizonte finito. Sin embargo, si el final del juego se acerca, los jugadores lo perciben y esta u ´ ltima etapa, entonces, incide de forma importante en el comportamiento presente. En tal contexto resultar´ıa pertinente analizar el caso como un juego de horizonte finito. Este argumento explicar´ıa por qu´ e en los experimentos se percibe cierta cooperaci´ on al inicio del juego y conforme ´este avanza, aqu´ella desaparece, tal como dijimos arriba. Un problema que surge con este enfoque para la construcci´ on de un modelo te´ orico que se ajuste a lo encontrado en los experimentos controlados, es c´omo determinar el momento en el cual la u´ltima etapa pasa de no incidir en el comportamiento de los jugadores, a efectivamente hacerlo. Juegos repetidos finitamente con m´ ultiples equilibrios Consideremos ahora un juego similar al Dilema del Prisionero, e incluyamos una
Juegos No-Cooperativos con Informaci´on Sim´ etrica
131
tercera estrategia para cada jugador. El juego se representa en la figura 64. Figura 64: Juegos repetidos finitos con m´ ultiples equilibrios A2
B2
C 2
A1 6,6
1,7
0,0
B1 7,1
2,2
0,0
C 1 0,0
0,0
4,4
Observemos que este juego tiene dos equilibrios de Nash en estrategias puras (B 1 , B2 ) y (C 1 , C 2 ), dominando este u ´ltimo, en el sentido de Pareto, al primero. Asumamos ahora que los jugadores deben enfrentar este juego dos veces y esto lo saben desde el comienzo. Por simplicidad, digamos que no hay descuento intertemporal. Recurriendo al m´ etodo que acabamos de explicar, sabemos que en la ultima ´ etapa los jugadores se coordinan en un equilibrio de Nash; el problema ahora es que al haber dos equilibrios en estrategias puras, no podemos decir con certeza cu´ al de estos se elegir´ a. Los jugadores podr´ıan coordinar su elecci´ o n en la u ´ ltima etapa de acuerdo con las elecciones de la primera etapa. Por ejemplo, podr´ıan decidir coordinarse en (C 1 , C 2 ) si en la primera etapa eligen (A1 , A2 ), que no constituye un equilibrio de Nash del juego de estado y en cualquier otro caso coordinarse en (B 1 , B2 ). Desde luego, esta regla es completamente ad hoc y podr´ıa especificarse cualquier otra. Sin embargo, analicemos qu´ e pasar´ıa en tal caso. En principio, los pagos del juego de 2 etapas podr´ıan presentarse como aparece en la figura 65. Figura 65: Pagos en las dos etapas A2
B2
C 2
A1 10,10
3,9
2,2
B1
9,3
4,4
2,2
C 1
2,2
2,2
6,6
Aqu´ı, por ejemplo, los pagos de la combinaci´ on de estrategias (A 1 , A2 ) corresponden a lo que obtendr´ıan los jugadores por elegir (A1 , A2 ) en la etapa 1, y elegir (C 1 , C 2 ) en la etapa 2. De forma similar, los pagos de la combinaci´ on (B 1 , B2 ) corresponden a la elecci´ on de (B1 , B2 ) en la primera etapa y (B1 , B2 ) en la segunda etapa. Observemos que en este nuevo juego aparecen tres equilibrios de Nash en estrategias puras; los mismos dos del juego de estado y un tercer equilibrio (A 1 , A2 ) en el que se elige la
132
Un Curso de Teor´ıa de Juegos Cl´ asica
acci´ on cooperativa por parte de ambos jugadores en la primera etapa. As´ı hemos especificado una regla que permite la cooperaci´ on en juegos repetidos finitos, antes de la u ´ltima etapa.
D.
Una Nota sobre Cierta Evidencia Experimental
El dilema del prisionero Es frecuente en la literatura sobre juegos repetidos que la tasa de descuento se asocie a la probabilidad subjetiva p que cada individuo asigna a que el juego termine llegada una etapa dada. De esta forma, se ha interpretado el factor de descuento como δ = 1 − p. As´ı, como una extensi´on de los teoremas populares, se alcanzar´ a la cooperaci´ on siempre que la probabilidad de que el juego termine sea suficientemente baja (δ cercano a 1). Para verificar esta hip´otesis, Roth y Murnighan [1978] dise˜ naron un dilema del prisionero en el que se alcanzaba la cooperaci´ on en el juego repetido siempre y cuando la probabilidad de que el juego continuara fuera mayor o igual a 1/3. Cada individuo participaba en tres juegos, con probabilidades de continuaci´ on de 0.1, 0.5 y 0.9 respectivamente. Se encontr´ o que, aunque un significativo mayor n´umero de elecciones cooperativas fueron realizadas en los dos escenarios con altas probabilidades de continuaci´ on que en el primer escenario, el porcentaje de las elecciones cooperativas no super´ o el 40 % ni siquiera en el u´ltimo de los escenarios. Rubinstein [1999], por su parte, dise˜ n´o un juego repetido finitamente en el que cada jugador deb´ıa participar en el dilema del prisionero durante 4 etapas. Cada participante deb´ıa elegir “cooperar” o “no cooperar” dependiendo de las dos elecciones previas de su oponente. Alrededor del 40 % de las elecciones de la primera etapa fueron “cooperar”. De igual forma, cerca del 40 % de las estrategias consist´ıan en jugar siempre “no cooperar”, 5 % consist´ıan en “cooperar” siempre, y cerca del 10 % eligieron “tit por tat”.
Batalla de los sexos En la serie de juegos dise˜ nados por Rubinstein [1999] de la Batalla de los Sexos repetido finitamente el porcentaje de individuos que eligi´o su acci´on menos favorable en la primera etapa oscil´ o entre el 10 y el 28 %. De las estrategias seguidas por los participantes, las m´ as destacadas, con su porcentaje de poblaci´ on que las elige, son las siguientes: a. Escoger en la primera etapa la acci´ o n m´ as favorable y continuar jugando la mejor-respuesta frente a la acci´ on pasada del oponente (25 %). b. Escoger la acci´ on m´ as favorable a menos que, en el pasado, el oponente haya jugado su acci´ on m´ as favorable en una mayor´ıa estricta de per´ıodos (10 %).
Juegos No-Cooperativos con Informaci´on Sim´ etrica
E.
133
Aut´ omatas
De acuerdo con lo que hemos estudiado, en un juego repetido cada jugador se preocupa por elegir la estrategia que le reporta los mayores pagos, utilizando el criterio de valoraci´ on seleccionado y sin enfrentar ninguna restricci´on para hacerlo. Podemos decir que los agentes que hemos modelado son substantivamente racionales , en el sentido de que su comportamiento es apropiado para alcanzar los objetivos propuestos dentro de los l´ımites establecidos por las condiciones y restricciones dadas. Es claro, entonces, que no nos hemos preocupado por modelar aspectos procedimentales de la toma de decisiones de los individuos. No obstante, esto no deja de ser un problema importante: para que un jugador pueda elegir la estrategia que le genera los pagos m´ as altos, debe ser capaz de conocer las otras estrategias disponibles. Neyman [1994] ilustra las complicaciones presentes en el trasfondo de esta cuesti´ on: S´olo para escribir en forma decimal el n´ umero de estrategias puras disponibles a cada jugador en el dilema del prisionero repetido 100 veces, se requerir´ıan m´as d´ıgitos que el n´ umero de letras en todos los libros del mundo. Respecto a esta falencia de la teor´ıa existente hasta hace algunos a˜ nos, el mismo Simon [1976] se˜ nalaba . . . una urgente necesidad de extender el cuerpo establecido del an´ alisis econ´ omico, que ha estado ampliamente relacionado con la racionalidad substantiva, para abarcar los aspectos procedimentales de la toma de decisiones. En 1986, Ariel Rubinstein explica el limitado impacto del trabajo de Simon en la teor´ıa econ´omica a causa de la dificultad presente en la incorporaci´ on de tales aspectos procedimentales en modelos formales y la inexistencia de una teor´ıa natural unica ´ que los describiera (Rubinstein [1986]). La “teor´ıa de aut´ omatas” surge como una posibilidad frente a estas limitaciones, y consiste en la construcci´ on de modelos artificiales que capturan algunos elementos de lo que se ha dado en llamar “racionalidad acotada”. El t´ermino “aut´ omata” tiene la connotaci´ on de que cada jugador elige una m´ aquina preprogramada para seguir cierta regla de comportamiento, donde la operaci´ on de tales m´ aquinas tiene un costo que el jugador est´ a interesado en minimizar. As´ı, se da un primer paso en la incorporaci´ on de ciertos elementos procedimentales en la toma de decisiones. Los juegos repetidos son un terreno donde la teor´ıa de aut´ omatas encuentra una interesante aplicaci´ on. Al igual que antes, se asume que cada jugador est´ a interesado en alcanzar el mayor pago promedio, pero, para lograrlo elige una m´ aquina que juega por ´el; es decir, una m´ aquina que elige una acci´ on en cada per´ıodo dependiendo de la historia del juego hasta ese momento. Una m´ aquina consta de un conjunto finito de estados (uno de los cuales corresponde a su estado inicial ), una
134
Un Curso de Teor´ıa de Juegos Cl´ asica
funci´ on de resultados y una funci´ on de transici´ on . La funci´on de resultados determina, para cada estado, la acci´ on de la siguiente etapa, mientras que la funci´ on de transici´ on asigna, para cada resultado, el estado de la m´ aquina en el per´ıodo siguiente. As´ı, por ejemplo, para la m´ aquina encargada de jugar la estrategia del gatillo en el dilema del prisionero, el conjunto de estados podr´ıa resumirse en “cooperaci´on” y “no-cooperaci´ on”, refiri´endose este u´ltimo a las tres combinaciones de estrategias donde al menos uno de los jugadores decide no-cooperar. Para el estado on de resultados asigna la acci´ “cooperaci´on”, la funci´ on “cooperar”, mientras que para el estado “no-cooperaci´ on”, asigna la acci´ on “no-cooperar”. Por su parte, para on de transici´ on asigna el la combinaci´ on de estrategias (cooperar, cooperar), la funci´ estado “cooperaci´ on”, mientras que para cualquier otra combinaci´ on de estrategias, asigna el estado “no-cooperaci´ on”. Como dijimos, y a diferencia de lo presentado en los juegos repetidos, los jugadores no s´olo tienen en cuenta los pagos que obtienen en el juego, sino tambi´ en la complejidad de la m´ aquina que utilizan. Si bien se han desarrollado diferentes y sofisticadas medidas de complejidad, se asume, en principio, que la complejidad de una m´aquina se determina por su n´ umero de estados; as´ı, en el ejemplo mencionado anteriormente, decimos que la m´ aquina tiene una complejidad igual a 2. Desde luego, cualquier an´ alisis ser´ a sensible a la medida de la complejidad que se utilice; sin embargo, como la complejidad refleja las dificultades que enfrenta el jugador para llevar a cabo su estrategia, tal sensibilidad es deseable ya que, en diferentes circunstancias, diferentes medidas pueden ser apropiadas. Adem´as, como hab´ıamos dicho, cada jugador persigue el pago m´ as alto pero est´ a interesado en minimizar la complejidad de la m´ aquina que utiliza para tal fin; es decir, prefiere utilizar m´ aquinas con un reducido n´ umero de estados . Un ejemplo de lo anterior es que en el dilema del prisionero hay una m´ aquina que genera los mismos pagos que la que juega la estrategia del gatillo, pero tiene una menor complejidad: aquella cuyo u´nico estado es “cooperaci´ on”. Notemos que el estado “nocooperaci´on” solo se utiliza para disuadir la acci´ on no-cooperativa del oponente; sin embargo, tal estado no se alcanza en equilibrio. As´ı, un jugador preferir´ a esta u ´ltima m´ aquina que aquella con dos estados, ya que con cualquiera de esta consigue los mismos pagos. Una soluci´ on para este tipo de juegos repetidos donde cada jugador debe escoger una m´ aquina, conocida como equilibrio semiperfecto , es un par de m´ aquinas, una para cada jugador, que, en cada etapa del juego, satisface lo siguiente: i. Ning´ un jugador puede alcanzar un pago m´ as alto cambiando unilateralmente su m´ aquina. ii. Ning´ un jugador puede reducir el n´ umero de estados utilizado. Algunos resultados que ten´ıamos en los juegos repetidos convencionales (sin l´ımites sobre la complejidad) se modifican si incluimos aspectos procedimentales en la toma
135
Juegos No-Cooperativos con Informaci´on Sim´ etrica
de decisiones, como lo es la inclusi´ on de m´ aquinas de juego. Algunos de estos resultados son: a. Hab´ıamos visto que en un dilema del prisionero repetido infinitamente, cualquier vector de pagos resultante de la combinaci´on convexa de los pagos de las combinaciones posibles de estrategias puras por encima del valor minmax, podr´ıa ser alcanzado como un equilibrio de Nash perfecto en subjuegos. Al considerar aut´ omatas con complejidad limitada, solo es posible alcanzar los pagos correspondientes al equilibrio de Nash del juego de una sola etapa, y a la combinaci´ on convexa de los pagos en las combinaciones de estrategias donde uno de los jugadores coopera y el otro no, por encima del valor minmax del juego (ver figura 66). Figura 66: Dilema del prisionero jugado por aut´ omatas (-5,-0)
u1 (-1,-1) Pagos alcanzables como ENPS
(-4,-4) Pagos alcanzables en equilibrios Semi-Perfectos
(0,-5)
u2 b. Se justifica la cooperaci´ on en el dilema del prisionero repetido finitamente, as´ı como en otros juegos, sin desviarnos de la hip´ otesis de maximizaci´ o n de la utilidad pero bajo el supuesto adicional de l´ımites (posiblemente grandes) sobre la complejidad de las estrategias que cada jugador puede utilizar.
F.
Breve Comentario Final
Los equilibrios no cooperativos que hemos estudiado se han utilizado para explicar la confianza y la cooperaci´ on en escenarios pol´ıticos, econ´ omicos, biol´ ogicos y militares, entre otros. En las aplicaciones de estos modelos, los analistas generalmente observan que existe un equilibrio del juego repetido con las propiedades deseadas, y suponen que el comportamiento observado corresponder´ a a ese equilibrio. Esta aproximaci´ on (aunque fruct´ıfera en ocasiones) da origen a un problema a nivel te´ orico, ya que estos juegos pueden tener muchos otros equilibrios. As´ı, aunque los juegos repetidos explican c´ omo la cooperaci´ on, confianza o compromiso p odr´ıan surgir, no predicen que tales circunstancias necesariamente ocurrir´ an. La pregunta natural resulta ser: ¿cu´al es la base para la idea generalizada de que ciertos equilibrios de un juego
136
Un Curso de Teor´ıa de Juegos Cl´ asica
repetido sean particularmente razonables? Una explicaci´ on se puede encontrar en el hecho de que los efectos de reputaci´on modelan la idea de que los jugadores, en un juego repetido, pueden tratar de desarrollar reputaci´on sobre su forma de jugar. La intuici´ on aqu´ı (Kreps y Wilson [1982], Milgrom y Roberts [1982]) es que si un jugador elige siempre jugar de la misma forma, sus oponentes esperar´ an que ´el juegue siempre en la misma forma, y ajustar´ an sus propias estrategias a esto. Con la aproximaci´ on de los efectos de la reputaci´on, la cuesti´ on de por qu´e ciertos equilibrios parecen particularmente posibles es entonces si a alguno de los jugadores (o a todos) les convendr´a desarrollar las reputaciones asociadas con equilibrios particulares. En general, el conjunto de equilibrios de reputaci´ on depender´a de las creencias de los jugadores acerca de sus oponentes. As´ı, ¿qu´ e implicaciones sobre las distribuciones a priori tendr´ an los efectos de reputaci´ on? Los efectos de reputaci´ on por s´ı mismos (sin fuertes restricciones sobre los a priori) no ayudan a explicar por qu´e la confianza y la cooperaci´ on podr´ıan emerger en juegos de largo plazo con varios jugadores. Algunos autores, por su parte, han tratado de explicar la emergencia de confianza y cooperaci´ on utilizando el concepto de “estrategia evolutivamente estable”.
Ejercicios 10. 1. Suponga que las interacciones al interior de una tribu ind´ıgena (Maya) pueden ser descritas como una situaci´ o n tipo juego del gallina (con pagos de 4 si en cada interacci´ on en parejas cada jugador coopera, 1 para el que coopera cuando el otro no lo hace, 6 para este u ´ ltimo, y -3 en caso de que ninguno coopere). Por otro lado, en otra tribu ind´ıgena (Tayrona), las interacciones pueden ser descritas como una situaci´ on tipo dilema del prisionero (con pagos de 4 si ambos cooperan, 1 si no cooperan, 5 para el que no coopera cuando el otro lo hace, y 0 para este u´ltimo). Como las interacciones se dan varias veces cada d´ıa y no hay un u´ltimo per´ıodo claramente especificado, ambos casos pueden estudiarse como juegos repetidos infinitamente. Si en la tribu Maya cada miembro sigue una estrategia del gatillo, mientras que cada miembro de la tribu Tayrona sigue una estrategia “garrote y zanahoria”, ¿en qu´e tribu aparece m´ a s f´ acil la cooperaci´ on como un equilibrio de Nash perfecto en subjuegos? Asuma que se utiliza el criterio de pagos descontados. 2. Considere los juegos de halc´ on y paloma y del gallina bajo los dos criterios de valoraci´ on de pagos, con estrategias del gatillo donde, en caso de defecci´ on por parte de al menos uno de los jugadores, estos pasan indefinidamente al equilibrio de Nash mixto. Determine si esta estrategia constituye un equilibrio de Nash perfecto en subjuegos. 3. Considere una situaci´ on en la que dos jugadores enfrentan el siguiente juego dos veces, sabiendo esto de antemano. Establezca una regla para determinar la elecci´ on de la segunda etapa que permita elegir (B 1 , B2 ) en la primera etapa.
137
Juegos No-Cooperativos con Informaci´on Sim´ etrica
Recurra a la coordinaci´ on en cada uno de los cuatro equilibrios de Nash en estrategias puras del juego de estado en la construcci´on de esta regla. A2
B2
C 2
D2
E 2
A1 2,2
6,1
0,0
0,0
0,0
B1 1,6
5,5
0,0
0,0
0,0
C 1 0,0
0,0
4,4
0,0
0,0
D1 0,1
0,0
0,0
5,1
0,0
E 1 0,0
0,0
0,0
0,0
1,5
4. Un juego en forma estrat´ egica est´ a dado por la siguiente bimatriz: A
B
C
D
X 5,9
5,7
-3,0
20,5
Y
3,10
2,20
4,5
15,17
Z -4,1
10,3
2,2
0,-5
W 0,1
8,-2
6,4
10,0
a. ¿Cu´ ales son los equilibrios de Nash en estrategias puras de este juego? b. Basado en estrategias puras, ¿si el juego se repite T veces, existe un equilibrio perfecto en subjuegos del juego finitamente repetido? ¿Puede dicha estrategia tener la estrategia pura (Y, D) con pagos realizados de (15, 17) para parte del juego? c. Basado en una estrategia del gatillo en el juego repetido infinitamente, ¿cu´ a l es el n´ umero m´ınimo de periodos durante los cuales no se puede escoger la estrategia pura (Y, D)? d. ¿Cu´ ales son las cotas inferiores para el factor de descuento en la parte c tal que la combinaci´ on de estrategias del gatillo que se haya seleccionado sea un equilibrio de Nash? 5. Corrobore los dos teoremas populares en cada uno de los siguientes juegos: lanzar la moneda, batalla de los sexos, dilema del prisionero y el gallina.