Noticias

lunes, 3 de enero de 2022

TIT FOR TAT, la estrategia "más viable" en la teoría de juegos y el dilema del prisionero

 ¿Como se comportaron la última vez?



El toma y daca -Tal por cual- (de toma y dame acá, o tit for tat en su expresión original en inglés) es una estrategia óptima en teoría de juegos para el dilema del prisionero.


La expresión inglesa tit for tat significa "represalia equivalente" (toma y daca, tanto "tit" como "tat" son golpes suaves, por lo que vendría a decir "golpea suavemente al que te ha golpeado suavemente").


En ella, un agente que use esta estrategia responderá consecuentemente a la acción previa del oponente. Si el oponente ha cooperado previamente, el agente cooperará. Si el oponente deserta, el agente se vengará de él.


Esta estrategia depende de cuatro condiciones:


  1. El agente siempre colabora, a menos que sea provocado con una deserción
  2. El agente se vengará ante cualquier deserción
  3. El agente perdona fácilmente una vez que se ha vengado
  4. El agente debe tener una probabilidad mayor de 2/3 de jugar de nuevo contra el mismo oponente

Además de memoria infinita para recordar la deserción y la cooperación

"Toma y daca" y el dilema del prisionero

Robert Axelrod organizó un concurso para encontrar una estrategia válida para el dilema del prisionero iterado. Se jugaría un torneo con 200 rondas por partida, y el programa con mayor puntuación sería el ganador.


Entre los 14 participantes, Anatol Rapoport presentó un programa que consistía en 4 líneas en BASIC, y al que llamó Toma y daca. Sólo tenía dos reglas:


  1. Comenzar colaborando
  2. Hacer lo que tu oponente hizo la ronda anterior

Era la más sencilla de todas las estrategias presentadas, y fue la que obtuvo la puntuación más alta.

Después de la publicación de los resultados, se organizó un segundo torneo, en el que el número de rondas a jugar por partida sería aleatorio (para no crear una ronda especial, la final, en la que se favorece la deserción). A esta competición se presentaron 62 participantes, entre ellos el mismo Toma y daca. De nuevo, obtuvo la mayor puntuación.


Comentario

Robert Axelrod relacionó el éxito de esta estrategia en el dilema del prisionero con sus características de "amabilidad", "provocabilidad" y "capacidad de perdón". Una estrategia "amable" es aquella en la que nunca se es el primero en desertar. Una estrategia "provocable" es aquella en la que se responde inmediatamente a la deserción de un oponente. Una estrategia con "capacidad de perdón" vuelve rápidamente a la cooperación si su oponente lo hace. Estas son las primeras heurísticas de axelrod


Estas características hacen que el funcionamiento de esta estrategia sea fácil de comprender por el oponente, y se pueda así encontrar una forma de trabajar.

Axelrod se pregunto "¿Es la mejor estrategia?", por medio de la isla de animales "algoritmos genéticos" descubrió que no es la mejor

Variantes

Toma por cada dos dacas (Tit for two tats)

Es similar al Toma y daca, pero solo se venga si el oponente ha desertado las dos veces anteriores. Esta generosidad hace que esté en desventaja frente a Toma y daca, ya que se puede ganar si sólo se deserta contra él en turnos alternos.


Toma y daca desconfiado

Similar a Toma y daca, pero el primer turno deserta.


Sonda ingenua

Comienza cooperando y siempre venga una deserción, pero de vez en cuando deserta espontáneamente (por lo tanto, no es tan altruista como Toma y daca). Está en desventaja con otras estrategias recíprocas como Toma y daca misma, porque puede iniciar una cadena de recriminaciones.


Sonda con remordimientos

Similar a sonda ingenua, pero nunca se venga de la venganza de una de sus deserciones. Así, elimina las recriminaciones mutuas.


Explorador o tanteadora

Empieza traicionando en la 1º jugada; si el otro jugador coopera en la 1º jugada, entonces coopera en la 2º y 3º jugada y a partir de ahí traiciona y coopera de manera alternativa; si el otro jugador traiciona en la 1º jugada, entonces coopera en la 2º jugada y a partir de ahí juega toma y daca,


Vengativo

Comienza colaborando, pero una vez que su oponente deserta, deserta siempre. (Similar a "unforgiven")


Más info

https://es.coursera.org/lecture/mind-machine-perspectives/game-theory-axelrods-tournament-9DOW8

No hay comentarios:

Publicar un comentario