¿La estrategia OTG para heads-up limit Hold'em ofrece una recompensa positiva contra un oponente no óptimo?

Considere el juego de Rock-Paper-Scissors (1v1), +1 cuando ganamos, -1 cuando perdemos. Una estrategia OTG es seleccionar cada signo uniformemente al azar. Desafortunadamente, esta estrategia le dará una recompensa esperada de 0, incluso si el oponente juega terriblemente (por ejemplo, muestra papel todo el tiempo).

En el caso de heads-up limit Hold'em, ¿la estrategia OTG (el bot Cepheus utiliza una aproximación casi perfecta) dará una recompensa positiva si un oponente no juega de manera óptima?

Si no es así, he perdido mucho tiempo...

Respuestas (1)

Will the OTG strategy give a positive reward if an opponent plays non-optimally?

Estoy 99.99999999% seguro de que la respuesta es sí. No tengo una prueba matemática, pero aquí hay dos argumentos intuitivos:

  1. Juega muchas manos contra el bot Cepheus. Perderá dinero a largo plazo sin importar la estrategia que elija.

  2. Para el siguiente juego de póquer de juguete, probaré que la estrategia OTG ofrece una recompensa positiva contra un oponente no óptimo. Basándose en este ejemplo, puede adivinar que la estrategia OTG para el Hold'em con límite también ofrece una recompensa positiva contra un oponente no óptimo:

Ejemplo de juguete :

Each of the two players independently uniformly at random get either a J or a Q. 
They always pay 1 chip ante to play the game. 

The first player can either bet 1 chip or call for an immediate showdown. If the 
first player bets, the second player can either fold or call for a showdown.

Varios ejemplos de juegos de manos (p1 = jugador 1, p2 = jugador 2):

p1 hand | p2 hand | p1 action | p2 action | reward for p1
Q       | J       | raise     | call      | +2 chips (1 ante + 1 bet)
J       | J       | raise     | fold      | +1 chip
J       | Q       | raise     | call      | -2 chips
J       | J       | raise     | call      |  0 chips (pot split)

La estrategia del jugador 1 se puede resumir en estas variables:

q - the probability to raise having a queen.
j - the probability to raise having a jack.
(just subtract these values from 1 to get probabilities of other actions).

La estrategia del jugador 2 se puede resumir usando una sola variable f que denota la probabilidad de retirarse cuando tiene una jota (si tiene una reina, nunca hay razón para retirarse).

Si hace los cálculos, llegará a la siguiente ecuación de recompensa esperada para el jugador 1:

(q - j)(1 - f)

¿Qué nos dice esta ecuación sobre el juego OTG? Tenga en cuenta que si q=1, j=0, la recompensa esperada para el primer jugador siempre se maximiza. Si establece f=1para el segundo jugador, su recompensa esperada siempre es 0, por lo que nunca puede ser explotado.

Por lo tanto, el par de estrategias de equilibrio de Nash (es decir, la estrategia OTG) para los jugadores 1 y 2 es

([q, j], [f]) = ([1, 0], 1), giving the expected reward of 0 for both players.

Pero, ¿qué sucede si un jugador 2 no juega de manera óptima y no se retira Jtodo el tiempo? Entonces, la recompensa esperada para el jugador 1 es estrictamente positiva y, por lo tanto, la estrategia OTG del jugador 1 también explota la debilidad del jugador 2.