¿Se conoce la estrategia de equilibrio de Nash sin mezcla de NLH mano a mano?

En los juegos reales, parece que un bot heads-up de NLH ahora está en el punto (o cerca) de poder vencer a los mejores jugadores humanos. Ver https://www.cs.cmu.edu/news/cmu-ai-tough-poker-player

Para el límite cara a cara, el equilibrio de Nash es casi conocido. Ver: https://arstechnica.com/science/2015/01/computers-used-to-solve-two-person-limit-texas-holdem/

Lógicamente, si cada situación, definida por tener exactamente las mismas cartas en la mesa y exactamente la misma acción anterior, tiene solo un tamaño de apuesta, NLH no es más grande que limit holdem. Por ejemplo, si hay una apuesta y una igualación antes del flop y el flop es 842 de corazones, la apuesta de continuación (suponiendo que haya una) siempre podría ser 3/4 del bote. Supongo que no mezclar los tamaños de las apuestas significaría que los tamaños de las apuestas son independientes de las cartas ocultas, pero podría estar equivocado.

Además, si no hay mezcla entre diferentes acciones, no apuesta 80% / pasa 20%, sino siempre 100% una u otra, el juego se vuelve significativamente más pequeño.

Por supuesto, una estrategia sin mezcla es significativamente peor que el verdadero equilibrio de Nash, pero aun así sería interesante verla. ¿Se conoce tal estrategia? ¿Hay algún software disponible públicamente que calcule dicha estrategia?

Estoy preguntando sobre la estrategia de equilibrio de Nash perfecta para cara a cara NLHE, con la restricción de que no hay mezcla, nada probabilístico; con un rango dado de cartas ocultas, el jugador siempre hará lo mismo en una situación dada.

Respuestas (3)

La solución es realmente conocida. Puedo resolverlo en 2 o 3 días usando un servidor que alquilo exactamente para ese propósito (estudiar poker) y algún software especializado.

A la respuesta de Ying Li:

No entiendes el Equilibrio de Nash en el póquer. Si jugaste una estrategia GTO perfecta, esencialmente serías imbatible. No hay forma de que su estrategia sea superada por jugadores borrachos o incluso por los mejores jugadores. Literalmente, por definición, la contraestrategia óptima frente a un jugador que juega una estrategia GTO perfecta es también jugar una estrategia GTO perfecta.

Tus estrategias óptimas de teoría de juegos confusas con estrategias de máxima explotación. Una estrategia de explotación máxima generará más $$ frente a un idiota borracho, pero tu estrategia de explotación máxima estará abierta a ser explotada también. Entonces, si el jugador se ajusta o tus suposiciones sobre sus filtraciones son incorrectas, te expones a ser explotado.

Mientras juega una estrategia GTO, la gente de Guarantee no podrá obtener una ventaja contra usted y le permitirá beneficiarse de todos sus errores sin preocuparse realmente por cómo juegan. B/c su estrategia es perfecta, el peor de los casos es enfrentarse a otro jugador de GTO, en cuyo caso ambos alcanzarán el punto de equilibrio entre sí. Si te enfrentas a un jugador que juega peor que GTO, obtendrás ganancias (sin contar el rake).

Ejemplo extremo:

Imagina un jugador que solo juega AA cara a cara y tira todo lo demás.

Max Exploit: Roba el 100%, retira todo lo que no sea AA cuando el jugador entra en la mano. Vas a ganar mucho dinero si el oponente no se ajusta, pero tu estrategia puede ser explotada muy fácilmente. Si el jugador decide subir 72o, se retirará con KK.

GTO Strat: Juega una estrategia que no puede ser explotada. Eso significa que no te retirarás KK o QQ o AK antes del flop. Estás dejando mucho dinero en la mesa pero al no explotar a este jugador (TODAVÍA ESTÁS GANANDO MUCHO DINERO SOLO QUE NO LA CANTIDAD MÁXIMA VS SU TERRIBLE ESTRAT) pero al mismo tiempo si cambia su estrategia lo mejor que podrá hacer es b/e contra ti.

El problema aquí es que la estrategia GTO perfecta no puede existir en el póquer. No es lo mismo que otro juego que se puede vencer. No existe una estrategia de equilibrio de Nash para el póquer simplemente porque ganar el juego depende del oponente (no del nivel de habilidad). La razón es que la mayoría de las decisiones en el póquer son prácticamente binarias (excepto las que involucran el tamaño de la apuesta). Un jugador muy malo puede hacer los mismos movimientos que uno muy bueno en una calle y luego hacer cosas completamente diferentes en otra ronda; Del mismo modo, el mismo jugador puede realizar diferentes movimientos en función de su estado de ánimo/condición.
Demostraré por qué es "imposible". Imaginemos que la estrategia imbatible perfecta es capaz de calcular la reacción perfecta cuando tienes un set medio frente a una apuesta del tamaño del bote contra un flop con un proyecto de color. Imaginemos que la jugada perfecta es volver a subir. Este movimiento NUNCA será imbatible debido a la información imperfecta y los humanos con información imperfecta. Tu resubida puede tener sentido porque ganarás el máximo contra proyectos y pares superiores, pero no te diste cuenta de que Bob borracho solo apuesta el tamaño del bote en ese flop con el trío superior y nunca iguala una resubida.
@lessharm ¿Podría hacer esto y hacer que el resultado esté disponible en alguna parte? Sería interesante de ver.
Wow Ying Li... muy lejos. El tipo es como tú, habla con una confianza increíble, mientras que completamente equivocado es una de las razones por las que el póquer seguirá siendo bueno por un tiempo. Entonces, ¿supongo que gracias?
Gracias. Por supuesto, sería bueno tener una respuesta de origen en este sitio también.
La solución dependerá de los parámetros que desee utilizar. Tamaños preflop para aperturas, 3bets, 4bets, etc. Así como tamaños postflop. También me costará de 2 a 3 días de tiempo de servidor, ya que será una solución bastante masiva. (Usando un servidor central de 20 CPU con 256 gb de ram) El punto es que se puede hacer.
¿Hay alguna fuente que explique la estrategia OTG para el póquer HU? Qué manos igualar/subir/retirarse antes del flop, qué hacer después del flop. Si entiendo correctamente, podrías aprender esta estrategia OTG y luego jugarla contra cualquier oponente, independientemente de su estrategia. Entonces, ¿dónde puedo aprender tal estrategia?
Creé un sitio web que te permite buscar estrategias gto desde tu navegador con la base de datos más grande del mercado. Tener una solución de efectivo HU. No sé si es apropiado publicar aquí.

Probablemente soy una de las pocas personas con experiencia significativa en los tres campos (matemáticas, aprendizaje automático (e IA), póquer).

Para responder se sabe, la respuesta probablemente aún no. Hay dos enfoques para vencer un juego de información imperfecta con IA. El primero realmente no tiene nada que ver con el equilibrio de Nash. El primero es básicamente, en cierto modo, un método de fuerza bruta. Con datos de entrenamiento significativos, la computadora puede aprender qué funciona sin tener realmente la lógica para entender por qué funciona. Puede entrenar en juegos anteriores durante 5 millones de manos y darse cuenta de que "santa vaca, si subo con AA preflop, parece que gano más". Esto es aprendizaje automático y es contrario a la intuición de lo que las personas generalmente considerarían IA (si en realidad no trabajan con IA).

El segundo método para ganar un juego de póquer REALMENTE no funciona, estaría basado en el Equilibrio de Nash. La mayoría de las teorías de juegos asumen que jugadores perfectamente inteligentes toman decisiones óptimas, el póquer no es eso. La mayoría de los juegos de póquer implican leer una mesa y ganarle al campo (no jugadores individuales). Por lo tanto, si comienza a jugar en la mesa de juego de efectivo de $1/$2 con una mesa llena de invitados borrachos a la despedida de soltero, no emplea ninguna estrategia optimizada de teoría de juegos para la toma de decisiones. El equilibrio de Nash, por definición, requiere actores perfectos y, en el póquer, los jugadores son imperfectos. Esto es aún más cierto cuando le dices a la IA que tome decisiones deterministas en lugar de una "estrategia de combinación". De hecho, una IA "optimizada" que no está aprendiendo y cambiando de estrategia será más fácil de vencer que un humano debido al hecho de que NO varía su estrategia.

Entonces, independientemente de cómo la IA obtenga su estrategia base (a través de la lógica dada por un programador o mediante el aprendizaje automático), debe hacer que se adapte. Lo que significa una reevaluación de la estrategia y una nueva puntuación de las decisiones. Sería posible hacer una IA lo suficientemente inteligente como para comenzar con una buena estrategia básica y adaptarse lo suficiente para ganar, pero, sinceramente, nunca se considerará "ganar" al póquer simplemente porque... La misma estrategia que funciona en Tom Dwan será no funciona con tu tío borracho, es posible que juegue EXACTAMENTE igual las primeras manos, pero la IA no podría predecir sus cambios de estrategia porque simplemente no conoce al jugador. No puede vencer al 100% a un juego como el póquer, pero puede vencer al 100% al ajedrez (debido a la información perfecta).

También se debe tener en cuenta que el equilibrio de Nash ni siquiera estará CERCA de la estrategia de póquer más rentable. Son solo conceptos no relacionados. Eso es porque el póquer es un juego de estafa humana más que un juego de estrategia pura. Es una pregunta fascinante e ilustra la naturaleza humana del juego que en realidad no se puede articular solo en las reglas. Por ejemplo, en el póquer de la vida real, podrías decidir darle una propina a la persona de la sala para que te llame cuando un tonto llegue a la ciudad. Esta es una estrategia de póquer de la vida real que el equilibrio de Nash puro no considerará. Puedes decir todo lo que quieras, eso no es parte del juego, ¡pero así es como llevo la cuenta! Muy pronto, los robots de tamaño humano se moverán por el mundo. Te garantizo que cuando eso suceda, el Bellagio les prohibirá la entrada a la sala de póquer [excepto tal vez para servir bebidas].