En los juegos reales, parece que un bot heads-up de NLH ahora está en el punto (o cerca) de poder vencer a los mejores jugadores humanos. Ver https://www.cs.cmu.edu/news/cmu-ai-tough-poker-player
Para el límite cara a cara, el equilibrio de Nash es casi conocido. Ver: https://arstechnica.com/science/2015/01/computers-used-to-solve-two-person-limit-texas-holdem/
Lógicamente, si cada situación, definida por tener exactamente las mismas cartas en la mesa y exactamente la misma acción anterior, tiene solo un tamaño de apuesta, NLH no es más grande que limit holdem. Por ejemplo, si hay una apuesta y una igualación antes del flop y el flop es 842 de corazones, la apuesta de continuación (suponiendo que haya una) siempre podría ser 3/4 del bote. Supongo que no mezclar los tamaños de las apuestas significaría que los tamaños de las apuestas son independientes de las cartas ocultas, pero podría estar equivocado.
Además, si no hay mezcla entre diferentes acciones, no apuesta 80% / pasa 20%, sino siempre 100% una u otra, el juego se vuelve significativamente más pequeño.
Por supuesto, una estrategia sin mezcla es significativamente peor que el verdadero equilibrio de Nash, pero aun así sería interesante verla. ¿Se conoce tal estrategia? ¿Hay algún software disponible públicamente que calcule dicha estrategia?
La solución es realmente conocida. Puedo resolverlo en 2 o 3 días usando un servidor que alquilo exactamente para ese propósito (estudiar poker) y algún software especializado.
A la respuesta de Ying Li:
No entiendes el Equilibrio de Nash en el póquer. Si jugaste una estrategia GTO perfecta, esencialmente serías imbatible. No hay forma de que su estrategia sea superada por jugadores borrachos o incluso por los mejores jugadores. Literalmente, por definición, la contraestrategia óptima frente a un jugador que juega una estrategia GTO perfecta es también jugar una estrategia GTO perfecta.
Tus estrategias óptimas de teoría de juegos confusas con estrategias de máxima explotación. Una estrategia de explotación máxima generará más $$ frente a un idiota borracho, pero tu estrategia de explotación máxima estará abierta a ser explotada también. Entonces, si el jugador se ajusta o tus suposiciones sobre sus filtraciones son incorrectas, te expones a ser explotado.
Mientras juega una estrategia GTO, la gente de Guarantee no podrá obtener una ventaja contra usted y le permitirá beneficiarse de todos sus errores sin preocuparse realmente por cómo juegan. B/c su estrategia es perfecta, el peor de los casos es enfrentarse a otro jugador de GTO, en cuyo caso ambos alcanzarán el punto de equilibrio entre sí. Si te enfrentas a un jugador que juega peor que GTO, obtendrás ganancias (sin contar el rake).
Ejemplo extremo:
Imagina un jugador que solo juega AA cara a cara y tira todo lo demás.
Max Exploit: Roba el 100%, retira todo lo que no sea AA cuando el jugador entra en la mano. Vas a ganar mucho dinero si el oponente no se ajusta, pero tu estrategia puede ser explotada muy fácilmente. Si el jugador decide subir 72o, se retirará con KK.
GTO Strat: Juega una estrategia que no puede ser explotada. Eso significa que no te retirarás KK o QQ o AK antes del flop. Estás dejando mucho dinero en la mesa pero al no explotar a este jugador (TODAVÍA ESTÁS GANANDO MUCHO DINERO SOLO QUE NO LA CANTIDAD MÁXIMA VS SU TERRIBLE ESTRAT) pero al mismo tiempo si cambia su estrategia lo mejor que podrá hacer es b/e contra ti.
Probablemente soy una de las pocas personas con experiencia significativa en los tres campos (matemáticas, aprendizaje automático (e IA), póquer).
Para responder se sabe, la respuesta probablemente aún no. Hay dos enfoques para vencer un juego de información imperfecta con IA. El primero realmente no tiene nada que ver con el equilibrio de Nash. El primero es básicamente, en cierto modo, un método de fuerza bruta. Con datos de entrenamiento significativos, la computadora puede aprender qué funciona sin tener realmente la lógica para entender por qué funciona. Puede entrenar en juegos anteriores durante 5 millones de manos y darse cuenta de que "santa vaca, si subo con AA preflop, parece que gano más". Esto es aprendizaje automático y es contrario a la intuición de lo que las personas generalmente considerarían IA (si en realidad no trabajan con IA).
El segundo método para ganar un juego de póquer REALMENTE no funciona, estaría basado en el Equilibrio de Nash. La mayoría de las teorías de juegos asumen que jugadores perfectamente inteligentes toman decisiones óptimas, el póquer no es eso. La mayoría de los juegos de póquer implican leer una mesa y ganarle al campo (no jugadores individuales). Por lo tanto, si comienza a jugar en la mesa de juego de efectivo de $1/$2 con una mesa llena de invitados borrachos a la despedida de soltero, no emplea ninguna estrategia optimizada de teoría de juegos para la toma de decisiones. El equilibrio de Nash, por definición, requiere actores perfectos y, en el póquer, los jugadores son imperfectos. Esto es aún más cierto cuando le dices a la IA que tome decisiones deterministas en lugar de una "estrategia de combinación". De hecho, una IA "optimizada" que no está aprendiendo y cambiando de estrategia será más fácil de vencer que un humano debido al hecho de que NO varía su estrategia.
Entonces, independientemente de cómo la IA obtenga su estrategia base (a través de la lógica dada por un programador o mediante el aprendizaje automático), debe hacer que se adapte. Lo que significa una reevaluación de la estrategia y una nueva puntuación de las decisiones. Sería posible hacer una IA lo suficientemente inteligente como para comenzar con una buena estrategia básica y adaptarse lo suficiente para ganar, pero, sinceramente, nunca se considerará "ganar" al póquer simplemente porque... La misma estrategia que funciona en Tom Dwan será no funciona con tu tío borracho, es posible que juegue EXACTAMENTE igual las primeras manos, pero la IA no podría predecir sus cambios de estrategia porque simplemente no conoce al jugador. No puede vencer al 100% a un juego como el póquer, pero puede vencer al 100% al ajedrez (debido a la información perfecta).
También se debe tener en cuenta que el equilibrio de Nash ni siquiera estará CERCA de la estrategia de póquer más rentable. Son solo conceptos no relacionados. Eso es porque el póquer es un juego de estafa humana más que un juego de estrategia pura. Es una pregunta fascinante e ilustra la naturaleza humana del juego que en realidad no se puede articular solo en las reglas. Por ejemplo, en el póquer de la vida real, podrías decidir darle una propina a la persona de la sala para que te llame cuando un tonto llegue a la ciudad. Esta es una estrategia de póquer de la vida real que el equilibrio de Nash puro no considerará. Puedes decir todo lo que quieras, eso no es parte del juego, ¡pero así es como llevo la cuenta! Muy pronto, los robots de tamaño humano se moverán por el mundo. Te garantizo que cuando eso suceda, el Bellagio les prohibirá la entrada a la sala de póquer [excepto tal vez para servir bebidas].
Bromista alegre