Rangos de probabilidad óptimos para cifras clave específicas (por ejemplo, VPIP)

En mi tesis de licenciatura, estoy desarrollando un reproductor de computadora, tratando de modelar el comportamiento del oponente, mientras realizo un seguimiento de las siguientes características:

antes del flop:

  • Poner dinero voluntariamente en el bote (VPIP)
  • Aumento preflop (PFR)
  • 3 Frecuencia de apuesta
  • Igualar 3 Apuesta
  • Doblar 3 apuestas
  • 4 apuesta
  • Igualar 4 Apuestas
  • Doblar 4 apuestas

Flop, Turn y River:

  • Apuesta de continuación en posición
  • Apuesta de continuación fuera de posición
  • Resubir apuesta de continuación
  • Aumento de la apuesta de continuación
  • Llamada de apuesta de continuación
  • Apuesta de continuación
  • Donk Bet en posición
  • Donk Bet fuera de posición
  • Donk Bet Resubir
  • llamada de apuesta donk
  • Donk Bet Fold

Confrontación:

  • fue al enfrentamiento
  • Enfrentamiento ganado

Ahora me gustaría implementar un sistema experto, que requiere conocimiento experto de un buen jugador. Desafortunadamente, no soy tan bueno en Heads-up y no pude encontrar ningún recurso en Internet con respecto a estos números. Sé que si te retiras demasiadas veces (por ejemplo, te retiras demasiadas veces antes del flop) te vuelves explotable para el oponente. El bot de mi computadora intentará explotar a su oponente tanto como sea posible.

Nota: En mi juego, ambos jugadores tienen una pila de 50 ciegas grandes.

Preguntas:

  • ¿Qué valores de VPIP y PFR indican jugadores apretados-agresivos, apretados-pasivos, sueltos-agresivos, sueltos-pasivos? Responda en un rango de valores (por ejemplo, estricto-pasivo: VPIP: 0.0-0.2 PFR: 0.0-0.2 y VPIP = PFR)

  • ¿Qué pasa con las otras cifras clave? ¿Qué rango de valores se considera óptimo?

Realmente agradecería una gran respuesta para poder implementar el reproductor de mi computadora en función de sus valores. También estoy muy contento con un recurso externo que me indica los rangos de valores "óptimos".

EDITAR: Estoy buscando respuestas que intenten darme valores expertos aproximados. He estado estudiando este tema durante muchas horas y sé sobre el equilibrio de nash, la minimización del arrepentimiento contrafactual, etc. Todo lo que pido son estimaciones aproximadas de las que cualquier buen jugador de heads-up intentaría estar dentro de sus rangos. Por favor, no me den respuestas como "el texas hold'em no se resuelve" o "esto no es posible, porque...". Por favor dame VALORES. Espero haberme hecho entender. :-)

Una pequeña sugerencia, tal vez, visto que es con fines de investigación, ¿podría comprar una base de datos manual que podría usar para entrenar a su bot a partir de eso? Definitivamente podría extraer algunos valores clave de una base de datos manual mucho mejor. Puedo intentar crear una respuesta más tarde cuando esté libre si aún no ha sido respondida.
@ Grinch91 Ciertamente es una gran idea. Mi presupuesto de tiempo es limitado, ya que también estoy echando un vistazo a los algoritmos de autoaprendizaje como CFR (minimización de arrepentimiento contrafactual). Por lo tanto, preferiría establecer los valores expertos por ahora y tal vez refinarlos más adelante.
Creo que tendrá dificultades para encontrar un experto que esté dispuesto a brindarle los rangos de valores exactos que están funcionando en este momento, además de que cambian según el tipo de estilo de juego que sea popular, es decir, TAG es superado por LAG, etc. El libro Raiser's Edge tiene un buen diagrama de esto en su primer capítulo. Si bien el libro es antiguo en este punto, el gráfico en general aún se mantiene. El punto que estoy tratando de hacer es que es algo difícil simplemente establecer valores aquí, para hacerlo es necesario comprender los niveles que jugará su bot y el estilo de juego al que puede esperar enfrentarse la mayoría de las veces.
@ Grinch91 Me encantaría compartir mis estadísticas con cualquier otra persona. Tal vez simplemente compre el administrador de Holdem y juegue algunos juegos de mano a mano. :-)

Respuestas (4)

El póquer aún no es un juego resuelto. Aún no se ha encontrado una estrategia óptima. Tratar de implementar su conocimiento o el de otra persona en un programa de computadora solo dará como resultado una versión subóptima de usted/ellos. Si desea crear un bot que pueda, por ejemplo, vencer a todos los humanos en una muestra lo suficientemente larga, debe adoptar un enfoque diferente.

Ahora con respecto a los valores. Solo los valores no son suficiente información para una computadora. Muchos jugadores usan HUD y, por lo tanto, estos valores para ayudarlos a tomar decisiones. Los valores por sí solos no son suficientes para tomar las decisiones. Permítanme explicar por qué estos valores no brindan información completa y por qué es imposible que estos valores tengan un óptimo.

Digamos que su oponente obtiene 3:1 frente a su apuesta en el river. Así que hiciste una apuesta del tamaño de la mitad del bote. Si continúa con menos de 1/3 de sus manos, entonces eso sería explotable. Entonces, en ese caso, tu bot debería farolearlo más a menudo. Sin embargo, el bot no siempre disparará la mitad de la olla. Cuanto mayor sea la apuesta en el river, más a menudo tu oponente debería retirarse. Solo su porcentaje de fold en el river no es información suficiente para explotarlo. Del mismo modo, no existe un porcentaje de abandono óptimo en el river para tu bot.

Su bot necesita acceso en este caso: tanto a todos los tamaños de apuestas en el river que hizo como a los porcentajes de fold que se combinan con ellos, con una muestra enorme. Ahora, la parte más interesante es el tamaño óptimo de la apuesta en el río para tu bot. Si esto se sabe, ha descubierto este lugar. Desafortunadamente, el tamaño de esta apuesta depende de muchos factores, como la acción previa y la textura del tablero. Es muy complicado y prácticamente imposible de responder, ya que el póquer aún no se ha resuelto.

Lo mismo ocurre con todas las demás estadísticas. Si tu oponente sube 10BB antes del flop, deberías defender menos manos que si él subiera con 2BB. Y al revés, el bot puede abrir muchas menos manos si sube 10BB antes del flop en lugar de 2BB. Para acercarse a un PFR óptimo, o cualquier otro número, debe considerar muchos más factores.

En breve. No existe un valor óptimo para estos números sin contexto y definitivamente no debe usarlos sin él. Sé que esta respuesta realmente no ayudó, ya que solo te dije qué no hacer y qué hacer. Pero quería que mi respuesta estuviera dentro del alcance de esta pregunta.

Pequeña nota: no existe tal cosa como una apuesta donk en posición.

Gracias por tu respuesta. Ya estoy al tanto de lo que dices y no estoy tratando de crear el próximo bot de supercomputadora. Estoy tratando de evaluar diferentes algoritmos, mientras que uno de ellos se basa en el modelado del oponente. Desde que jugué un tiempo, sé que algunas cifras clave (como en los HUD) son consideradas buenas o malas por los profesionales. Mi objetivo es encontrar explotaciones en el juego del oponente. Si no hay explotaciones, jugaré en un equilibrio nash aproximado (que es básicamente una estrategia casi óptima).
Por cierto: una apuesta donk es simplemente si no fuiste el agresor en la fase anterior (mientras que una apuesta de continuación es si fuiste el agresor). por lo que una apuesta donk puede ser IP o OOP.
No puedes mirar una determinada estadística y decir que es buena o mala, especialmente cara a cara sin ningún contexto. Seguro que hay un óptimo si todo el mundo está jugando perfecto, pero nadie lo está. Por lo tanto, para jugar de manera óptima contra oponentes específicos, debe ajustar y alejarse del óptimo original.
Creo que más o menos puedes (es por eso que necesito un rango de valores). En la teoría de juegos existe una estrategia óptima (es decir, la estrategia de equilibrio de Nash) donde esta estrategia no es explotable (en absoluto). El bot Libratus, que venció a los mejores jugadores humanos en Texas Hold'em Heads-up No Limit, también utilizó este enfoque.
Ejemplo extremo: si tu oponente siempre te iguala en el river, tu porcentaje de farol debería ser del 0 %, si siempre se retira, debería ser del 100 %. Este porcentaje seguramente tiene un óptimo si todos juegan perfecto, pero contra oponentes específicos es muy variable.
Seguro que hay un óptimo si todo el mundo juega perfecto. Pero pediste un óptimo contra oponentes específicos a los que quieres explotar. Si se desconoce cómo juegan estos oponentes, no existe un óptimo.
@FabianBigler Libratus no se basó en GTO. Probablemente fue GTO en ciertos lugares.

Lo que necesita comprender (y a lo que se refiere indirectamente) es la teoría de juegos y el juego óptimo de teoría de juegos (GTO).

Aquí hay una descripción general introductoria decente . Aquí hay un libro imprescindible sobre el tema.

En 'Juega al póquer como los profesionales' de Phil Hellmuth (e innumerables otros libros de póquer) se explica bien que en los campos más débiles y/o en los juegos de efectivo más bajos, jugar de manera perfectamente óptima generalmente será rentable. Es la idea de jugar de la manera matemáticamente correcta y óptima. Y si dos jugadores jugaran cara a cara por 1 millón de manos y ambos jugaran exactamente GTO, se irían empatados.

Sin embargo, ¡esto no tiene en cuenta el "Elemento humano" o el "Elemento psicológico" del póquer que separa a su jugador promedio del profesional promedio! También puede leer sobre cualquiera de estos términos.

Al leer un poco en un intento de averiguar si esta pregunta podría responderse realmente, encontré un artículo excepcional GTO vs Exploitative Play: ¿Cuál es la mejor estrategia? lo que le brinda un contexto increíble y una cita notable para responder a su (s) pregunta (s):

...el estilo GTO en No Limit Hold'em aún se desconoce. Es imposible para cualquier computadora, y mucho menos para un humano, jugar GTO perfecto...

Aunque este artículo enlaza con el siguiente recurso que rodea a un bot de juego de póquer de IA https://www.cmu.edu/news/stories/archives/2017/january/AI-tough-poker-player.html que está mejorando su propio estrategias continuamente!

Entiendo estos fundamentos. No estoy pidiendo elaboración de teorías sino valores nítidos. ¿Qué rango de VPIP y PFR son buenos después de 10k manos?
@FabianBigler ¿Vas a encerrar a cualquier oponente en un rango? No van a jugar 10K manos antes de que uno de ustedes pase. El tamaño de la subida/apuesta es mucho más importante que la donk/continuación. No creo que te estés acercando a esto correctamente.

La pasividad no está definida por vpip y pfr. También debe realizar un seguimiento de otra estadística, por ejemplo, la frecuencia de apuesta/aumento (después del flop, idealmente por calle), o el factor agresivo (número de apuestas + número de aumentos)/número de llamadas.

Solo esto puede darte la posibilidad de distinguir un agresivo estricto de un pasivo estricto, por ejemplo.

Los rangos también dependen de la cantidad de jugadores en la mesa, no son los mismos umbrales para heads up, 6max, 4handed, full ring... Por lo tanto, aún no es posible darle una respuesta aproximada a su pregunta de estadísticas de perfil. También debe confirmar que es NL Hold'em, las estadísticas también serían muy diferentes en Limit Hold'em o en PLO.

Como nota al margen, los enfoques basados ​​en reglas nunca lograron producir una IA de póquer capaz de ganar incluso en apuestas más bajas en NLHE o PLO (excepto en shortstacking), pero no hay problema si no te preocupa.

Es por eso que limité esta respuesta a Texas Hold'em No Limit Heads-up a un tamaño de pila de 50 ciegas grandes.
Bueno, leí un poco rápido, aunque no mencionas NLHE en ninguna parte, sí mencionas headsup y 50bb de profundidad. Sin embargo, podría haber sido mejor mencionar todo esto al principio de la publicación :).
Maldición, no sabía que no podía comenzar una nueva línea dentro de un comentario ni editar después de 5 minutos, el comentario largo se borró. En hu nl, yo diría que el pasivo estricto es inferior al 80 % de pfr en btn, inferior al 30 % de frecuencia de apuesta después del flop, inferior al 12 % de 3bet, apretado agresivo de pfr btn<80 %, 3bet%>15 % y frecuencia de apuesta pf> 35%, pasivo suelto cualquier jugador con pfr <75% de su vpip y vpip global> 65% y frecuencia de apuesta pf <30%, flojo agresivo pfr btn> 85%, 3bet%> 17% y frecuencia de apuesta pf> 35%. Espero que esto ayude. Sin embargo, esto deja espacio para jugadores sin clasificar, por lo que puede organizarlos para que se adapten mejor a sus necesidades si desea 4 categorías bien definidas.
Debería considerar que GTO está en algún lugar alrededor del 90% pfr btn al menos (tal vez 100%, aunque hasta ahora los mejores jugadores de hu tienden a considerar que tiene un poco menos de 100 bb de profundidad. No estoy seguro de si jugar 50 bb tendría un gran impacto en eso, pero lo dudo. Frecuencia de apuesta GTO post flop en algún lugar entre el 35-40 % 3bet% en algún lugar entre el 15-20 %, pero podría ser más alto 100b de profundidad (y de estas estadísticas, esta es la única en la que tener solo 50bb de profundidad probablemente importa). sobre si el tamaño ideal de pfr es 2bb o 2.5bb El consenso parece estar en 2.5 atm.. 2 permite abrir más cerca del 100% btn obv.

¿Cómo te fue con tu robot de póquer? ¿Ya está sobre las mesas? :)

Para tomarlo más en serio, creo que puedes usar herramientas como PIOsolver u otro software de póquer para obtener los números inexplicables reales, no algo que sugiera un jugador al azar.

Sería mucho más fácil configurar todo lo que necesita en comparación con la creación de un enfoque de explotación, por lo que supongo que GTO es la opción.