En mi tesis de licenciatura, estoy desarrollando un reproductor de computadora, tratando de modelar el comportamiento del oponente, mientras realizo un seguimiento de las siguientes características:
antes del flop:
Flop, Turn y River:
Confrontación:
Ahora me gustaría implementar un sistema experto, que requiere conocimiento experto de un buen jugador. Desafortunadamente, no soy tan bueno en Heads-up y no pude encontrar ningún recurso en Internet con respecto a estos números. Sé que si te retiras demasiadas veces (por ejemplo, te retiras demasiadas veces antes del flop) te vuelves explotable para el oponente. El bot de mi computadora intentará explotar a su oponente tanto como sea posible.
Nota: En mi juego, ambos jugadores tienen una pila de 50 ciegas grandes.
Preguntas:
¿Qué valores de VPIP y PFR indican jugadores apretados-agresivos, apretados-pasivos, sueltos-agresivos, sueltos-pasivos? Responda en un rango de valores (por ejemplo, estricto-pasivo: VPIP: 0.0-0.2 PFR: 0.0-0.2 y VPIP = PFR)
¿Qué pasa con las otras cifras clave? ¿Qué rango de valores se considera óptimo?
Realmente agradecería una gran respuesta para poder implementar el reproductor de mi computadora en función de sus valores. También estoy muy contento con un recurso externo que me indica los rangos de valores "óptimos".
EDITAR: Estoy buscando respuestas que intenten darme valores expertos aproximados. He estado estudiando este tema durante muchas horas y sé sobre el equilibrio de nash, la minimización del arrepentimiento contrafactual, etc. Todo lo que pido son estimaciones aproximadas de las que cualquier buen jugador de heads-up intentaría estar dentro de sus rangos. Por favor, no me den respuestas como "el texas hold'em no se resuelve" o "esto no es posible, porque...". Por favor dame VALORES. Espero haberme hecho entender. :-)
El póquer aún no es un juego resuelto. Aún no se ha encontrado una estrategia óptima. Tratar de implementar su conocimiento o el de otra persona en un programa de computadora solo dará como resultado una versión subóptima de usted/ellos. Si desea crear un bot que pueda, por ejemplo, vencer a todos los humanos en una muestra lo suficientemente larga, debe adoptar un enfoque diferente.
Ahora con respecto a los valores. Solo los valores no son suficiente información para una computadora. Muchos jugadores usan HUD y, por lo tanto, estos valores para ayudarlos a tomar decisiones. Los valores por sí solos no son suficientes para tomar las decisiones. Permítanme explicar por qué estos valores no brindan información completa y por qué es imposible que estos valores tengan un óptimo.
Digamos que su oponente obtiene 3:1 frente a su apuesta en el river. Así que hiciste una apuesta del tamaño de la mitad del bote. Si continúa con menos de 1/3 de sus manos, entonces eso sería explotable. Entonces, en ese caso, tu bot debería farolearlo más a menudo. Sin embargo, el bot no siempre disparará la mitad de la olla. Cuanto mayor sea la apuesta en el river, más a menudo tu oponente debería retirarse. Solo su porcentaje de fold en el river no es información suficiente para explotarlo. Del mismo modo, no existe un porcentaje de abandono óptimo en el river para tu bot.
Su bot necesita acceso en este caso: tanto a todos los tamaños de apuestas en el river que hizo como a los porcentajes de fold que se combinan con ellos, con una muestra enorme. Ahora, la parte más interesante es el tamaño óptimo de la apuesta en el río para tu bot. Si esto se sabe, ha descubierto este lugar. Desafortunadamente, el tamaño de esta apuesta depende de muchos factores, como la acción previa y la textura del tablero. Es muy complicado y prácticamente imposible de responder, ya que el póquer aún no se ha resuelto.
Lo mismo ocurre con todas las demás estadísticas. Si tu oponente sube 10BB antes del flop, deberías defender menos manos que si él subiera con 2BB. Y al revés, el bot puede abrir muchas menos manos si sube 10BB antes del flop en lugar de 2BB. Para acercarse a un PFR óptimo, o cualquier otro número, debe considerar muchos más factores.
En breve. No existe un valor óptimo para estos números sin contexto y definitivamente no debe usarlos sin él. Sé que esta respuesta realmente no ayudó, ya que solo te dije qué no hacer y qué hacer. Pero quería que mi respuesta estuviera dentro del alcance de esta pregunta.
Pequeña nota: no existe tal cosa como una apuesta donk en posición.
Lo que necesita comprender (y a lo que se refiere indirectamente) es la teoría de juegos y el juego óptimo de teoría de juegos (GTO).
Aquí hay una descripción general introductoria decente . Aquí hay un libro imprescindible sobre el tema.
En 'Juega al póquer como los profesionales' de Phil Hellmuth (e innumerables otros libros de póquer) se explica bien que en los campos más débiles y/o en los juegos de efectivo más bajos, jugar de manera perfectamente óptima generalmente será rentable. Es la idea de jugar de la manera matemáticamente correcta y óptima. Y si dos jugadores jugaran cara a cara por 1 millón de manos y ambos jugaran exactamente GTO, se irían empatados.
Sin embargo, ¡esto no tiene en cuenta el "Elemento humano" o el "Elemento psicológico" del póquer que separa a su jugador promedio del profesional promedio! También puede leer sobre cualquiera de estos términos.
Al leer un poco en un intento de averiguar si esta pregunta podría responderse realmente, encontré un artículo excepcional GTO vs Exploitative Play: ¿Cuál es la mejor estrategia? lo que le brinda un contexto increíble y una cita notable para responder a su (s) pregunta (s):
...el estilo GTO en No Limit Hold'em aún se desconoce. Es imposible para cualquier computadora, y mucho menos para un humano, jugar GTO perfecto...
Aunque este artículo enlaza con el siguiente recurso que rodea a un bot de juego de póquer de IA https://www.cmu.edu/news/stories/archives/2017/january/AI-tough-poker-player.html que está mejorando su propio estrategias continuamente!
La pasividad no está definida por vpip y pfr. También debe realizar un seguimiento de otra estadística, por ejemplo, la frecuencia de apuesta/aumento (después del flop, idealmente por calle), o el factor agresivo (número de apuestas + número de aumentos)/número de llamadas.
Solo esto puede darte la posibilidad de distinguir un agresivo estricto de un pasivo estricto, por ejemplo.
Los rangos también dependen de la cantidad de jugadores en la mesa, no son los mismos umbrales para heads up, 6max, 4handed, full ring... Por lo tanto, aún no es posible darle una respuesta aproximada a su pregunta de estadísticas de perfil. También debe confirmar que es NL Hold'em, las estadísticas también serían muy diferentes en Limit Hold'em o en PLO.
Como nota al margen, los enfoques basados en reglas nunca lograron producir una IA de póquer capaz de ganar incluso en apuestas más bajas en NLHE o PLO (excepto en shortstacking), pero no hay problema si no te preocupa.
¿Cómo te fue con tu robot de póquer? ¿Ya está sobre las mesas? :)
Para tomarlo más en serio, creo que puedes usar herramientas como PIOsolver u otro software de póquer para obtener los números inexplicables reales, no algo que sugiera un jugador al azar.
Sería mucho más fácil configurar todo lo que necesita en comparación con la creación de un enfoque de explotación, por lo que supongo que GTO es la opción.
Grinch91
Fabián Bigler
Grinch91
Fabián Bigler