¿Un juego de probabilidad muy fascinante sobre cómo maximizar la codicia?

Dos personas juegan un juego matemático. Cada persona elige un número entre 1 y 100 inclusive, y ambos números se revelan al mismo tiempo. La persona que tiene un número menor conservará su valor numérico, mientras que la persona que tenga un número mayor reducirá a la mitad su valor numérico. Ignora cualquier empate.

Por ejemplo, si los dos jugadores juegan 50 y 70, el primer jugador retendrá 50 puntos mientras que el segundo solo obtendrá 35.

Hay cinco turnos en total y cada persona recibe una puntuación igual a la suma de sus cinco valores.

¿Cuál es la estrategia ganadora óptima?

Obviamente, jugar 100 en cada turno es una mala estrategia, ya que si el otro jugador juega 70, gana 20 puntos más que tú. Del mismo modo, jugar 1 también es un mal movimiento ya que se garantiza que recibirás menos puntos que tu oponente.

Si asumimos que nuestro oponente es una computadora que elige números del 1 al 100 con la misma probabilidad, podemos calcular el valor esperado que maximizará nuestra puntuación en relación con la de la computadora. (He resuelto que esto es algo de 60, creo)

Pero, si esto es cierto, la computadora se dará cuenta de que no tiene sentido jugar menos de 30 algo, por lo que podemos suponer que la computadora no jugará números tan bajos.

Esto da un número óptimo diferente para jugar cada vez. Repetir este método dará diferentes valores del 'mejor' número para jugar. Me pregunto cuál es este número.

Además, lo de los 'cinco turnos' es, por supuesto, irrelevante, pero con un humano es interesante predecir la estrategia y los movimientos del otro jugador.

Entonces, ¿existe un número que maximice el valor esperado total? (Podemos asumir que nuestro oponente tiene la misma cantidad de conocimiento que nosotros)

Este juego es similar en sabor al juego del dilema del viajero .
Este juego se puede formular como un juego de suma cero de información perfecta no cooperativo (suponiendo que solo te importe quién gana, no cuánto dinero ganan cuando ganan), y las estrategias para estos juegos se pueden encontrar a través de la programación lineal. (Presumiblemente, la mejor estrategia es elegir ciertos números al azar con ciertas probabilidades). en.wikipedia.org/wiki/Zero-sum_game#Solving
¿Puede aclarar si le importa un valor absoluto de ganar o un valor relativo al otro jugador?
¿Qué pasa con ambos? ¿Qué número da la mayor probabilidad de ganar (suponiendo que solo hay un juego) y qué número maximizará el valor de la ganancia (suponiendo que hay más de un juego)?

Respuestas (2)

Como señaló @Greg Martin, puede resolver tales juegos usando programación lineal bajo el supuesto de que el objetivo es ganar por el mayor margen sobre el otro jugador.

Usé un solucionador de juegos de suma cero en línea para encontrar la siguiente solución; No estoy seguro de si esta estrategia óptima es única.

ingrese la descripción de la imagen aquí

Nunca elija números en [ 1 , 25 ] . Elija números pares en [ 26 , 100 ] con probabilidad decreciente ( PAG ( 26 ) 0.0575 ; PAG ( 100 ) = 0. 01 ¯ = 1 99 ) y elija números impares en [ 27 , 49 ] incluso con menos frecuencia ( PAG ( 27 ) 0.0166 ; PAG ( 49 ) 0.000372 ). Nunca elija números impares mayores que 49 .

Este es un resultado bastante curioso, y tal vez alguien más pueda ofrecer una idea al respecto.

La estrategia anterior es adecuada cuando se juega en varias rondas y las puntuaciones se acumulan. Pero si juegas solo una ronda y te preocupas solo por ganar pero no por el margen de victoria, ¡entonces la estrategia es muy diferente! Simplemente juega 26 o 52 con la misma probabilidad y tiene la garantía de ganar al menos la mitad de las veces. (Si tu oponente adopta la misma estrategia, empatarás todos los juegos). Nuevamente, no estoy seguro si esta estrategia es única.

@AS Todavía no has explicado cómo gana cada jugador si ambos eligen 26 o 52 . Además, creo que el espíritu del problema es el valor final relativo: "Obviamente, jugar 100 en cada turno es una mala estrategia, ya que si el otro jugador juega 70, gana 20 puntos más que tú ". mala jugada ya que tienes garantizado recibir menos puntos que tu oponente ". Si nos preocupamos por el valor absoluto, entonces jugar 1 sería un mal movimiento por una razón diferente, a saber, que solo daría 1 punto.
Punto anotado sobre el espíritu del problema, aunque la declaración al principio es solo sobre el valor absoluto. Así que no está claro en general. Tienes razón en que la estrategia 26/52 da como resultado empates: simplemente no llegué a la mitad del valor máximo.
Dado que, 26 / 52 La estrategia no es única. Cualquier k / 2 k para k 26 estrategia tiene la misma garantía.
tengo pdf F ( t ) = 1 2 t 3 / 2 I ( t [ 1 / 4 , 1 ] ) para un juego continuo de objetivo relativo en [ 0 , 1 ] que se traduce en 1 200 ( t / 100 ) 3 / 2 I ( t [ 25 , 100 ] ) en [ 1 , 100 ] . ¿Puedes mirar el diagrama logarítmico de tus datos para ver si la línea superior se ajusta a una curva similar y verificar la más pequeña para la subcurva más pequeña?

Abordaré una versión continua del problema (ya que nada dice explícitamente que solo se pueden elegir números enteros) en [ 0 , 1 ] y suponga que ambos jugadores maximizan el pago absoluto (como pide la última oración) en lugar del pago relativo.

En ese caso, deja X F ser cdf del primer jugador y Y GRAMO ser cdf del segundo jugador. Entonces

V 1 ( X , Y ) = 0 1 X ( PAG ( Y > X ) + 1 2 PAG ( Y < X ) ) d F ( X ) = 0 1 1 2 X ( 1 + PAG ( Y > X ) PAG ( Y = X ) ) d F ( X ) = 1 2 H ( X ) d F ( X )

Esto muestra que F no pondrá peso X < 1 2 desde que cambió tal X a uno en ( 2 X , 1 ) (que no coincide con los átomos de Y ) aumentará la integral. restringirnos a [ 1 2 , 1 ] de aquí en adelante. Dado que una fórmula similar se cumple para GRAMO y podemos ver en equilibrio ni F ni GRAMO contienen átomos. Eso implica que H ( X ) tiene que permanecer constante ( = H ( 1 / 2 ) = H ( 1 ) = 1 ) en [ 0 , 1 ] :

X ( 1 + PAG ( Y > X ) ) = 1 PAG ( Y > X ) = 1 X 1 F ( X ) = 1 X 2 [ X [ 1 2 , 1 ] ]

El valor de tal juego es 1 2 para ambos jugadores. Traduciendo al problema original obtenemos una distribución similar en [ 50 , 100 ] y 50 como valor del juego.


Si el valor del juego es relativo, entonces el valor:

2 V ( X , Y ) = 2 mi ( X Y 2 ; X < Y ) + 2 mi ( X 2 Y ; X > Y ) = 0 1 ( X PAG ( Y > X ) + X X PAG ( Y = X ) mi ( Y ; Y < X ) mi ( Y ) + X PAG ( Y = X ) ) = 0 1 ( X ( 1 + PAG ( Y > X ) ) mi ( Y ; Y < X ) ) d F ( X ) mi ( Y ) = 0 1 H ( X ) d F ( X ) mi ( Y )
Como antes, en equilibrio F y GRAMO no tienen átomos y H es constante en algunos [ X 0 , 1 ] que es apoyo de F . Resolviendo H = 0 :
( 2 GRAMO ( X ) ) X gramo ( X ) X gramo ( X ) = 0 GRAMO ( X ) 2 GRAMO ( X ) = 1 2 X 2 GRAMO ( t ) 2 = ( X 0 t ) 1 / 2
enchufando GRAMO ( 1 ) = 1 rendimientos:
gramo ( t ) = 1 2 t 3 / 2 I [ 1 / 4 , 1 ] ( t )