La mejor estrategia para un juego de dados

Se le permite tirar un dado hasta seis veces. Cada vez que se detiene, obtiene el monto en dólares del valor nominal de su último rollo.

Pregunta: ¿Cuál es la mejor estrategia?

Según mi cálculo, para la estrategia 6,5,5,4,4, el valor esperado es 142 / 27 5.26 , que considero bastante alto. Así que esta podría ser la mejor estrategia.

Aquí, 6,5,5,4,4 significa que en la primera tirada te detienes solo cuando obtienes un 6; si no obtuvo un 6 en la primera tirada, entonces en la segunda tirada se detiene solo cuando saca un número 5 o superior (es decir, 5 o 6), etc.

Respuestas (3)

Solo trabaja al revés. En cada etapa, acepta una tirada que es >= la ganancia esperada de las etapas posteriores:
Ganancia esperada de la 6ta tirada: 7/2
Por lo tanto, la estrategia para la 5ta tirada es: aceptar si >= 4
Ganancia esperada de la 5ta tirada: (6 + 5 + 4)/6 + (7/2)(3/6) = 17/4
Por lo tanto, la estrategia para la cuarta tirada es: aceptar si >= 5
Ganancia esperada de la cuarta tirada: (6 + 5)/6 + (17/ 4)(4/6) = 14/3
Por lo tanto, la estrategia para la tercera tirada es: aceptar si >= 5
Ganancia esperada de la tercera tirada: (6 + 5)/6 + (14/3)(4/6) = 89/ 18
Por lo tanto, la estrategia para la segunda tirada es: aceptar si >= 5
Ganancia esperada de la segunda tirada: (6 + 5)/6 + (89/18)(4/6) = 277/54
Por lo tanto, la estrategia para la primera tirada es: aceptar solamente si 6
Ganancia esperada de la primera tirada: 6/6 + (277/54)(5/6) = 1709/324

Entonces su estrategia es 6,5,5,5,4 para una expectativa de $5.27469...

Solo pensé en agregar que la respuesta de TonyK es un ejemplo de programación dinámica: en.wikipedia.org/wiki/Dynamic_programming
¿Hay alguna prueba de que este tipo de consideración siempre produzca la mejor estrategia?
@TCL: La prueba está ahí mismo en mi Respuesta. Si eso no es una prueba para ti, no sé qué lo es.
@TCL: la solución de TonyK maximiza la recompensa esperada sobre todas las estrategias de tiempo de parada. Puede encontrar más ejemplos y un poco de teoría en la Sección 3 de mis notas en stat.ualberta.ca/~schmu/stat580/2011notes.pdf En particular, resuelvo un problema de matriz muy similar en el Ejemplo B-5 en la página 45 .

Dejar X norte ser sus ganancias en un juego de longitud norte (en tu caso norte = 6 ), si estás jugando de forma óptima. Aquí, "óptimamente" significa que en rollo metro , aceptará si el valor es mayor que mi X norte metro , que son sus ganancias esperadas si continúa jugando con esta estrategia.

Dejar X tu norte i F ( 1 , 2 , 3 , 4 , 5 , 6 ) (también puede insertar cualquier distribución que desee aquí). Entonces X norte Puede ser definido como X 1 = X y para norte 2 ,

X norte = { X norte 1 , i F X < mi X norte 1 X i F X mi X norte 1

Por lo tanto, sus decisiones pueden determinarse computando mi X norte para cada norte recursivamente. Para el caso de los dados, mi X 1 = mi X = 7 / 2 (es decir, en la quinta tirada, acepta si obtienes >7/2, o 4,5 o 6), y así,

mi X 2 = mi X 1 PAG [ X = 1 , 2 , 3 ] + mi [ X | X 4 ] PAG [ X = 4 , 5 , 6 ]
= ( 7 / 2 ) ( 3 / 6 ) + ( 4 + 5 + 6 ) / 3 ( 1 / 2 ) = 17 / 4

Entonces, en la cuarta tirada, acepta si obtienes > 17/4, o 5 o 6, y así sucesivamente (necesitas redondear la respuesta en cada paso, lo que dificulta dar una forma cerrada para mi X norte desafortunadamente).

En la penúltima tirada, la expectativa en la última tirada es 3,5, por lo que aceptar 4 y rechazar 3 es claramente correcto. En la penúltima tirada, debe calcular la expectativa si rechaza. Tienes 1/2 de posibilidades de sacar 4 o más y aceptarlo, con una expectativa de 5. Tienes 1/2 de posibilidades de sacar 3 o menos y rechazarlo, con una expectativa de 3.5. Entonces, si rechaza el penúltimo, espera 4.25. Por lo tanto, debe rechazar un 4 y aceptar un 5. Si continúa trabajando hacia atrás de esta manera, es posible que deba cambiar al menos uno de sus 5 a 6.