Paradoja de 100 monedas [cerrado]

Me preguntaba cuáles son algunas de las soluciones propuestas en la literatura para la siguiente paradoja bien conocida:

Digamos que dos jugadores racionales e inteligentes, A y B, se paran frente a una pila de 100 monedas y juegan el siguiente juego: en cada turno, un jugador puede elegir recoger una moneda, darle al otro jugador el siguiente turno o recoger 2. monedas y terminar el juego allí mismo. A y B quieren maximizar sus ganancias. No pueden hablar entre ellos ni interactuar de ninguna manera (fuera del propio juego, por supuesto).

A podría razonar de la siguiente manera: si solo tenemos 2 monedas, elegiré 2 monedas allí mismo y terminaré el juego. Pero B, que es consciente de esto, optará por recoger 2 monedas cuando queden 3 (porque terminaría con 1 moneda extra). Continuando con esta inducción, finalmente llegamos a la conclusión de que el comportamiento más racional es recoger dos monedas en el primer turno de A. Obviamente una conclusión muy inusual.

¡Gracias!

(He marcado esta pregunta como 'epistemología' debido a los vínculos con la "paradoja del ahorcamiento inesperado")

Bienvenido al sitio! :) Mi pregunta inicial para ti es: ¿Pueden los jugadores hablar entre ellos? Dos jugadores "racionales" simplemente dirían: "Oye, este juego es tonto. ¿Qué tal si lo jugamos hasta el final y habremos dividido el total para entonces?". Eso maximizaría las ganancias de ambos. Creo que la "conclusión" en el ejemplo solo es cierta si quisieran maximizar cada una de sus ganancias excluyendo a la otra persona (es decir, el objetivo no es obtener ganancias per se sino ganar más que la otra persona).
¡Gracias! En la mayoría de las versiones que conozco, los jugadores no pueden hablar entre sí y el objetivo es obtener el máximo beneficio posible para ellos (no importa el beneficio del otro jugador). He editado mi publicación para incluir la suposición anterior.
Si no importa cuánto obtenga la otra persona, la estrategia racional es, como dice stoicfury, siempre elige 1, terminarás con 50. ¿Qué paradoja hay entonces?
Bueno, mi pregunta va más dirigida a las personas que ya están familiarizadas con esta paradoja pero... en resumen, consideren el caso de que solo hay dos monedas. Digamos que es el turno de A. Entonces, lo más racional sería que A recogiera esas dos monedas. Considere el caso de que hay 3 monedas y es el turno de B: lo más racional para B es recoger 2 monedas. Considere el caso de que hay 4 monedas y es el turno de A: A sabe que si elige una moneda, por lo que quedan 3 monedas, B elegiría dos y el juego terminaría con menos ganancias para A, por lo que A elige dos monedas nuevamente. ..
@yorei: Nunca he oído hablar de este juego o de la descripción, no está claro cuáles son las reglas de tu juego. ¿Tiene una referencia en línea?
Desafortunadamente, no tengo una referencia a la mano (una vez escuché sobre esta paradoja de mi profesor, quien mencionó que es bien conocida)... tal vez esta paradoja comúnmente se conoce con un nombre diferente. Investigaré esto y le responderé si encuentro algo (supongo que debería extender el alcance de la pregunta a '¿hay un nombre conocido para esta paradoja').
¿Te refieres al juego del ciempiés ? Las reglas descritas no son exactamente las que dijiste, pero son similares...
Realmente necesitamos más contexto sobre este problema. ¿Puede decirnos también qué pudo haberlo motivado a pedir una explicación sobre esto? ¿Qué podrías haber descubierto ya?
Esto me recuerda el dilema del prisionero .

Respuestas (3)

La caja con 4 monedas es funcionalmente equivalente a la caja con 100 monedas, o cualquier otra acuñación más allá de 3 para el caso.

Por simplicidad, suponga que A siempre va primero.
PP = Beneficio personal

1 moneda
A : elige 1 moneda. PP = 1
B : (el juego ya terminó)

2 Monedas
A : saca 2 monedas. PP = 2
B : (el juego ya terminó)

3 Monedas
A : saca 2 monedas. PP = 2
B : (el juego ya terminó)

Hasta ahora, en términos de maximizar las ganancias, A no puede tener un mejor desempeño. Una vez que llegas a 4 o más monedas, un nuevo factor entra en juego: el rendimiento del otro jugador y "lo que es racional" se altera drásticamente. Si sabe que la persona es una persona racional como usted, puede elegir una a la vez y esperar que haga lo mismo, maximizando las ganancias de ambos. Si sabes que es una persona mala y codiciosa , puedes abrir con 2 monedas para terminar el juego. Si no sabes nada sobre la otra persona, la decisión más racional se basaría en lo que haría el jugador promedio B en tal situación. Si la persona promedio en la posición del jugador B simplemente va a terminar el juego allí mismo con 2 monedas, su movimiento más racional (como jugadorA ) sería terminarlo en el primer turno. De lo contrario, es más racional tomar 1 a la vez.

4 monedas
A : saca 2 monedas. PP = 2
B : (el juego ya terminó)

O

A : saca 1 moneda. PP = 1
B : saca 2 monedas.
El juego ha terminado.

O

A : saca 1 moneda. PP = 1 hasta ahora
B : saca 1 moneda. PP = 1
A : saca 2 monedas. PP = 3 totales

O

A : saca 1 moneda. PP = 1 hasta ahora
B : saca 1 moneda. PP = 1
A : saca 1 moneda. PP = 2 total
B : saca 1 moneda. PP = 2 totales

En el caso de cuatro monedas, siempre elegiría dos monedas como A. Esto se debe a la siguiente razón: dado que todo lo que le importa a B es maximizar sus ganancias, la forma más segura de hacerlo con 3 monedas es simplemente tomar 2 monedas. Entonces, si elige 1 moneda en 4, B luego elegiría 2 monedas y terminaría con una pérdida de ganancias. Supongo que se podría decir que la paradoja supone que ambos jugadores se consideran máquinas frías y racionales.
Pero me gustaría enfatizar: estoy interesado en soluciones /ya conocidas/ en la literatura, no en investigaciones originales. Es posible que tenga un muy buen punto aquí, pero su respuesta no está dentro del alcance de mi pregunta. ¡Sin embargo, muchas gracias por tu esfuerzo!
Bueno, al igual que Mitch, nunca he oído hablar de este problema, así que no puedo ayudarte. Respecto a 4 monedas: no, no se sigue que con 4 monedas la elección más racional sea 2 desde el principio. Es posible obtener 3 en total; tal vez tu oponente es pobre en estrategia, ¿quién sabe? Tan pronto como involucras a los humanos, es un juego diferente. Aún así, si hubiera afirmado "máquina fría y racional" en la publicación original en lugar de "humano", solo cambiaría estas dos conclusiones (4 y 5 monedas). Después de 5, incluso con "máquinas frías y racionales", no hay escenarios en los que tenga sentido abrir con 2 para finalizar el juego.
@stoicfury esto es incorrecto. Si reconoce para las 'máquinas frías y racionales' que el movimiento correcto para 4 monedas es tomar 2, entonces el jugador A debe abrir con 2 monedas en el caso de 5. De lo contrario, si toma 1, entonces la elección lógica de B es tomar 2 , dejando al jugador A con 1 PP menos.
@zephyr: Tienes razón, fue un error. Quise escribir "Después de 5", no de 4. :) Lo editaré, gracias.

Esto me parece muy similar al dilema del prisionero, y el comportamiento lógicamente correcto depende de si se trata de un encuentro único con un oponente desconocido o de una serie de juegos repetidos.

Respuesta de teoría de juegos: Sí, las cosas son raras. La gente no actúa así porque sea irracional. ¡Hagamos más pruebas!

Respuesta empirista: al observar los datos históricos, la gente generalmente comparte hasta los últimos dos o tres. También sienten un deseo de reciprocidad muy fuerte. Si P(comparten)*(monedas restantes) -(P(comparten)-1)*2 > 0, entonces el empirista compartirá.

Teoría de la decisión atemporal : suponiendo que ambos jugadores solo están interesados ​​en su propio beneficio, y son completamente lógicos, y están completamente seguros de que su oponente es igualmente racional y egoísta, ambos se dan cuenta de que el otro jugador hará exactamente lo mismo que ellos. Dado eso, ambas personas se dan cuenta de que si comparten, su pareja también lo hará. Por lo tanto, la decisión racional es tomar una moneda.

Con respecto a la "respuesta empirista": ¿La persona promedio se volvería avara con las últimas 2 o 3 (de 100) monedas al final del juego? No veo esto empíricamente en absoluto, aunque dependería completamente del contexto. Creo que a la mayoría de las personas no les importarán 3 monedas cuando ya tienen 47, y continuarán fielmente con el espíritu de cooperación, si las monedas son de 1 céntimo. Si las monedas son monedas de 5000 dólares, es posible que obtenga algunas personas astutas más que tomarán las últimas 2 para terminar el juego en lugar de dividirlo 50/50. Pero aún así, ¿sería esta la persona promedio ? No me parece.
Si uno asume que cada jugador esperará que el otro use la estrategia que él mismo usaría en un lugar determinado, luego de que se toman al menos dos monedas y quedan exactamente tres, un jugador lanzaría una moneda hasta que salga cara, y luego tomaría una moneda. si eso requiere un número impar de lanzamientos y dos si es par, entonces un jugador que tomó una moneda cuando quedaban cuatro tendría un valor esperado infinitesimalmente mayor que 2 y, por lo tanto, se beneficiaría de tomar solo una. Un jugador con cinco o más monedas se beneficiaría de adoptar esta estrategia al incitar al jugador de cuatro monedas a tomar solo una.