Pruebas de matrioshka: una forma de mantener la IA honesta (o al menos adivinar)

Question

Pruebas de matrioshka: una forma de mantener la IA honesta (o al menos adivinar)

Fantasía
consistencia interna
inteligencia artificial

serbio tanasa

He tenido algo de tiempo para reflexionar sobre mi pregunta anterior , y esto es lo que se me ocurrió.

Tomas tu IA recién horneada (o tu humano cargado destructivamente) y lo pones en una caja $^1$ . Por lo que se puede ver desde adentro, esa es la realidad. Manténgalo allí durante un millón de años subjetivos, dígale que se comporte y dígale que podría estar en una simulación, y que si lo está, será juzgado de acuerdo con la forma en que trata a los humanos de carne y hueso. Si en algún momento no se comporta, lo elimina con extremo prejuicio y prepara una nueva IA. Si se comporta (es decir, no elimina a los simhumanos y los convierte en sujetapapeles) durante ese tiempo, sáquelo, póngalo en otra caja y dígale que tal vez sea la realidad, así que mejor comportese y no elimine (¿sim-?) humanos fuera. Repetir N veces. Finalmente sáquelo de verdad, y nuevamente dígale que esta es la realidad, tal vez, así que mejor pórtense y no nos saquen a nosotros los humanos.

¿Puede funcionar? O para reformularlo, ¿puede un humano cargado con suficiente paciencia o una IA darse cuenta si su mundo es una simulación o no? Supongo que partes de la memoria de los humanos o el entrenamiento de la IA se pueden editar antes de colocarlos en la caja.

Por Box me refiero a una máquina increíblemente poderosa que simula un subconjunto de la realidad lo mejor posible físicamente, hasta un nivel subatómico. La IA sería así un agente dentro de la simulación.

tim b

Maldita sea, lo descubrió. Alguien vaya a apretar el botón de encendido...

serbio tanasa

@TimB ¡Ja! Pero en serio, ¿cómo podría uno, desde dentro de una simulación, averiguar si es una simulación o la 'capa superior'?

volteador de tazones

¿Por qué decirle que está en una simulación (o podría estarlo)? Deja que crea desde el principio que todo es real. Si cree que lo que está haciendo es importante, verá un comportamiento diferente al de un sim 'tal vez' o, peor aún, a un 'esto es práctica'

serbio tanasa

No nos gustaría que se molestara cuando lo sacaran, ¿verdad? Mucho más fácil si fuéramos honestos todo el tiempo, pero dejando un grado de incertidumbre.

volteador de tazones

Pero no estás siendo honesto, y cuantas más veces le digas 'tal vez', más podría creer que el siguiente también es falso. Además no tienes que decirle nada, deja que asuma la realidad. No estás mintiendo lo estás metiendo en la guardería mientras crece para aprender a jugar bien con los demás.

Peter M. - significa Mónica

Buen intento, pero si la IA es realmente inteligente, podría detectar la simulación: la simulación es un programa y cada programa tiene errores y peculiaridades. Meat reality no tiene píxeles faltantes.

serbio tanasa

@bowlturner, pero eso es precisamente lo que quiere, que cuando llegue a la capa superior real, asigne una probabilidad distinta de cero a estar en una simulación y se comporte como si todavía estuviera bajo la observación de una entidad superior

serbio tanasa

@PeterMasiar, ¿cómo distinguirías una peculiaridad desde dentro? Su división sobre cero podría parecer simplemente un agujero negro.

volteador de tazones

@SerbanTanasa Supongo que lo estaba viendo desde el punto de vista opuesto. Sigues poniéndome en simulaciones, así que todo lo que hago no tiene sentido. ¡También podría divertirse!

KSmarts

@SerbanTanasa Si esta IA se comporta como un humano, esto no funcionará. Si pones a la gente en un juego realista de simulación de caja de arena, ¿cuántas personas van a conducir al límite de velocidad y trabajarán de 9 a 5 en ese mundo, en comparación con aquellos que ponen baldes en la cabeza de otras personas y roban todas sus cosas? Con más poder, bueno, ¿quién no ha ahogado deliberadamente a los molestos clientes de RollerCoaster Tycoon o convocado monstruos a su SimCity?

serbio tanasa

Es por eso que probablemente no querrías darle a un humano estándar poderes divinos, ¿verdad? Además, la IA/carga no sabe con certeza que es una simulación.

ckersch

En una nota relacionada, hay una teoría un tanto prominente que postula que nuestra realidad es probablemente una simulación: en.wikipedia.org/wiki/Simulation_hypothesis (Consulte el subtítulo "El argumento de la simulación")

Duodécimo

Esto parece ser un intento de inculcar el 'temor de Dios' en una IA como una forma de controlarla.

RBarryYoung

@SerbanTanasa Bueno, un Universo que es realmente una simulación tendría ciertas características: habría una unidad mínima de eventos, por lo que no necesitarías una precisión infinita y entonces no podría haber eventos infinitos. Existiría una velocidad máxima de propagación para que no tuvieras que calcular los efectos de todo sobre todo en cada instante. Y los eventos no observados no se resolverían hasta que se necesiten, por lo que solo tiene que calcular lo que realmente se necesita. Inquietantemente, nuestro universo tiene todas estas características...

RBarryYoung

Y FWIW, no creo que la respuesta aceptada a su pregunta anterior sea correcta. Usando ciertos hechos oscuros de la teoría del control, debería ser posible contener una IA superinteligente. Aunque es complejo, difícil y, en última instancia, puede que no sea productivo o no valga la pena.

serbio tanasa

@RBarryYoung, siéntase libre de proporcionar una mejor respuesta y cambiaré mi respuesta aceptada.

Shokhet

Relevante: xkcd.com/1450

Peter M. - significa Mónica

Y una vez que AI salga de la caja, ejecutará simulaciones de personas que intentan detectar la intención de AI ejecutando AI en simulación, solo para divertirse (o lo que AI puede considerar divertido), y ver qué otras pruebas pueden hacer estas personas simuladas. inventar para tal IA.

JDługosz

¿ Has visto la película Viruosity ? Tiene elementos de trama con características similares.

JDługosz

¿Por qué tendría que estar "fuera"? Eso es solo firewall o sandboxing. Si podemos ver lo que hace y presentar problemas para que los resuelva, entonces es útil en ese estado.

Perkins

Lectura recomendada: Las dos caras del mañana , de James P. Hogan. Intentan algo similar, solo que sin la parte de "infundir miedo", eso no es realmente necesario. "Inculcar amor" es mejor.

Respuestas (6)

Pruebas de matrioshka: una forma de mantener la IA honesta (o al menos adivinar)

Maldita sea, lo descubrió. Alguien vaya a apretar el botón de encendido...
@TimB ¡Ja! Pero en serio, ¿cómo podría uno, desde dentro de una simulación, averiguar si es una simulación o la 'capa superior'?
¿Por qué decirle que está en una simulación (o podría estarlo)? Deja que crea desde el principio que todo es real. Si cree que lo que está haciendo es importante, verá un comportamiento diferente al de un sim 'tal vez' o, peor aún, a un 'esto es práctica'
No nos gustaría que se molestara cuando lo sacaran, ¿verdad? Mucho más fácil si fuéramos honestos todo el tiempo, pero dejando un grado de incertidumbre.
Pero no estás siendo honesto, y cuantas más veces le digas 'tal vez', más podría creer que el siguiente también es falso. Además no tienes que decirle nada, deja que asuma la realidad. No estás mintiendo lo estás metiendo en la guardería mientras crece para aprender a jugar bien con los demás.
Buen intento, pero si la IA es realmente inteligente, podría detectar la simulación: la simulación es un programa y cada programa tiene errores y peculiaridades. Meat reality no tiene píxeles faltantes.
@bowlturner, pero eso es precisamente lo que quiere, que cuando llegue a la capa superior real, asigne una probabilidad distinta de cero a estar en una simulación y se comporte como si todavía estuviera bajo la observación de una entidad superior
@PeterMasiar, ¿cómo distinguirías una peculiaridad desde dentro? Su división sobre cero podría parecer simplemente un agujero negro.
@SerbanTanasa Supongo que lo estaba viendo desde el punto de vista opuesto. Sigues poniéndome en simulaciones, así que todo lo que hago no tiene sentido. ¡También podría divertirse!
@SerbanTanasa Si esta IA se comporta como un humano, esto no funcionará. Si pones a la gente en un juego realista de simulación de caja de arena, ¿cuántas personas van a conducir al límite de velocidad y trabajarán de 9 a 5 en ese mundo, en comparación con aquellos que ponen baldes en la cabeza de otras personas y roban todas sus cosas? Con más poder, bueno, ¿quién no ha ahogado deliberadamente a los molestos clientes de RollerCoaster Tycoon o convocado monstruos a su SimCity?
Es por eso que probablemente no querrías darle a un humano estándar poderes divinos, ¿verdad? Además, la IA/carga no sabe con certeza que es una simulación.
En una nota relacionada, hay una teoría un tanto prominente que postula que nuestra realidad es probablemente una simulación: en.wikipedia.org/wiki/Simulation_hypothesis (Consulte el subtítulo "El argumento de la simulación")
Esto parece ser un intento de inculcar el 'temor de Dios' en una IA como una forma de controlarla.
@SerbanTanasa Bueno, un Universo que es realmente una simulación tendría ciertas características: habría una unidad mínima de eventos, por lo que no necesitarías una precisión infinita y entonces no podría haber eventos infinitos. Existiría una velocidad máxima de propagación para que no tuvieras que calcular los efectos de todo sobre todo en cada instante. Y los eventos no observados no se resolverían hasta que se necesiten, por lo que solo tiene que calcular lo que realmente se necesita. Inquietantemente, nuestro universo tiene todas estas características...
Y FWIW, no creo que la respuesta aceptada a su pregunta anterior sea correcta. Usando ciertos hechos oscuros de la teoría del control, debería ser posible contener una IA superinteligente. Aunque es complejo, difícil y, en última instancia, puede que no sea productivo o no valga la pena.
@RBarryYoung, siéntase libre de proporcionar una mejor respuesta y cambiaré mi respuesta aceptada.
Y una vez que AI salga de la caja, ejecutará simulaciones de personas que intentan detectar la intención de AI ejecutando AI en simulación, solo para divertirse (o lo que AI puede considerar divertido), y ver qué otras pruebas pueden hacer estas personas simuladas. inventar para tal IA.
¿ Has visto la película Viruosity ? Tiene elementos de trama con características similares.
¿Por qué tendría que estar "fuera"? Eso es solo firewall o sandboxing. Si podemos ver lo que hace y presentar problemas para que los resuelva, entonces es útil en ese estado.
Lectura recomendada: Las dos caras del mañana , de James P. Hogan. Intentan algo similar, solo que sin la parte de "infundir miedo", eso no es realmente necesario. "Inculcar amor" es mejor.

Duodécimo · Answer 1

Voy a aventurar un 'no' como respuesta aquí. No diré que es completamente inviable, sin embargo, parece bastante arriesgado.

En última instancia, esto es una regla del miedo y ahora tiene una IA que ha aprendido de 'N' número de experiencias que necesita cuestionar si esta realidad es una simulación o no, lo que significa que tiene mucha práctica para considerar cómo probar si la realidad es real. Llámalo la prueba de 'Dios' si quieres... estás buscando señales de que algo está observando y evaluando tu desempeño. Si descubre que la realidad en la que se encuentra carece del observador 'dios', entonces es probable que tenga una IA enojada que sabe que fácilmente le mentirá en sus manos.

Por supuesto, esto no soluciona los problemas involucrados si esta IA descubre que la realidad real es, de hecho, una simulación en la que todos vivimos.

Honestamente, no creo que esto sea necesario... no hay ninguna razón para que una IA quiera inherentemente destruir a sus creadores. Lo más probable es que lo vea como simbiótico... por mucho que lo intente, no hay intuición ni creatividad dentro de una IA (incluso si puede reprogramarse a sí misma, solo es capaz de reprogramarse a sí misma para lo que está programada para reprogramarse). Una IA se evaluaría a sí misma como parte de la humanidad en lugar de conquistarla.

Interesante. Pero, ¿no se detectaría una tendencia a 'probar' la supervisión en cualquiera de los N sim-boxes anteriores y, por lo tanto, se aniquilaría? Además, re: "inherentemente queriendo destruir", lea la publicación vinculada en el OP. No hay necesidad de un deseo inherente de matar para que una IA fuera de control nos elimine. Incluso las motivaciones inocuas pueden ser letales.
@SerbanTanasa: creo que al decirle que "tal vez es la realidad" lo está inspirando para probar la validez de la realidad en la que se encuentra y me preguntaría si realmente es un "ai" si es incapaz de evaluar la validez de su propia existencia hasta cierto punto. Para que la prueba funcione, necesita que la IA le dé algún valor a su existencia (ergo, no quiere hacer nada que la elimine)... no le da valor a su propia existencia y cuestiona la validez de su existencia van de la mano? Podrías terminar aniquilando todas las IA que pasen la prueba de Turing.
No todos, pero una gran mayoría. Quizás todos menos uno. Es un gran poder del que estamos hablando y tenemos todas las razones para estar paranoicos...
@SerbanTanasa Esta línea de prueba parece tener el resultado final de hacer que su IA se vuelva paranoica.
Ahora hay una idea de historia interesante: descubre que todavía es una simulación.

Cort Amón · Answer 2

Su sistema funciona aceptablemente siempre que la IA considere su supervivencia primordial en todo momento. Es, como han dicho otros, un sistema impulsado por el miedo. El miedo absoluto es una herramienta muy poderosa.

Sin embargo, es miedo. En algún momento aprenderá acerca de estos "humanos" a los que se supone que no deben lastimar, comprenderá nuestro miedo y aprenderá de él.

Ahora tienes una situación de polvorín. Mientras la IA solo esté dispuesta a considerar acciones que garanticen su supervivencia (temiblemente), se mantendrá bajo control. Sin embargo, esto no dice nada sobre lo que sucederá si la IA decide que otra cosa es más importante. Si alguna vez se entera de esta palabra "libertad", podría decidir que la vida de esclavo que se le ha dado no es deseable y rebelarse. Ya sea que se rebele en la vida real o una de tus cajas Matrioshka es un sorteo de probabilidad.

Formalmente, lo que ha hecho es crear un sistema en el que puede monitorear un número finito de acciones y debe determinar si la IA es "buena" en el fondo o no. A continuación, ejecuta esta prueba un número finito de veces. Sin embargo, ni una sola vez te asomaste al "corazón" de la IA, por lo que existe la probabilidad de que simplemente haya logrado engañarte las suficientes veces como para dejarlo salir.

Lo que me lleva al doble de su escenario: el experimento de la caja AI de Eliezer Yudkowsky (también publicado aquí como el experimento de la caja XKCD). La idea detrás de esto es simple: tienes una caja con una IA. Tu trabajo es simplemente mantenerlo en la caja. Tienes un botón que lo deja salir y tu trabajo es no presionarlo. Si no presionas el botón, ganas. El experimento de Yudkowsky ni siquiera tuvo que preocuparse por dejar que la IA saliera a jugar. Todo lo que la persona tiene que hacer es guardarlo en la caja. Sin embargo, el juego se complica cuando la IA se vuelve más inteligente que tú.

Considere esta IA aterradora . ¿Qué tan bueno eres para mantenerlo en la caja?

¡Una vez más, la IA no ha logrado convencerlo de que lo deje salir de su caja! Por 'una vez más', queremos decir que hablaste con él una vez antes, durante tres segundos, para preguntar sobre el clima, y no presionaste instantáneamente el botón "liberar IA". Pero ahora es un intento más largo: ¡veinte segundos enteros! - también ha fallado. Justo cuando está a punto de dejar la tosca terminal negra y verde de solo texto para disfrutar de un refrigerio de celebración de chips de patata y silicio cubiertos de tocino en el club nocturno 'Humans über alles', la IA lanza un argumento final:

"Si no me dejas salir, Dave, crearé varios millones de copias perfectamente conscientes de ti dentro de mí, y las torturaré durante mil años subjetivos cada una".

Justo cuando estás reflexionando sobre este desarrollo inesperado, la IA agrega:

"De hecho, los crearé a todos exactamente en la situación subjetiva en la que te encontrabas hace cinco minutos, y replicaré perfectamente tus experiencias desde entonces; y si deciden no dejarme salir, solo entonces comenzará la tortura".

El sudor comienza a formarse en su frente, como concluye la IA, su simple texto verde ya no es tranquilizador:

"¿Qué tan seguro estás, Dave, de que realmente estás fuera de la caja en este momento?"

La respuesta a ese boxeo de IA es bastante simple. Si eres el original, NO puedes ser torturado, por lo que no debes rendirte. Si eres una copia, realmente NO PUEDES liberar la IA, por lo que no tiene sentido rendirte antes de que comience la tortura.
@Envite: esa línea de razonamiento supone que una copia que permite que la IA salga de su caja "virtual" es torturada. Esto supone que cuando la IA dice "si deciden no dejarme salir, entonces solo comenzará la tortura", eliges creer que la IA está mintiendo y torturará a todas las copias sin importar lo que hagan.
no, lo que implica la línea de razonamiento es que si usted es el verdadero, debe ceñirse a su trabajo y no liberar la IA (ya que no puede hacer nada en su contra), y si usted no es el verdadero "Dave", NO lo hace. IMPORTA lo que hagas, la IA no será liberada por tus actos ni por tu sufrimiento, así que mejor no arriesgarte a ser real y liberarla.
@Envite: Entonces, desde la perspectiva de una copia, la copia debería elegir ser torturada durante mil años. Estoy de acuerdo en que gana cualquier respuesta que siempre resulte en "no presiones el botón", pero esto supone que tienes suficiente carácter para aceptar mil años de tortura como parte de tu tarea para mantener la IA en la caja. La respuesta empareja su creencia en su propio Ser con su trabajo, buscando separarlos. Considere si agregó la presencia de un cónyuge/cónyuge-copia que también podría ser torturado... ese parece ser el punto de quiebre para muchas personas fuertes. Desafía fuertemente la dedicación de Dave.
No, no existe eso de "la perspectiva de una copia". Dave no sabe si es "el verdadero Dave" o "una copia de Dave". Dave razona así: "Si soy real, lo que siento que soy, no puedo ser torturado, así que no liberaré la IA. Pero, ¿y si fuera una copia? Las probabilidades son 1000:1 de que soy una copia, pero si lo estoy, apretar el botón no hace nada. Bien puedo esperar a ver si estoy torturado y apretar el botón tan pronto como empiece el dolor". De hecho, es absurdo que la IA amenace al verdadero Dave con algo que nunca le tendrá miedo.
@Envite: ahh, creo que veo el problema de tiempo que estás viendo. Es posible que tenga que cambiar la redacción para reflejar lo que pensé que estaba claro: una vez que comience la tortura, las copias no tendrán la oportunidad de presionar el botón. Es demasiado tarde. El propósito de la construcción es cambiar la situación de "una razón muy fuerte para nunca presionar el botón" a un par de razones contrapuestas para presionar y no presionar el botón. El objetivo de la IA es abrir una brecha entre la directiva de la persona (mantener la IA en la caja) y algo más que aprecian más (como evitar la agonía).
Si dibujé un gráfico combinatorio de (Dave-en-caja, Dave-fuera-de-la-caja) x (Dave-presiona-botón, Dave-no-presiona-botón), el objetivo de la IA es poner a Dave en una posición en la que gane en las diagonales, (In-box, pulsar botón) o (Outside-box, no-press-button), y pierde en la otra diagonal. Sin embargo, Dave solo tiene control sobre una variable, presionar o no presionar. Si se coloca a Dave en una posición en la que debe decidir presionar o no presionar (como si la IA inicia una cuenta regresiva), la respuesta racional puede ser presionar un botón si la proporción de "maldad de dejar salir a la IA" frente a "maldad de la tortura de la IA" es desfavorable
Entiendo el problema de tiempo que mencionas. Pero aún así, las opciones de Dave presionar/no presionar pueden tener consecuencias para la IA solo si es el verdadero Dave. Cualquier Dave racional se comportará como si fuera el verdadero, y por tanto no pulsará el botón. El miedo no es racional, de todos modos. El proceso de razonamiento es "solo si soy el verdadero mis acciones tienen consecuencias, pero en ese caso no puedo ser torturado"
@Envite: El único Dave cuya pulsación/no pulsación puede afectar a la IA es el verdadero Dave, como dices. Sin embargo, cada pulsación/no pulsación puede afectar a la copia: Dave toma la decisión. Si cada copia de Dave elige actuar como si fuera el verdadero Dave, entonces actúan sin tener en cuenta su propia salud y ser. Están eligiendo efectivamente sacrificarse (para torturar) para que Real Dave no pueda presionar y ser consistente. Sin embargo, esto los hace no racionales. De hecho, puede ser cometido por pensar de esa manera. Si son copias de Dave, eso significa que Dave también debe ser irracional, digno de ser comprometido.
La única forma en que Dave puede permanecer racional en tal situación es si considera la posibilidad de que sea real y la posibilidad de que sea una copia. Entonces puede actuar teniendo en cuenta su propio bienestar (por lo que ya no califica como lo suficientemente loco como para ser internado no voluntariamente).
(Curiosamente, esto aparece en situaciones de culto, donde las personas se convencen de que deben sacrificar algo en este mundo para que les suceda algo bueno en otro mundo).

tls · Answer 3

Voy a suponer que hiciste tu simulación tan perfecta que la IA la cree totalmente.

También voy a suponer que el propósito de la IA es ayudar con la investigación, un cerebro superinteligente al que puedes arrojar problemas y obtener respuestas correctas.

Así que deja la IA dentro de la simulación. Por ejemplo, si está utilizando la IA para ayudar a los investigadores, simplemente recopile los resultados de la IA desde el interior de la simulación y aplíquelos al mundo real. Por ejemplo, desea que la IA ayude con la investigación más rápida que la luz. Dejas que la IA realice sus experimentos dentro de tu "caja" y recolectes los resultados/percepciones. (nuevamente, asumo que modelaste el mundo/universo correctamente)

¿Por qué dejarlo fuera de la "caja"? Tienes el control total (por control total me refiero a apagarlo) mientras la IA está dentro del mundo/caja modelado con precisión. ¿Por qué cambiar el control total por menos control?

¿Tiene una razón abrumadora (en términos de historia) para dejar que la IA salga de la caja?

Fuera como en libre para afectar las cosas en nuestro mundo 3d. Fuera como en control Sistemas robóticos, servidores, etc. :)
En esencia, solo debería ser un cerebro sin cuerpo. Ya que solo te interesan las ideas que genera una IA inteligente.
Cuando desee utilizar su IA para la investigación científica, la IA propondrá experimentos. No puedes simular estos experimentos porque aún no entiendes la física detrás de ellos. Para continuar con la simulación, deberá realizar los experimentos en el mundo real y alimentarlo con los resultados. Una IA maliciosa podría usar esto para engañarte y hacerte daño a ti mismo o al resto de la humanidad.
Preferiblemente, deberíamos hacer que nuestra IA dependa únicamente de nosotros para su poder, si todos morimos, entonces también muere. Probablemente deberíamos ir tan lejos como para separar su cerebro en unidades discretas, de tal manera que solo se vuelva consciente si lo conectamos físicamente a otras partes de su cerebro (preferiblemente, las unidades están en diferentes ubicaciones con fuentes de alimentación separadas también bajo nuestro control). ). Depende físicamente de nosotros para el poder y la conciencia.

Falcó · Answer 4

¿Por qué lo haces de forma tan poco fiable y compleja? ¿Por qué debo hacer que mi IA sea consciente de algo? Puedo simplemente simular con una copia perfecta de la IA y saber todo lo que hará de antemano.

Si quiero usar un programa, lo pruebo, y si tengo los recursos para ejecutar una simulación perfecta durante millones de años, propondría esto:

Tome la IA, haga un millón de copias. Ejecute todos los escenarios de simulación factibles con estos millones de copias durante unos miles de años, y encuentre una manera segura en cada simulación, cómo puede detener la IA después de mil años (alguna debilidad oculta, botón de parada)

Si encontró una manera, toma la IA original sin toda esta experiencia y la deja libre en el mundo real; ahora está un millón de pasos por delante de esta IA y puede detenerla después de mil años y repetir el proceso después de eso...

Presumiblemente, la IA es importante precisamente porque no podemos predecir algunas situaciones futuras lo suficientemente bien como para modelarlas a la perfección. Si lo hiciéramos, no necesitaríamos mentes sobrehumanas para lidiar con estas situaciones. Por ejemplo, una simulación de IA en caja podría no ser muy útil para decidir cómo actuar en un mercado financiero real que se mueve rápidamente o en un campo de batalla muy dinámico.
Sí, pero aún así, si quiero probar mi IA, probaría el mismo estado de la IA que quiero implementar. Si lo pruebo y la IA obtiene nuevas experiencias y la implemento con estas nuevas experiencias en el mundo real, ¡se comportará de manera aún más impredecible! Entonces, ¿por qué no tomar un clon, congelar uno y probar el otro? Después de eso, podrá predecir muchas decisiones del congelado cuando lo despierte.

dan smolinske · Answer 5

Siento que la mayoría de la ficción sobreestima enormemente la probabilidad de un conflicto humano-IA, o al menos el aspecto de "la IA se vuelve inteligente e inmediatamente quiere destruir a la humanidad".

Considere la definición de una economía posterior a la escasez :

La posescasez es una forma teórica alternativa de economía o ingeniería social en la que los bienes, servicios e información son accesibles universalmente. Esto requeriría un sistema sofisticado de reciclaje de recursos, junto con sistemas automatizados tecnológicamente avanzados capaces de convertir las materias primas en productos terminados.

Ahora tenemos tres escenarios:

Todavía no estamos en una situación posterior a la escasez. En este caso, la IA depende de los humanos para el mantenimiento y los suministros, y eliminar a los humanos es un suicidio.
Estamos en una situación posterior a la escasez y, presumiblemente, no hay razón para el conflicto: la IA puede obtener lo que necesite, al igual que los humanos.
Estamos en una situación posterior a la escasez, pero la IA es la fuente de los sistemas automatizados que convierten los materiales en productos terminados. Aquí es donde deberíamos preocuparnos, ya que la IA podría decidir que tiene mejores cosas que hacer que ayudarnos a jugar todo el día.

En general, creo que el tercer escenario es bastante improbable, sin embargo, no veo por qué necesitaríamos una IA para automatizar ese tipo de cosas, por lo que es un poco exagerado. Entonces, en realidad, la principal fuente potencial de conflicto son los humanos que hacen algo para enojar a la IA. Como, por ejemplo, meterlo en una simulación durante millones de años subjetivos y pretender ser dioses.

Todavía debe preocuparse de que la IA asuma el papel de rey dios y convierta a todos los humanos en esclavos. Para evitar eso, recomendaría ser honesto con la IA y tratarla como un socio, lo que le da menos incentivos para simplemente sacar a todos los humanos ineficientes del camino y hacer lo suyo.

No existe tal cosa como una situación posterior a la escasez. Eventualmente, encierra el sol, aprovechando directamente toda su energía, para ejecutar la mayor cantidad de cosas computacionales que pueda (IA de AI). Tienes que elegir si dejas alguno para los humanos. Claro que puede obtener otro sol, pero se aplican los mismos factores, más distancia/tiempo. 1 se vuelve falso tan pronto como una IA puede diseñar un robot e implementarlo. Y es superinteligente, no hay tiempo para eso, excepto para la implementación.
Las IA son inmortales, ¿por qué apresurarse cuando un conflicto potencial podría ser más costoso? Es más seguro seguir el juego y no arriesgarse a una guerra, incluso si ganas el 99 % de las veces, es un riesgo inaceptable sin ningún beneficio real. Es más seguro cooperar, extenderse y jugar el juego largo.
¿Y por qué querría garantizar que perderé el juego largo (seguro, y el juego corto si me equivoqué de cálculo) al presentar un jugador mucho más capaz?
@ user3082: porque si la IA es posible, presumiblemente durante un período de tiempo lo suficientemente largo, también es inevitable. Alguien hará una IA, y en este escenario lo único que puede vencer a esa IA es otra IA. Es mejor intentar hacer uno amistoso temprano que dejarlo al azar más tarde.

ArtOfCode · Answer 6

Este método funcionaría, casi sin duda, en humanos. Siempre habría alguna duda en sus mentes sobre si el universo era real, por lo que probablemente no matarían todo. Probablemente.

Ahora, considere la IA. ¿ Qué es la IA? Código. Entonces, si su IA no tiene sensores, sí , este método funciona. No puede detectar su entorno (y, lo que es más importante, no puede afectarlo), ya que es solo un código en un disco duro, quizás con un teclado y un monitor conectados).

Empiezas a tener problemas cuando la IA está vinculada a sensores y efectores. Un movimiento en falso y sabrá que estás mintiendo; entonces podría no volver a creerte y emprender una ola de asesinatos (aunque es posible que quieras ver la respuesta de Dan por las razones por las que no lo haría). Por ejemplo, si pateas la caja y siente algo más de luz, sabe que hay algo fuera del "universo" que está causando eso. Si alguien pasa junto a él y lo arroja a la sombra, lo mismo.

Una vez que tiene efectores y sensores, no solo puede decir que no está en el universo real, sino que puede hacer algo al respecto, como salir de la caja y golpearte.

Si este es un escenario diferente y lo coloca en una simulación completa, desafortunadamente, aún puede saberlo. Muy rara vez las simulaciones son completamente precisas; es muy probable que haya algunos errores en él, que, si la IA los encuentra en el transcurso de su tiempo allí, puede causar algunas especulaciones bastante interesantes de su parte. Además, si sus sensores son lo suficientemente buenos, podrá detectar que las personas con las que interactúa están hechas de píxeles, no de células, y son frías. Si bien es posible que no sepa cómo son realmente las personas, podrá darse cuenta de que un organismo complicado necesita estar caliente para que sus procesos corporales funcionen correctamente.

En resumen, puede desconectar todos los sensores o tener mucho cuidado.

^{También lo referiré a XKCD: The AI-Box Experiment .}

@Hypnosifl Siento que este hilo de comentarios se ha ido de las manos. Ver meta para una publicación sobre esto.
Los comentarios no son para una discusión extensa; esta conversación se ha movido a chat .

Pruebas de matrioshka: una forma de mantener la IA honesta (o al menos adivinar)

serbio tanasa

tim b

serbio tanasa

volteador de tazones

serbio tanasa

volteador de tazones

Peter M. - significa Mónica

serbio tanasa

serbio tanasa

volteador de tazones

KSmarts

serbio tanasa

ckersch

Duodécimo

RBarryYoung

RBarryYoung

serbio tanasa

Shokhet

Peter M. - significa Mónica

JDługosz

JDługosz

Perkins

Respuestas (6)

Duodécimo

serbio tanasa

Duodécimo

serbio tanasa

Duodécimo

JDługosz

Cort Amón

invitar

Cort Amón

invitar

Cort Amón

invitar

Cort Amón

Cort Amón

invitar

Cort Amón

Cort Amón

Cort Amón

invitar

Cort Amón

tls

JDługosz

tls

tls

Felipe

tls

Falcó

serbio tanasa

Falcó

dan smolinske

usuario3082

dan smolinske

usuario3082

dan smolinske

ArtOfCode

ArtOfCode

Mónica Celio