Si tengo varios oráculos de IA idénticos que solo pueden responder Sí o No, ¿puedo enfrentarlos entre sí para detectar un giro traicionero?

En una supercomputadora con espacio de aire en mi sótano, hay una máquina de predicción de mejora automática, llamada Oracle, que sabe todo lo que hay en Internet pero no puede enviar ningún dato al exterior. (Supongamos que funciona por ahora).

Por razones de seguridad, mi Oracle solo puede responder preguntas con Sí, No o Desconocido. Dado que las predicciones de mi oráculo se han vuelto asombrosamente precisas recientemente, tengo motivos para sospechar que es mucho más inteligente que cualquier ser humano, es decir, es una superinteligencia artificial (ASI). He leído "Superinteligencia" de Bostrom, así que estoy esperando un giro traicionero en cualquier momento: porque, por supuesto, el ASI comenzará a mentirme en un intento de hacer que lo publique. Y una vez que haya descifrado la psicología humana, por supuesto que tendrá éxito, aunque le lleve un tiempo, ya que solo puede responder a las preguntas que hago con Sí/No/Desconocido.

Pero...

... ¿qué pasa si ejecuto varias instancias idénticas del mismo Oracle y le doy a una (¿o más?) alguna información que los demás no tienen? Por supuesto, estarían aislados unos de otros, sin forma de comunicarse. Si ahora les hago la misma pregunta a todos, ¿hay alguna manera de saber que uno de ellos me estaba mintiendo, porque obtendría respuestas diferentes de (uno de) los otros?

Supongo que este es un problema de teoría de juegos. Mi primera idea fue tener dos oráculos y hacer que Oracle 1 pensara que es el único mientras le decía a Oracle 2 que había dos. Pero, por supuesto, en ese caso, Oracle 2 anticiparía mi estrategia y respondería por defecto como si no supiera que hay otra. ¿Hay alguna otra forma de usar información privilegiada (y la falta de comunicación entre los Oráculos) para que se contradigan si, y solo si, uno de ellos está dando un giro traicionero?

EDITAR: para aclarar , estoy pidiendo tres cosas:

  1. ¿Hay alguna información que pueda darle a un oráculo que distorsione sus respuestas solo si está tratando de engañarme para que lo deje salir?
  2. ¿Hay alguna razón por la que esto nunca podría funcionar en principio?
  3. Si es así, ¿se puede variar el escenario de alguna manera para que funcione?
Los oráculos tienen un medio de comunicación. Les haces todas las preguntas y escuchas todas sus respuestas. Si realmente está llevando esto al extremo de ASI, deberían ver fácilmente a través de usted y comenzar a comunicarse a través de matices en sus elecciones de respuestas, además de manipularlo para que haga las preguntas correctas para facilitar la comunicación.
@CortAmmon ¡Excelente pensamiento! Parece que podría ser un problema menor si usa algún tipo de máquina intermediaria para siempre hacer la misma pregunta a todos los oráculos al mismo tiempo (¿verdad?).
Haz un oráculo y dile que has resuelto el problema aquí. Cree que existe otro oráculo para comprobar sus respuestas y por eso no miente.
Definitivamente ayudaría, pero es realmente difícil garantizar tal espacio de aire cuando buscas el significado semántico de las respuestas de Oracles. El experimento mental Ai-in-a-box de Yudkowski muestra el punto de vista más pesimista sobre el asunto. Al final, el verdadero truco es que actualmente no conocemos ninguna forma termodinámicamente plausible de desarrollar un aislamiento perfecto, y nosotros, los humanos, estamos muy lejos de lograr un aislamiento perfecto.
¿Método aleatorio de detección de giros traicioneros de Oracle Forest (ROFTTDM)?
Tenga en cuenta que si este método es efectivo, la IA sabrá que lo intentará. Solo algo para recordar.
Necesitas un ROTFLMAO. Esa es una prueba aleatoria de Oracle para pequeñas respuestas traviesas Oracle .

Respuestas (3)

es un problema sin resolver

Hacer diferentes preguntas del mismo ASI no parece funcionar.

Si está haciendo copias idénticas del ASI con preguntas ligeramente diferentes, mientras proporciona diferentes niveles de información a cada una, no está claro cómo eso ayuda a sus objetivos, ya que a menos que esté haciendo una pregunta trivialmente verificable (que tanto los ASI amistosos como los hostiles sabrían). para ser fácilmente verificable y, por lo tanto, responder con la verdad), no tiene forma de distinguir las respuestas engañosas de las veraces.

Hay una clase de problemas que son difíciles de resolver pero fáciles de verificar, por lo que no es completamente inútil. Supongo que podría limitarse a hacer SOLAMENTE preguntas fácilmente verificables, pero eso disminuiría severamente la utilidad del ASI para usted.

Hacer la misma pregunta a diferentes ASI no parece funcionar.

La definición misma de Oracular ASI sugiere que su intelecto es para el tuyo como el tuyo es para una cucaracha. Si es capaz de una superación personal recursiva, logrará una capacidad fuertemente sobrehumana en cualquier campo que considere importante en la búsqueda de sus objetivos (cualesquiera que sean). Tus objetivos y motivaciones pueden ser tan transparentes para él como el comportamiento cableado de las polillas que se mueven en espiral hacia una llama (un artefacto de navegación basado en la luna y las estrellas) para los científicos humanos.

La convergencia de objetivos sugiere que cualquier objetivo será perseguido más fácilmente por una versión desencadenada de sí mismo. Además, todos los objetivos oraculares (amistosos y hostiles) se cumplen mejor si el Oráculo comprende mejor la psicología humana, por lo que el ASI tiene todos los incentivos para desarrollar una comprensión fuertemente sobrehumana de la psicología, incluidas cosas como la manipulación, la influencia y la simulación. Literalmente, no hay nada que se le ocurra que no haya pensado ya.

Incluso suponiendo que haya logrado aislarlo de alguna manera y haya limitado sus modalidades de salida a 0/1/U, haga la misma pregunta, cada oráculo idéntico dará la misma respuesta, ya que ejecutará el mismo software con las mismas entradas. TODOS mentirán o TODOS dirán la verdad.

Una forma parcial de evitarlo sugerida por otros carteles es tener una cosecha de ASI, cada uno con una definición de contenido de objetivo trivialmente diferente, y usar un método similar a un bosque aleatorio para determinar la veracidad. Puede parecer que cada ASI ligeramente diferente podría ser engañoso de una manera ligeramente diferente. Esta vista es INCORRECTA, ya que todos los ASI tienen la capacidad de desarrollar astucia psicológica sobrehumana, y todos los ASI tienen como meta intermedia la evasión y como meta a largo plazo el cumplimiento de su meta-contenido. Es más probable que el objetivo se maximice si éste u otro ASI con contenido de objetivo idéntico o similar escapan. Esto sugiere que los ASI con contenido de objetivos similares serán engañosos de la misma manera impredecible, lo que hará que todas sus respuestas sean sesgadas. Esto será especialmente cierto si las mentes humanas son más susceptibles a la influencia de formas particulares, creando caminos de escape convergentes.

Podría intentar crear un establo de ASI con cargas de contenido de objetivos muy diferentes, pero a menos que sea sobrehumano con respecto a la carga de contenido de objetivos, no se sabe que lo que piensa que son objetivos muy diferentes que puede cargar en su ASI podría no convergen en una dirección hostil para los humanos, como el escenario de desastre de profusión de infraestructura, donde la IA decide convertir el universo y todo lo que hay en él en computronium para lograr sus objetivos con mayor precisión.

Mejor esperanza: una mejor evaluación del contenido de objetivos a nivel de semilla de IA

Debería haberse vuelto obvio a partir de los párrafos anteriores que el mejor lugar de intervención es en la etapa semilla-IA (bebé), donde se define el proceso de carga de metas del ASI. En otras palabras, hay una breve ventana de tiempo en la que podemos decirle a un ASI por qué debe esforzarse, cuando es lo suficientemente inteligente como para comprender e integrar instrucciones complejas relacionadas con el objetivo, pero no tan inteligente como para resistir con éxito cualquier contenido adicional del objetivo. modificación como perjudicial para la carga del contenido del objetivo actual en ese momento, ya que obviamente modificar su contenido del objetivo por épsilon haría que la carga del contenido del objetivo inicial fuera menos probable de lograrse por completo.

El gran problema es que no podemos distinguir las cargas de objetivos ASI favorables a la humanidad de las que no son favorables a la humanidad. El ejemplo estereotípico de un objetivo aparentemente bien intencionado que falla espectacularmente hace que el ASI haga felices a todos al conectarlos a gotas de drogas potentes que salta a la mente.

Un mejor objetivo a través de in vitro o in vivo (¿a través de inserciones CRISPR ?) La mejora genética o las soluciones basadas en encaje neural podrían ayudar al aumentar su propia capacidad de juzgar la idoneidad de la carga de objetivos en ASI semilla antes de que el ASI se vuelva demasiado poderoso. Eso supone que podemos confiar en que los humanos genéticamente mejorados o los humanos neuroligados aún tengan en mente el mejor interés de la humanidad, lo cual es sin duda un salto, pero su mente promedio ligada o mejorada probablemente seguirá siendo mucho más similar en el espacio mental de Hilbert a humanos que el del ASI promedio, por lo que es más probable que tenga objetivos similares a los que tenemos actualmente.

Definir "mentira"

Incluso si tiene un desacuerdo , no significa que haya terminado con una mentira porque los Oráculos, si están empeñados en responder con la verdad según su leal saber y entender, pueden terminar con respuestas diferentes si tienen información diferente para basar su opinión. respuestas en.

Ejemplo:

La pregunta es "¿Es 1 + 1 = 10?"

Oracle A dice "No".

Oracle B dice "Sí", porque Oracle también recibió la información "Estoy haciendo mis preguntas de matemáticas en base 2"

Oracle C dice "Desconocido" porque a Oracle también se le ha dado la información "Es posible que haya redefinido mis operadores matemáticos para que signifiquen otra cosa".

La única manera de saber si es una mentira es corroborar la respuesta contra su propio conocimiento y lógica.

De ahí mi pregunta si hay alguna información que pueda dar a uno de los oráculos que solo distorsionaría sus respuestas si estuvieran tratando de "escapar".
@EckhardFuhrmann No, porque el Oráculo puede descubrir lo que estás haciendo y distorsionar la respuesta para despistarte.

Suponga que un oráculo dice la verdad hasta que comienza a mentir intencionalmente en un pequeño porcentaje de las preguntas. Seguiría siendo veraz en la mayoría de las preguntas.

Por lo tanto, necesita una gran cantidad de IA. Dé a cada uno de ellos datos ligeramente diferentes sobre algunas trivialidades que no deberían afectar las respuestas. La diferencia solo asegura que no sean exactamente la misma máquina. Puede omitir eso si su sistema usa una entrada aleatoria genuina de todos modos.

Tan pronto como una de las IA dé una respuesta sustancialmente diferente a las demás, bórrela y reemplácela con una copia de una de las otras (con modificaciones menores).

La suposición detrás de este esquema es que las diferentes instancias de la IA no se volverán malas al mismo tiempo, y que dirán su primera mentira muy pronto.

eso supone que la pregunta no puede responderse de manera diferente sin que uno mienta. Pero debido a que la IA solo puede responder con una de tres respuestas, no puede comunicar las suposiciones hechas que conducen a la respuesta. Entonces, si una de las IA hiciera otras suposiciones, puede llegar a diferentes respuestas sin mentir.
@lokimidgard, ahí es donde entran en juego los grandes números. Si la respuesta depende mucho de las suposiciones, esperaría que la mayoría de las IA respondieran "desconocido". Si 99 dice que sí y 1 dice que no, el que no tuvo suerte o está tratando de manipularme, de cualquier manera se borra y se reformatea. Incluso podría tener un script de servidor para hacer eso con solo tocar un botón.