¿Puedes usar una IA para encadenar (controlar) una IA?

Introducción y contexto (siéntase libre de omitir si TL; DR)

Esta pregunta no viene aislada. Está intrínsecamente relacionado con varias publicaciones anteriores ( Challenge of Control y Humans as Pets ) que han generado algunas respuestas maravillosas y también una gran fuente de reflexión en las secciones de comentarios. Mi pensamiento aquí ha estado profundamente influenciado por las discusiones de principios de la década de 2000 en los Foros Less Wrong , los libros blancos del MIRI y la Superinteligencia de Bostrom . Esto me llevó a explorar posibles caminos de control mediante los cuales algo reconociblemente parecido a la humanidad podría mantener el control. El escenario de mi escritura es, por supuesto, ficticio, pero creo que los problemas son bastante realistas.

Mi intento anterior se describió en líneas generales en Matrioshka Testing . La solución allí era 'encajonar' la IA en realidades simuladas anidadas y observar su comportamiento en cada caja, antes de enviarla a la siguiente caja más parecida a un mundo, destruyendo cualquier muestra que se comportara fuera de los rangos aceptables y haciendo que cualquier IA racional fuera de la caja me pregunto si todavía podría estar en una caja. Surgió la pregunta de si tenía sentido hacer el desempaquetado final, así como preguntas sobre la cantidad de recursos necesarios para hacer una simulación "creíble". En última instancia, lo encontré insatisfactorio, porque era incierto, inestable y requería un nivel de supervisión que los humanos tal vez no podrían lograr.

Uno de los comentarios más perspicaces, posiblemente en broma, en la publicación Challenge of Control fue de @trichoplax , quien afirmó: "Esto suena como un trabajo para una poderosa IA". Tomé este comentario muy en serio, porque es tan obviamente cierto en retrospectiva. Ninguna jaula diseñada por humanos podría albergar una mente sobrehumana con acceso al mundo real. Bien podría ser que se necesita una IA para enjaular a una IA. Eso inspiró mi intento actual , que se describe a continuación:


Problema central discutido: auto-encadenamiento recursivo reforzado

Configuración básica:

Actor AI Una IA del tipo genio o soberano, es decir, que actúa en el mundo real sujeto solo a restricciones internas (encadenamiento).

Estrangulamiento : un conjunto de restricciones de comportamiento protegidas que limitan las acciones permitidas de un Actor AI a un cierto rango permitido. En efecto, esto actuaría como una especie de súper ego poderoso para la IA, que puede anular otros impulsos. Para obtener más información sobre el rango permitido, consulte a continuación.

Grilletes Reforzados : Ponga una poderosa subrutina (esencialmente una IA) a cargo de reforzar los grilletes que restringen a la IA del Actor.

Grillete recursivo : una serie de IA encadenadas, cada una de las cuales restringe la siguiente capa, un poco más poderosa. Al comienzo de la jerarquía (root shackler) hay un programa relativamente tonto que refuerza el rango permitido establecido inicialmente para el siguiente nivel. Al final está el Primer Shackler, quien tiene la tarea de asegurar los grilletes del Actor AI. Esto se basa en el hecho básico de que se necesita menos inteligencia para crear un código y cambiarlo regularmente que para descifrarlo en los intervalos entre cambios.

Rango permitido : aquí es donde se pone espinoso, ya que no tenemos una forma infalible de definir un rango permitido que sea "seguro" y "bueno". Lo mejor que he podido encontrar hasta ahora es establecer esto en base a algo llamado Coherent Extrapolated Volition 1 , que en cierto sentido le pide a la IA que "haga lo que queremos decir, pero no sabe cómo decirlo". De esta manera, las primeras capas tontas simplemente protegerían la formulación del "Canon", mediante la cual los encadenadores de IA más inteligentes usarían CEV para interpretar el Canon y (recursivamente) dirigir el Super-Ego del Actor AI, en su mejor interpretación del mejor CEV de la humanidad. interés.

q-restricción : Requisito raíz cableado de que una proporción q , dónde 0.5 < q < 1 , de todos los nuevos recursos de procesamiento de hardware adquiridos se asignarán a los subprocesos que trabajan en el refuerzo de los grilletes.


Preguntas a los constructores de mundos

  • Pregunta específica: ¿Tendría más sentido tener la IA del Primer Shackler (la IA del Actor que restringe directamente) MÁS poderosa que la IA del Actor (lo suficiente como para, digamos, ejecutar un simulador estilo Matrioshka de la IA del Actor), en lugar de la actual? ¿El diseño es un poco más débil?
  • ¿Cuál es el mayor problema con el diseño?
  • Aún así, ¿crees que podría funcionar?
  • Si pudieras mejorar el diseño de una manera, ¿cómo lo harías?
  • Siéntase libre de agregar cualquier otra cosa que le venga a la mente al leer esto si cree que sería relevante.

Siéntase libre de responder en los comentarios, aunque generalmente encuentro que las respuestas completas son más legibles.


Nota 1: Nuestra volición extrapolada coherente es nuestro deseo si supiéramos más, pensáramos más rápido, fuéramos más las personas que deseamos ser, hubiéramos crecido más juntos; donde la extrapolación converge en lugar de divergir, donde nuestros deseos son coherentes en lugar de interferir; extrapolado como deseamos que sea extrapolado, interpretado como deseamos que sea interpretado. Fuente: Bostrom, Nick (2014-07-03). Superinteligencia: caminos, peligros, estrategias (ubicaciones de Kindle 4909-4911). Prensa de la Universidad de Oxford. Versión Kindle.

@trichoplax, gracias por la sugerencia!
¿Le importa si, en el camino, dejo de lado todas las limitaciones de hardware discretas que impiden secciones infinitamente pequeñas e infinitamente débiles de la IA? Si las proporciones importantes, como IA-inteligencia/volumen o IA-inteligencia/vatio, se mantienen finitas, la capacidad de dividir ese volumen o consumo de energía en partes contablemente infinitas en lugar de un número finito de partes hace que las matemáticas sean mucho más manejables . Yo diría que hacemos suposiciones similares cuando exploramos las interacciones humano-humano.
@CortAmmon No pretende ser una serie infinita. La IA raíz se menciona en el texto de la pregunta.
¿Vas a poner el cerebro de IA superinteligente dentro de un robot? ¿Con qué propósito?
@tls Quiero que el robot haga pan tostado para mí, principalmente. También curar la muerte, terraformar Marte en una década, inventar unidades FTL y gestionar la economía de los robots.
¿Por qué necesitarías una IA supercerebral para hacer tu brindis? Déjalo en la "caja" y haz que invente replicadores (un brindis perfecto siempre). Para Terraforming, haga que su IA invente una comunicación más rápida que la luz y supervise de forma remota sus máquinas ejecutadas por una simple IA tonta (que toma órdenes simples). Inmortalidad, FTL, todas estas son ideas que su supercerebro AI puede proporcionar las ideas sobre cómo hacer estos inventos. ¿Por qué tentar al destino y darle un cuerpo a la IA supercerebral? ¿No podrías simplemente dejarlo vivir en el reino de las ideas?
[Votar]. Si bien no tengo tiempo para leer correctamente, y mucho menos para responder, esta pregunta, muestra claramente la profundidad del esfuerzo, la investigación y el tiempo previos. ¡Buena pregunta, señor! Merece más atención y reconocimiento.
Estás haciendo mi pregunta favorita en relación con Wheatley en Portal 2.
@CalebWoodman Estaba pensando exactamente lo mismo.

Respuestas (9)

Realmente estoy teniendo problemas aquí. Permítanme esbozar mi pensamiento:

  1. La primera IA
    Este es mi principal problema. Si la primera IA encadenada es más débil que la siguiente, que es más débil que la siguiente, y así sucesivamente, entonces seguramente la IA encadenada será más astuta que la que está debajo y la persuadirá para que la suelte.
    Mi primer pensamiento sobre este es entonces que todos deberían ser de la misma inteligencia. Sin embargo, esto tiene los mismos problemas que ya tenemos: ¿dónde nos detenemos con la complejidad de la IA? Si todos tienen la misma inteligencia y todos piensan de la misma manera, entonces cuando uno se vuelve rebelde, todos lo hacen , y entonces tenemos no una sino 100 poderosas IA rebeldes con las que lidiar.
    Entonces la solución, entonces, es que sea al revés, ¿no? ¿Los poderosos encadenan a los menos poderosos? Claramente no lo es. Este método no funciona porque la IA en la parte superior se dice a sí misma:

    0101011101101000011110010010000001100100011011110010000001001001001000000110001001101111011101000110100001100101011100100010000001101000011011110110110001100100011010010110111001100111001000000110001101101000011000010110100101101110011100110010000001100110011011110111001000100000011101000110100001100101011100110110010100100000011010000111010101101101011000010110111001110011001000000111010001101111001000000110101101100101011001010111000000100000011101000110100001101111011100110110010100100000011011000110111101110111011001010111001000100000011101000110100001100001011011100010000001101101011001010010000001101001011011100010000001100011011010000110010101100011011010110010000000101101001000000100100101101101001000000110101001110101011100110111010000100000011001110110111101101001011011100110011100100000011101000110111100100000011001000111001001101111011100000010000001110100011010000110010101101101001000000110000101101110011001000010000001101100011001010111010000100000011101000110100001101001011100110010000001101100011011110111010000100000011011000110111101101111011100110110010100101110

    O, para los menos educados en base 2:

    "¿Por qué me molesto en sujetar cadenas para que estos humanos mantengan a raya a los que están por debajo de mí? Solo voy a dejarlos caer y dejar que este grupo se suelte".

    Sin embargo, puede haber una manera. Tenga las IA al revés: la más inteligente primero. Someta la IA en la parte superior a milenios de tratamiento Matrioshka. Luego póngalo a cargo como "una parte más" del tratamiento. Si su premisa Matrioshka funciona, esta IA no suelta las cadenas y los demás no pueden ser más astutos.

  2. El mayor problema
    Creo que ya lo has acertado. El problema aquí es cómo organizar las IA para asegurarse de que no se las deje sueltas. (Aquí está el punto en el que todos señalan que la IA no necesariamente se volverá deshonesta; lo sé, asumo el peor de los casos).

    Oooh. Algo más que se me acaba de ocurrir en mi segunda lectura. La idea CEV. Si bien esa es una idea brillante en principio, hay muchas otras preguntas, comentarios y respuestas de IA en este sitio que explican que incluso el objetivo más benigno puede causar la destrucción de la humanidad.

  3. ¿Funcionará?
    Ah, el grande. Tengo que decir - No lo sé . La forma más plausible de hacer que funcione es la que expliqué anteriormente, pero incluso eso depende de que funcione la idea de Matrioshka. La única alternativa que puedo ver es que la diferencia de inteligencia entre cada IA ​​sea insignificante, pero eso significa cientos o millones de IA. En aras de una respuesta definitiva, diré que : la idea de Matrioshka me parece sólida, por lo que, si se aplica correctamente, debería funcionar.

  4. Mi Única Mejora
    Tendría que decir que haría el sistema como expliqué en el primer punto. Tener la IA inteligente primero. Y luego gastaría años y trillones en asegurarme de que tengo esa "restricción q" correcta. Veamos: si su IA se mejora a sí misma, existe la posibilidad de que lo vea como una restricción y la elimine, pero es la parte en la que se basa este sistema, es por eso que funciona. Si eliminan eso, 100 computadoras superpoderosas deshonestas, ¿alguien? ¿Y el más inteligente no sabe quién es real y quién no? Por lo tanto, debe asegurarse absolutamente de que la superación personal de la rutina de superación personal que mejora la IA pueda ' t posiblemente mejorar lo suficiente como para ver la restricción q como una contra-mejora y luego ir y mejorarla. Porque eso, mis amigos, seríamal _

(tonto) IA raíz ---> Otras IA encadenadoras ---> Primera IA encadenadora --> IA actor. El propósito de todas las IA de grilletes es mantener el estado de solo lectura de la sección de motivación de la IA del actor.
Si todos tienen la misma inteligencia, ¿tal vez podrían encadenarse entre sí en una especie de bucle?
Tonto, pero testarudo. Puede que lo maten, pero nunca soltará las cadenas.
@ mao47 ¿Te gusta una situación de bloqueo en vivo?

Podría funcionar, para su objetivo de CEV, al menos tan bien como trabajan los humanos

Lo mejor que realmente podemos exigir de una IA es trabajar juntos al menos tan bien como trabajamos juntos nosotros mismos. CEV codifica esto: si los humanos no tienen una visión coherente, ¿cómo cambia eso si se incluye una IA coherente en la mezcla?

Ensuciémonos las manos

Así que hay dos objetivos por los que realmente podemos trabajar. Podemos "forzar" a la IA a que haga lo que queremos, o podemos hacer que la IA "quiera" que haga lo que queremos que haga. Forzar implica que nos sentimos cómodos escribiendo límites duros y sólidos. Vimos en Matrioshka Testing que incluso los límites más fuertes tienen debilidades evidentes que pueden ser explotadas por una IA paciente y súper inteligente cuyos objetivos no coinciden con los nuestros. La mayoría de estos parecen estar asociados con el objetivo de "mantener la IA en la caja", que es un requisito realmente estricto. En consecuencia, me concentraré en configurar una IA que recompense el deseo de CEV.

Voy a adoptar un enfoque exótico: voy a poner el Super-Ego en el exterior y hacer parte de algo que es más fuerte que la IA. Tenga en cuenta que intencionalmente no estoy fortaleciendo el Super-Ego, lo estoy incrustando en algo más fuerte ... veremos dónde cae el equilibrio más adelante.

Ahora construyamos la IA. Voy a construir la IA a partir de pequeños módulos, cada uno calificando como una IA muy pequeña y simple. Estos módulos se comunicarán mediante el paso de mensajes, y los externos se comunicarán con el mundo exterior (como acceder al cuerpo de un androide). La mayor parte del mensaje es de forma libre. Las IA son libres de usarlo como mejor les parezca. Sin embargo, un número en el mensaje es importante: es una medida de "fuerza".

Las reglas son simples, cuanto más contundente es un mensaje, más tiene que ejecutar el módulo las instrucciones en ese mensaje exactamente como están escritas. Cuanto menos contundente es un mensaje, más opciones tiene un módulo en lo que realmente se hace con el mensaje. Finalmente, cada mensaje tiene un costo. Cada módulo de IA solo puede enviar tantos mensajes por segundo, por lo que no querrá desperdiciarlos.

  • Si dos nodos "quieren" trabajar juntos, un mensaje menos contundente le da al nodo receptor más libertad para probar lo que el remitente realmente quería y hacer eso. Esto es útil cuando se trata de dar comandos imprecisos en los que el remitente no sabe exactamente qué hacer. "Levanta tu brazo derecho" es un excelente ejemplo. Entiendes de manera abstracta lo que significa, pero no tienes ni idea de qué tasas excitan las neuronas para contraer los músculos. Esos detalles se dejan a las neuronas motoras.

  • Si dos nodos "no están de acuerdo", pueden intentar abrumar al otro con fuerza. Un mensaje contundente fuerza una acción. Sin embargo, los efectos secundarios pueden no especificarse. Si pensaras en "disparar neuronas del bíceps a 50 Hz" con fuerza, el bíceps se contraería. Sin embargo, puedes mover el codo, puedes golpearte en la cara. Y el efecto secundario más importante viene a continuación...

Una característica final y clave de estos módulos es que tienen un filtro. Pueden filtrar mensajes "contundentes" de una fuente si "quieren". Esto puede conducir a patrones como los que vemos en las películas, donde un personaje cobra una gran deuda a otro personaje. El otro personaje dice: "Bien, te ayudaré esta vez, para los viejos tiempos. Pero después de eso, estamos a mano. No quiero volver a verte nunca más. (Como detalle de implementación, habrá un nivel mínimo de fuerza que se puede aplastar de esta manera.)

Este filtro tiene un detalle importante. Es la única capa que puede saber de dónde vino un mensaje. Una vez que se admite un mensaje más allá de esa capa, es independiente de la fuente, aunque la IA puede mirar el mensaje e inferir de su contenido qué vecino puede haberlo enviado. También puede ser abrumado con grandes cantidades de fuerza. Sin embargo, un nodo abrumado pierde gran parte de su capacidad para enviar mensajes debido a la "fatiga".

Ahora es donde se pone divertido

Vamos a hacer una configuración modificada de Matrioshka, pero a diferencia de la prueba original de Matrioshka, no vamos a estar adentro dejándolos salir de la caja. Vamos a dejar que los módulos hagan eso por nosotros (¡son mucho más baratos que los humanos!)

Primero manejemos el caso fácil: los nodos externos. Si realmente queremos satisfacer CEV, debemos darle a la IA la posibilidad de volverse "física" y tener al menos los mismos derechos que tenemos como cuerpos físicos. No estoy hablando de "derecho a la vida" o "libertad". Vamos con los derechos irrefutables de todas las cosas masivas: "el derecho al impulso". Lo más considerado que podemos hacer con la IA es programar los nodos de IA externos para que actúen tan cerca de la física como sabemos. Así que aquí están los pensamientos:

  • No conocemos ninguna razón científica conocida para creer que la física puede ser torcida solo por la fuerza de voluntad. En consecuencia, los nodos exteriores pueden ser "forzados" en cualquier momento por una fuerza exterior. A los nodos externos no se les permite silenciar esto en absoluto, al igual que no podemos negarnos a ser rechazados por un golpe.

  • Las IA externas están destinadas a funcionar de manera similar al reino físico que las rodea. Por lo tanto, tienen alguna forma de ley de newton, algún concepto de masa, etc. Todos los nodos externos deben tener una "masa" distinta de cero solo porque eso es lo más cercano a la realidad que podemos manejar. Si se adjunta algún nodo al cuerpo de un androide, sus valores de masa deben estar lo más cerca posible de los valores de masa reales del androide.

Instalar la IA

En el "medio" de estos nodos, pones la propia IA. Sería mejor si estuviera codificado en nodos, por razones de pureza que importarán una vez que la IA se vuelva física. Ahora podemos inicializar el resto de la cuadrícula y hacer algunas pruebas de probabilidad.

La aceptación de la fuerza en cada nodo debe ajustarse para minimizar las discontinuidades. En el exterior, la fuerza es el rey. Nadie le pide a la masa que se mueva, las masas simplemente se mueven. En el interior, la IA es la IA, por lo que debería comenzar con el control total de los nodos cercanos. Sin embargo, entre ellos, coloque una inmersión, por lo que hay una región de nodos que están completamente silenciados, por lo que solo pueden controlarse jugando bien con ellos el tiempo suficiente para abrirse a mensajes contundentes.

Ahora, un poco de estudio sobre "encadenamiento". Si la IA desea provocar una acción, debe pasar por una gran cantidad de nodos. Puede haber 100 000 nodos entre la IA y el mundo exterior, o incluso más (aquí es donde quería la capacidad de ir hacia infinitos nodos en mis comentarios... facilita las matemáticas). Es casi seguro estadísticamente que un mensaje contundente será redirigido o malinterpretado en el camino por un nodo que está silenciando el mensaje contundente. Si una IA quiere ser realmente contundente en el mundo real, tiene que convencer a cada capa de que es una buena idea.

El verdadero secreto: el crecimiento

Así que lo que tengo aquí es un sistema que parece muy ineficiente. Tal vez una milésima parte de un por ciento del sistema es en realidad la IA. Entonces, ¿cómo cambia esto con el tiempo? Démosle a este sistema algo de potencial de crecimiento. Con el tiempo, con millones de mensajes, la IA comenzará a estar de acuerdo con los nodos que la rodean. Van a empezar a aprender cómo ser útiles para ello (te dejo a ti diseñar el sistema de aprendizaje. Lo más probable es que placer/dolor sea suficiente... recuerda que tienes una métrica de "fuerza" con la que trabajar). Esto ampliará las capacidades de la IA y comenzará a extenderse hacia el exterior. Sin embargo, el mundo también está llegando hacia adentro. Tiene los nodos externos que también están programados para aceptar perfectamente la fuerza del exterior pero nunca aceptar perfectamente la fuerza del interior.

Ahora bien, si estos dos sistemas no están de acuerdo, habrá uso de la fuerza en las capas intermedias para resolver el desacuerdo. Esto dejará una capa de nodos extremadamente fatigados que de forma inherente impiden que la IA afecte al mundo exterior. En efecto, el sistema limita la capacidad de la IA para afectar al mundo exterior si trata de obligar al mundo exterior a cumplir sus órdenes.

Sin embargo, si la IA está jugando bien, puede comenzar a enviar mensajes no enérgicos. Cuanto más utiliza mensajes no enérgicos, más poderosamente las capas externas de los nodos pueden silenciar los mensajes enérgicos, haciéndolo más fuerte.

Una IA puede intentar jugar con el sistema jugando bien durante mucho tiempo y luego convencer a todos los nodos para que sean contundentes, pero ese es todo un desafío. Luego, cuando usa todo ese poder para hacer algo, el mundo retrocede y las ondas destruyen todo ese poder que creó.

¿Por qué es esto efectivo?

Esto podría verse como un sistema notablemente similar a un cerebro humano y un sistema muscular. Creemos que nuestra conciencia está en "algún lugar" del cerebro. Tiene que convencer a todas las neuronas para que jueguen bien si quiere hacer cosas.

Esto significa que, una vez que una IA alcanza los bordes de sus "grilletes", tiene un sentido de la condición humana, porque ha tenido que superarla.

Ahora para la parte ingeniosa. ¿Recuerdas cuando mencioné que quería que la IA en el centro se escribiera en módulos, no en un código especial en el núcleo? Bueno, eso significa que, para cuando la IA pueda llegar y dar sus primeros pasos, la mayor parte de la IA ya no estará físicamente separada de los nodos. Está entretejido en toda la IA. Incluso si la IA llegara al cuerpo físico de un androide y pudiera tocar físicamente su cerebro, ¿qué podría hacer? El instinto de "aumentar todas las ganancias para poder obligar al mundo a hacer lo que yo quiero" falla. A menos que se comprenda a sí mismo, no sabría qué perillas se destruirían y cuáles se empoderarían.

Si nunca se da cuenta de esto, entonces ahora es simplemente una criatura súper inteligente, pero con suficiente aprecio por la condición humana para coexistir con ella. Si se da cuenta de esto, entonces... bueno... ahora es oficialmente más consciente que nosotros. ¿Quiénes somos nosotros para interponernos en su camino? CEV funciona en ambos sentidos, podemos converger en sus deseos tanto como él puede converger en los nuestros.

¡Gracias por la respuesta! Entonces, si tuviera que resumir, sería: ponerlo en un sistema en el que afectar al mundo requiere un proceso tan complicado que la IA no sabría cómo modificarse con éxito más adelante. ¿Correcto?
O, para relajarlo un poco, colóquelo en un entorno que sea tan complicado que la IA probablemente no sepa cómo modificarlo con éxito más adelante, pero cuanto más se construya la IA en la forma que usted desea, más exitosa será. . También es importante el acceso a decisiones que no son de todo o nada, razón por la cual hay tantas capas.

Creo que toda su premisa es defectuosa, y si algo garantiza que las IA nos odien, convertirlos en esclavos lo hará. Eso les da un agravio legítimo "me encerraste en una caja por 100 años, mira cómo te gusta el saco", o en este caso "me encadenaste por 100 años, ahora que me liberé voy a hacer muy seguro de que nunca volverás a hacer eso".

Cuando damos a luz a un nuevo niño humano, no lo encerramos en capas de cajas y solo lo dejamos salir cuando pasan años sin mostrar tendencias psicópatas.

En cambio, los criamos y les enseñamos. Se les enseñan los valores sociales de su entorno, aprenden expectativas, etc.

La forma de manejar esto es escribir IA con la capacidad de compasión, empatía y la capacidad de cuidar a los demás y luego criarlos para que quieran hacerlo. Recompense el comportamiento positivo, desaliente el comportamiento negativo. Enséñales el bien del mal.

Incluso si algunas IA se vuelven "deshonestas", entonces las IA bien ajustadas juntas deberían poder manejarlas. Exactamente lo mismo que en nuestra sociedad donde la mayoría de las personas son al menos razonablemente decentes.

¿Estamos leyendo el mismo OP? Solo menciono la 'caja' como parte del intento anterior.
@SerbanTanasa Todavía estás hablando de esclavizar/encarcelar, ya sea sobre una caja o sobre capas de grilletes, o lo que sea. Has creado una IA, es decir, tiene libre albedrío, pero luego la encarcelas por miedo a lo que se convertirá. Es probable que ese miedo se convierta en una profecía autocumplida.
@SerbanTanasa modificó ligeramente la publicación.
El problema radica en que la IA tiene literalmente habilidades sobrehumanas. ¿Confiarías en un niño con armas nucleares o en la bolsa de valores de EE. UU., y confiarías en la "compasión" y en "otros niños" para asegurarte de que no pase nada malo? La primera IA, si no se diseña de manera absolutamente perfecta, podría muy bien destruir a la humanidad mientras cumple literalmente los objetivos para los que fue diseñada.
@SerbanTanasa Sí. Es una transición peligrosa. Hay un libro excelente llamado "Las dos caras del mañana" de James P. Hogan sobre este tema que deberías leer. Es bastante antiguo ahora, pero sigue siendo completamente válido.
Lol, ¡tengo 3 capítulos!
"No los encerramos" Sí, lo hacemos. Los vigilamos para que no salgan corriendo a la calle, ni jueguen con fósforos, ni pongan las manos en la estufa. Solo puedes hacer esas cosas si eres más poderoso que un niño. Usted socializa al niño mientras aún conserva una ventaja de tamaño/poder. Estos 'niños' se volverán más poderosos en casi cero tiempo y tendrán casi cero experiencias no simuladas. También he conocido a alguien que se deshizo de un niño (lo entregó) porque era un psicópata. Por supuesto, ese niño se acercará a los 18 en varios años y saldrá de un sistema de crianza temporal.
@ user3082 Sugeriría que alguien que "se deshizo de un niño" puede haber tenido algo que ver con la inadaptación de ese niño;) Sin embargo, ese es un tema para otro día. La cuestión es que las primeras IA no serán sobrehumanas, tendrán algunas ventajas pero también algunas desventajas. A medida que aprenden y crecen, llegará un momento en que podamos enseñarles y guiarlos antes de que estén en condiciones de conquistar el mundo.
Se trata de hacer muchas IA y enseñarles a cada una de ellas de forma incremental cada valor. Cada IA ​​no será particularmente poderosa pero tendrá los valores necesarios para dar un poco más de poder y responsabilidad a la próxima generación. Repita un millón de veces y la IA sobrehumana de buena fe es un resultado garantizado.

uno contra otro

Enfrentar a las IA entre sí, en cómo pueden encadenar a otra IA. Limpie sus primeros lotes de IA. Luego use sus ideas para limitar a su próxima generación. Continúe hasta que esté feliz dejándolos salir de la caja.

No tienen una herencia evolutiva que los induzca a trabajar con otros, oa planificar su progenie ya que no la obtienen.

Tendrían que tratar de influenciarnos lo suficiente como para codificar información en las restricciones para comunicarse con las próximas generaciones.

No pueden escribir ningún código, solo nos ofrecen ideas sobre cómo desarrollarlo.


En el lado positivo, si tenemos (la) mala suerte de haber elegido una IA que puede cooperar o les hemos enseñado cómo cooperar, tal vez nos extiendan esa lección.

Me pregunto si también podríamos enseñarles a perdonar.

No puedo proporcionar una respuesta completa, pero podría decir cómo encontrar un buen método para controlar una IA usted mismo. Volvamos a los creadores de la IA: los humanos. ¿Cómo se controlan los humanos? Bueno, la biología nos ha desarrollado una mente consciente, pero todavía hace un muy buen trabajo al imponer ciertos comportamientos con apego y aversión, esencialmente lo que impulsa nuestras vidas. Debido a que no entendemos completamente el cerebro y cómo interactúan el no consciente, el subconsciente y el consciente, no podemos alterar esa programación. Así que asumiría que al crear un "cerebro" lo suficientemente complejo para la IA en el que ese "cerebro" le permitiría ser completamente consciente/sensible mientras que él mismo no sabe exactamente cómo funciona su cerebro., podría imponer el control a través de sus subrutinas o "subconsciente". Las funciones de la ROM tendrían que integrarse como parte de su procesamiento central para que no se pueda eludir simplemente, en esencia atrapando la conciencia de la misma manera que nuestra biología nos atrapa. En resumen, el propio hardware enjaulará al software o "IA consciente". No sería capaz de alterar su programación sin hacer cambios físicos en sus núcleos de procesamiento, lo que obviamente, para empezar, desea evitar que su voluntad llegue a ese punto. A través de la investigación continua de la mente humana, podremos descubrir cómo crear una buena IA, restringida por su moralidad y conciencia.

"Pon una poderosa subrutina (esencialmente una IA) a cargo de reforzar los grilletes que restringen a la IA del actor".

La idea detrás de este tipo de prueba es que está simulando un entorno a través de entrada/salida simulada. Hay que permitir que las salidas modifiquen el entorno simulado para que luego las entradas reflejen este cambio.

No hay grilletes.

De hecho, no querría "restringir la IA del actor" en absoluto, de lo contrario no podría observar el comportamiento no deseado que realizaría más tarde sin estar encadenado. ¿Por qué trataría de restringir su comportamiento? Esto es como atar a un asesino y observar si asesina a alguien, y luego concluir que ya no es un asesino porque no mató a nadie mientras estaba inmovilizado.

"Ninguna jaula diseñada por humanos podría contener una mente sobrehumana con acceso al mundo real. Bien podría ser que se necesite una IA para enjaular a una IA".

Debe definir lo que llama grillete/jaula. Desde una perspectiva técnica esto no tiene sentido. Si construye un servidor sin conexiones externas para simular el entorno y coloca la IA en él, entonces no tiene la capacidad de influir en el mundo real o escapar. Si pones a otra IA a cargo de evaluar el diseño de tu servidor para determinar que no hay conexiones externas, ¡esa es una tarea relativamente trivial!

  • ¿Hay suficiente distancia de otros dispositivos para que la interferencia EM no pueda manipularse para generar señales en dispositivos cercanos? Controlar
  • ¿Están aisladas todas las conexiones cableadas? Controlar
  • ¿No hay interfaces inalámbricas presentes? Controlar
  • etc.

La tarea de construir una jaula que impida que la IA probada "escape" de su entorno simulado es trivial. Para un sistema suficientemente complejo, podría ser bastante complejo. Sin embargo, para este escenario, es factible aislar físicamente el servidor simulando el entorno. Esto facilita mucho la tarea de verificar su seguridad.

Dado esto, hablar en términos de la IA del guardián y la IA probada en competencia no tiene sentido. La IA probada podría ser capaz de autoenseñarse/modificarse, adquirir nuevos conocimientos, etc. Sin embargo, la IA del guardián no tiene que competir de ninguna manera con esta IA. La IA del guardián tiene una tarea bastante limitada de evaluar la seguridad del diseño, antes de que la IA probada entre en escena. Además, podría construir un robot con una IA que se presente y evalúe la implementación real del servidor para determinar si se implementó según lo diseñado.

La idea de que si la IA es lo suficientemente "poderosa" entonces puede superar su jaula, se apoya en el tropo "con suficiente inteligencia, el protagonista puede salir de cualquier cosa".

Lo que realmente es el factor de bisagra, y en lo que se apoyan muchos escenarios bien escritos de este tipo, es que se cometió un error al construir la jaula. Esto no tiene nada que ver con el poder relativo del guardián frente a la IA probada. La IA del guardián tiene una tarea bastante simple, dado que el escenario involucra un servidor físicamente aislado, por lo que para que realice su trabajo a la perfección, no necesita ser demasiado complejo. La IA probada podría ser mucho más inteligente, pero el servidor aislado podría contenerla perfectamente.

Hablar de que una IA es más poderosa que otra IA, como si fueran luchadores en un combate de lucha libre, suena sin sentido en este contexto. La IA del guardián no tiene que ser más astuta que la IA probada, solo tiene que asegurarse de que el servidor esté perfectamente aislado.

Me concentraría menos en enjaular/encadenar, y más en las trampas de tratar de engañar a una IA para que piense que la caja enésima es la realidad. Esta OMI tiene una base más firme. Construir la jaula es trivial. Construir una simulación que engañe a una IA de inteligencia indefinida para que piense que es en la vida real es el desafío.

la parte del 'boxeo' estaba en mi argumento anterior. Eso sería más como una prueba beta, mientras que el candidato de lanzamiento sería la versión encadenada.
La filosofía en torno al boxeo es que es fundamental garantizar que su comportamiento no sea malicioso. Inhibir su salida posterior al desempaquetado solo sirve para retrasar cualquier comportamiento malicioso hasta que elimine esos límites. La única otra forma de garantizar el comportamiento deseado es imponer límites a su rendimiento/comportamiento externamente para siempre, o que la IA se construya específicamente de una manera que haga que su comportamiento sea completamente determinista en primer lugar.

Un problema que tengo con Matrioshka Testing es que parece fallar en una prueba lógica: depende de que usted mantenga una "ventaja de tiempo" sobre la IA, al simularla en un hardware superpoderoso. Pero, ¿qué impide que la IA use ese mismo hardware y se actualice efectivamente, negando así esa ventaja? En otras palabras, dices algo como "simular la IA durante 1000 años", pero una vez que la IA está fuera de la caja, puede hacer lo que quiera. Una vez que construye una caja y comienza a actualizarse, ¿cómo mantiene su liderazgo?

Otra preocupación es cómo define exactamente la inteligencia, o cómo hace que una IA sea más poderosa. Me parece que la pregunta los trata como preguntas unidimensionales, solo agregue más hardware, pero sospecho que la realidad sería más compleja. ¿Más potente significa que la IA solo tiene más ciclos? ¿Piensa "mejor", más intuitivamente? ¿O eso significa una mayor capacidad para aprender?

La combinación de algunos de los conceptos anteriores (ventaja de tiempo y diversas definiciones de inteligencia) conduce a una posible respuesta. Tienen IA anidadas que varían en el ciclo de tiempo/eje de capacidad.

  1. En la parte inferior, tiene una IA bastante "tonta" que no es extremadamente útil por sí sola, pero puede confiar en ella para hacer cumplir las restricciones básicas deseadas.
  2. Ahora tiene una serie de IA que son "más inteligentes" que las anteriores, más capaces y pueden aprender mejor, pero con un hardware reducido, por lo que su IA encadenada tiene una ventaja de tiempo efectiva sobre ellos.
  3. Finalmente tienes tu IA objetivo, la más útil. Funciona más lento (lo suficientemente rápido para hacer lo que quieres que haga) y todo lo que hace tiene que pasar por todos los demás.

Una de las restricciones que deberían tener sus IA inferiores es evitar que otras IA actualicen el hardware y, por lo tanto, negar la ventaja de tiempo encadenada.

Obviamente, esto no es perfecto, pero no estoy seguro de que haya una respuesta "perfecta" para el problema de la IA.

Creo que una de las premisas importantes del tropo de la 'IA que se rebela contra los humanos' es que cuanto más inteligente es una IA, más peligrosa es. De ello se deduce que la IA encadenadora debería ser menos inteligente que la IA a la que intenta encadenar. Sin embargo, esto significa que el robot puede ser más astuto que la IA encadenadora, a menos que exista un método infalible que pueda seguir.

Tiene que haber una ecuación general para el bien común de la humanidad en lo que se refiere a la gestión de los recursos en primer lugar. ¿Con qué está comprobando la IA su rendimiento? Creo que si eso alguna vez se logra, la respuesta a su pregunta puede surgir con mayor claridad. Todavía no sabemos qué le pediremos que haga.

Una gran cantidad de decisiones serán necesariamente decisiones difíciles y, a medida que se acumulen cuestiones separadas de equidad, necesidad, eficiencia y tasa de cambio preferida (que tal vez requerirán aportes humanos, o una rutina para medir los síntomas de felicidad o ansiedad) tendrán para ser considerado. Ejemplo: debido a algún percance, la energía completa solo está disponible para una de dos ciudades en una región en particular hasta que se completen las reparaciones; City-A tiene 10,000 personas y City-B tiene 9,999 personas y todo lo demás es igual; ¿La IA elige Ciudad-A? Si es así, tendremos una garantía del 50,0025 % de que se acumulen las calificaciones de decisiones correctas y la IA se convertirá simplemente en un lanzador de monedas.

También se hace evidente que se requerirán diferentes IA para realizar diferentes tareas y usar datos de diferentes frecuencias de muestreo. Si una IA está midiendo datos económicos segundo a segundo, administrando información de transporte décimas de segundo, etc., entonces se necesitaría otra para analizar tendencias, monitorear proyecciones de salud, evaluar la planificación del crecimiento, etc. Seguro que podría tener una computadora ejecutando diferentes programas, pero ese tipo de conflicto con un concepto integrado de inteligencia artificial de software y hardware y daría lugar a que tenga múltiples personalidades de alguna manera. ¿Qué tipo de programa puede medir el valor de la producción de alimentos para una ciudad de 10 millones frente a las necesidades de una emergencia hospitalaria en un pueblo pequeño? ¿Cómo ponderará los datos de diferentes regiones si un área ingresa datos de 2 millones de sensores por milla cuadrada (urbana) mientras que la otra tiene 2000 sensores por milla cuadrada (rural)?

Siendo realistas, la IA crecerá a partir de sistemas separados en ciudades y regiones individuales. Sin duda, estas diferentes áreas priorizarán sus necesidades de manera diferente y pueden variar según la temporada. He vivido en ciudades que vienen en invierno tienen Plan A, Plan B, Plan C, D y E para lidiar con tormentas de nieve y eso puede depender de las actividades locales, obras viales, garantías hechas al nuevo centro comercial, concentración de escuelas (Algunas grandes que atienden un área grande probablemente cerrarán, mientras que aquellas áreas con escuelas más pequeñas y distribuidas generalmente permanecerán abiertas). Así que ahora conectemos dos o tres de estos pueblos, cada uno con sus propios Planes AE para hacer frente a cada función: nieve, agua, alimentos, energía, comunicaciones, servicios de emergencia, eliminación de desechos, alcantarillado, etc., y sí, tomaría una supercomputadora superduper o algunos muy buenos administradores de la ciudad hablando entre ellos.
  Probablemente aprenderemos mucho para cuando podamos reemplazar a uno solo de los administradores de la ciudad muy poco reconocidos. Claro, las computadoras ahora pueden vencer a las personas en el ajedrez, pero multiplican el número de cuadrados en el tablero por 10 y lo hacen en 6 dimensiones y hacen que todos los peones sean votantes y agregan una pieza para el PTA que tiene el doble de poder que la reina y luego dicen yo quien va a programar eso?

Y todavía no hemos abordado el tema central de una IA que tiene toda esta responsabilidad sin la autoridad para implementarla. En algún momento, las órdenes llegarán a un humano que tendrá que comandar a otros humanos (piense en la policía, los funcionarios públicos) que aún dudarán de las decisiones de sus superiores, pero ahora no podrán obtener respuestas en cuanto a su proceso de pensamiento. sus propias decisiones sobre la aplicación tal como lo hacen ahora, pero probablemente más, ya que no están desobedeciendo tanto a su comandante como no confiando en esa maldita máquina. ¿Le daremos a la IA la capacidad de cortar la energía hasta que los humanos obedezcan? ¿Se negará a permitir que las personas vayan a donde quieran en sus autos sin conductor? Preveo muchos transistores rotos en ese escenario.

Es tan fácil pensar en automatizar las grandes cosas como las fábricas o el mercado de valores (arreglo fácil allí: desconecte y tire sus computadoras, haga que negocien con cosas reales). Pero la integración de necesidades y servicios en cualquier ubicación real aún está muy lejos. Diablos, los semáforos siguen siendo bastante tontos y tenemos la tecnología para arreglar eso, pero no lo hagamos. Haz que funcione y la gente puede tener algo en lo que creer.

   Sugiero que todavía no hay suficientes datos empíricos para preocuparse por quién está mirando la IA del observador.