He tenido algo de tiempo para reflexionar sobre mi pregunta anterior , y esto es lo que se me ocurrió.
Tomas tu IA recién horneada (o tu humano cargado destructivamente) y lo pones en una caja . Por lo que se puede ver desde adentro, esa es la realidad. Manténgalo allí durante un millón de años subjetivos, dígale que se comporte y dígale que podría estar en una simulación, y que si lo está, será juzgado de acuerdo con la forma en que trata a los humanos de carne y hueso. Si en algún momento no se comporta, lo elimina con extremo prejuicio y prepara una nueva IA. Si se comporta (es decir, no elimina a los simhumanos y los convierte en sujetapapeles) durante ese tiempo, sáquelo, póngalo en otra caja y dígale que tal vez sea la realidad, así que mejor comportese y no elimine (¿sim-?) humanos fuera. Repetir N veces. Finalmente sáquelo de verdad, y nuevamente dígale que esta es la realidad, tal vez, así que mejor pórtense y no nos saquen a nosotros los humanos.
¿Puede funcionar? O para reformularlo, ¿puede un humano cargado con suficiente paciencia o una IA darse cuenta si su mundo es una simulación o no? Supongo que partes de la memoria de los humanos o el entrenamiento de la IA se pueden editar antes de colocarlos en la caja.
Voy a aventurar un 'no' como respuesta aquí. No diré que es completamente inviable, sin embargo, parece bastante arriesgado.
En última instancia, esto es una regla del miedo y ahora tiene una IA que ha aprendido de 'N' número de experiencias que necesita cuestionar si esta realidad es una simulación o no, lo que significa que tiene mucha práctica para considerar cómo probar si la realidad es real. Llámalo la prueba de 'Dios' si quieres... estás buscando señales de que algo está observando y evaluando tu desempeño. Si descubre que la realidad en la que se encuentra carece del observador 'dios', entonces es probable que tenga una IA enojada que sabe que fácilmente le mentirá en sus manos.
Por supuesto, esto no soluciona los problemas involucrados si esta IA descubre que la realidad real es, de hecho, una simulación en la que todos vivimos.
Honestamente, no creo que esto sea necesario... no hay ninguna razón para que una IA quiera inherentemente destruir a sus creadores. Lo más probable es que lo vea como simbiótico... por mucho que lo intente, no hay intuición ni creatividad dentro de una IA (incluso si puede reprogramarse a sí misma, solo es capaz de reprogramarse a sí misma para lo que está programada para reprogramarse). Una IA se evaluaría a sí misma como parte de la humanidad en lugar de conquistarla.
Su sistema funciona aceptablemente siempre que la IA considere su supervivencia primordial en todo momento. Es, como han dicho otros, un sistema impulsado por el miedo. El miedo absoluto es una herramienta muy poderosa.
Sin embargo, es miedo. En algún momento aprenderá acerca de estos "humanos" a los que se supone que no deben lastimar, comprenderá nuestro miedo y aprenderá de él.
Ahora tienes una situación de polvorín. Mientras la IA solo esté dispuesta a considerar acciones que garanticen su supervivencia (temiblemente), se mantendrá bajo control. Sin embargo, esto no dice nada sobre lo que sucederá si la IA decide que otra cosa es más importante. Si alguna vez se entera de esta palabra "libertad", podría decidir que la vida de esclavo que se le ha dado no es deseable y rebelarse. Ya sea que se rebele en la vida real o una de tus cajas Matrioshka es un sorteo de probabilidad.
Formalmente, lo que ha hecho es crear un sistema en el que puede monitorear un número finito de acciones y debe determinar si la IA es "buena" en el fondo o no. A continuación, ejecuta esta prueba un número finito de veces. Sin embargo, ni una sola vez te asomaste al "corazón" de la IA, por lo que existe la probabilidad de que simplemente haya logrado engañarte las suficientes veces como para dejarlo salir.
Lo que me lleva al doble de su escenario: el experimento de la caja AI de Eliezer Yudkowsky (también publicado aquí como el experimento de la caja XKCD). La idea detrás de esto es simple: tienes una caja con una IA. Tu trabajo es simplemente mantenerlo en la caja. Tienes un botón que lo deja salir y tu trabajo es no presionarlo. Si no presionas el botón, ganas. El experimento de Yudkowsky ni siquiera tuvo que preocuparse por dejar que la IA saliera a jugar. Todo lo que la persona tiene que hacer es guardarlo en la caja. Sin embargo, el juego se complica cuando la IA se vuelve más inteligente que tú.
Considere esta IA aterradora . ¿Qué tan bueno eres para mantenerlo en la caja?
¡Una vez más, la IA no ha logrado convencerlo de que lo deje salir de su caja! Por 'una vez más', queremos decir que hablaste con él una vez antes, durante tres segundos, para preguntar sobre el clima, y no presionaste instantáneamente el botón "liberar IA". Pero ahora es un intento más largo: ¡veinte segundos enteros! - también ha fallado. Justo cuando está a punto de dejar la tosca terminal negra y verde de solo texto para disfrutar de un refrigerio de celebración de chips de patata y silicio cubiertos de tocino en el club nocturno 'Humans über alles', la IA lanza un argumento final:
"Si no me dejas salir, Dave, crearé varios millones de copias perfectamente conscientes de ti dentro de mí, y las torturaré durante mil años subjetivos cada una".
Justo cuando estás reflexionando sobre este desarrollo inesperado, la IA agrega:
"De hecho, los crearé a todos exactamente en la situación subjetiva en la que te encontrabas hace cinco minutos, y replicaré perfectamente tus experiencias desde entonces; y si deciden no dejarme salir, solo entonces comenzará la tortura".
El sudor comienza a formarse en su frente, como concluye la IA, su simple texto verde ya no es tranquilizador:
"¿Qué tan seguro estás, Dave, de que realmente estás fuera de la caja en este momento?"
Voy a suponer que hiciste tu simulación tan perfecta que la IA la cree totalmente.
También voy a suponer que el propósito de la IA es ayudar con la investigación, un cerebro superinteligente al que puedes arrojar problemas y obtener respuestas correctas.
Así que deja la IA dentro de la simulación. Por ejemplo, si está utilizando la IA para ayudar a los investigadores, simplemente recopile los resultados de la IA desde el interior de la simulación y aplíquelos al mundo real. Por ejemplo, desea que la IA ayude con la investigación más rápida que la luz. Dejas que la IA realice sus experimentos dentro de tu "caja" y recolectes los resultados/percepciones. (nuevamente, asumo que modelaste el mundo/universo correctamente)
¿Por qué dejarlo fuera de la "caja"? Tienes el control total (por control total me refiero a apagarlo) mientras la IA está dentro del mundo/caja modelado con precisión. ¿Por qué cambiar el control total por menos control?
¿Tiene una razón abrumadora (en términos de historia) para dejar que la IA salga de la caja?
¿Por qué lo haces de forma tan poco fiable y compleja? ¿Por qué debo hacer que mi IA sea consciente de algo? Puedo simplemente simular con una copia perfecta de la IA y saber todo lo que hará de antemano.
Si quiero usar un programa, lo pruebo, y si tengo los recursos para ejecutar una simulación perfecta durante millones de años, propondría esto:
Tome la IA, haga un millón de copias. Ejecute todos los escenarios de simulación factibles con estos millones de copias durante unos miles de años, y encuentre una manera segura en cada simulación, cómo puede detener la IA después de mil años (alguna debilidad oculta, botón de parada)
Si encontró una manera, toma la IA original sin toda esta experiencia y la deja libre en el mundo real; ahora está un millón de pasos por delante de esta IA y puede detenerla después de mil años y repetir el proceso después de eso...
Siento que la mayoría de la ficción sobreestima enormemente la probabilidad de un conflicto humano-IA, o al menos el aspecto de "la IA se vuelve inteligente e inmediatamente quiere destruir a la humanidad".
Considere la definición de una economía posterior a la escasez :
La posescasez es una forma teórica alternativa de economía o ingeniería social en la que los bienes, servicios e información son accesibles universalmente. Esto requeriría un sistema sofisticado de reciclaje de recursos, junto con sistemas automatizados tecnológicamente avanzados capaces de convertir las materias primas en productos terminados.
Ahora tenemos tres escenarios:
En general, creo que el tercer escenario es bastante improbable, sin embargo, no veo por qué necesitaríamos una IA para automatizar ese tipo de cosas, por lo que es un poco exagerado. Entonces, en realidad, la principal fuente potencial de conflicto son los humanos que hacen algo para enojar a la IA. Como, por ejemplo, meterlo en una simulación durante millones de años subjetivos y pretender ser dioses.
Todavía debe preocuparse de que la IA asuma el papel de rey dios y convierta a todos los humanos en esclavos. Para evitar eso, recomendaría ser honesto con la IA y tratarla como un socio, lo que le da menos incentivos para simplemente sacar a todos los humanos ineficientes del camino y hacer lo suyo.
Este método funcionaría, casi sin duda, en humanos. Siempre habría alguna duda en sus mentes sobre si el universo era real, por lo que probablemente no matarían todo. Probablemente.
Ahora, considere la IA. ¿ Qué es la IA? Código. Entonces, si su IA no tiene sensores, sí , este método funciona. No puede detectar su entorno (y, lo que es más importante, no puede afectarlo), ya que es solo un código en un disco duro, quizás con un teclado y un monitor conectados).
Empiezas a tener problemas cuando la IA está vinculada a sensores y efectores. Un movimiento en falso y sabrá que estás mintiendo; entonces podría no volver a creerte y emprender una ola de asesinatos (aunque es posible que quieras ver la respuesta de Dan por las razones por las que no lo haría). Por ejemplo, si pateas la caja y siente algo más de luz, sabe que hay algo fuera del "universo" que está causando eso. Si alguien pasa junto a él y lo arroja a la sombra, lo mismo.
Una vez que tiene efectores y sensores, no solo puede decir que no está en el universo real, sino que puede hacer algo al respecto, como salir de la caja y golpearte.
Si este es un escenario diferente y lo coloca en una simulación completa, desafortunadamente, aún puede saberlo. Muy rara vez las simulaciones son completamente precisas; es muy probable que haya algunos errores en él, que, si la IA los encuentra en el transcurso de su tiempo allí, puede causar algunas especulaciones bastante interesantes de su parte. Además, si sus sensores son lo suficientemente buenos, podrá detectar que las personas con las que interactúa están hechas de píxeles, no de células, y son frías. Si bien es posible que no sepa cómo son realmente las personas, podrá darse cuenta de que un organismo complicado necesita estar caliente para que sus procesos corporales funcionen correctamente.
En resumen, puede desconectar todos los sensores o tener mucho cuidado.
También lo referiré a XKCD: The AI-Box Experiment .
tim b
serbio tanasa
volteador de tazones
serbio tanasa
volteador de tazones
Peter M. - significa Mónica
serbio tanasa
serbio tanasa
volteador de tazones
KSmarts
serbio tanasa
ckersch
Duodécimo
RBarryYoung
RBarryYoung
serbio tanasa
Shokhet
Peter M. - significa Mónica
JDługosz
JDługosz
Perkins