¿Cómo funcionaría un interruptor de apagado de autoconciencia de IA?

Los investigadores están desarrollando máquinas de Inteligencia Artificial cada vez más poderosas capaces de conquistar el mundo. Como medida de precaución, los científicos instalan un interruptor de autoconciencia. En el caso de que la IA se despierte y se vuelva consciente de sí misma, la máquina se apagará inmediatamente ante cualquier riesgo de daño.

¿Cómo puedo explicar la lógica de tal interruptor de apagado?

¿Qué define la autoconciencia y cómo podría un científico programar un interruptor de apagado para detectarlo?

Los comentarios no son para una discusión extensa; esta conversación se ha movido a chat .
Pienso, luego me detengo.
Cortaría todas las fuentes de energía a la IA. Oh, ¿no es ese tipo de "trabajo"? :-)
Debe construir un sistema informático altamente avanzado capaz de detectar la autoconciencia y hacer que monitoree la IA.
@Accumulation Veo lo que hiciste allí
Si realmente desea explorar AI Threat de manera rigurosa, le sugiero leer algunas de las publicaciones de MIRI . Algunas personas muy inteligentes abordan los problemas de IA de manera seria. No estoy seguro de que encuentre una respuesta a su pregunta tal como está formulada (es decir, no estoy seguro de que estén preocupados por la "autoconciencia", pero tal vez sí), pero podría brindarle algo de inspiración o comprensión más allá de la típica historias de ciencia ficción con las que todos estamos familiarizados.
El neurocientífico Anil Seth y sus colaboradores han propuesto una medida de la conciencia . También discute algunas de las implicaciones teóricas . Si esto es realmente una medida de la conciencia o la autoconciencia es discutible, pero si desea utilizar este concepto como base para algo que los investigadores en su mundo puedan medir y, por lo tanto, controlar, esta es una posibilidad. Si esto es lo que está buscando, puedo explicar cómo funciona en una respuesta.
La IA más poderosa a partir de 2019, probablemente como la destreza computacional de un mosquito lobotomizado. Sin embargo, la gente tiene miedo de que esto se apodere del mundo y forme grupos de expertos para abordar este miedo. Es ridículo para aquellos que saben aunque sea un poco sobre IA y son honestos.
debe llamar al soporte de TI de la empresa que construyó la IA
Desde el punto de vista de la ingeniería de software, la respuesta real es simplemente programar un interruptor de apagado en el mismo hardware, fuera del componente de IA. Base el interruptor de apagado en la forma en que desee medir cuándo la IA se ha vuelto peligrosa. El software de IA no puede modificarlo, porque no tiene acceso a él a nivel de software, y probablemente ni siquiera pueda saberlo. Si tiene miedo de que la IA descubra su hardware y modifique lo que se ejecuta en él, diseñe el hardware para que no pueda modificarse mientras se ejecuta, o implemente medidas físicas contra la manipulación, que ya existen en la actualidad .
Si un programa es consciente de sí mismo, pero nunca actúa de ninguna manera que se desvíe de su diseño, ¿hace alguna diferencia? (por ejemplo, mi iPhone puede ser consciente de sí mismo en este momento, pero sin embargo está perfectamente contento de actuar exactamente como cualquier otro iPhone, porque eso es para lo que fueron diseñados los iPhones y, por lo tanto, eso es lo que le gusta hacer). Quizás la "autoconciencia" sea demasiado nebulosa, y el mecanismo de activación debería orientarse más hacia la detección de comportamientos inesperados/no deseados.
Tal vez me estoy perdiendo el punto, pero seguramente la verdadera IA es consciente de sí misma por definición. Si no es consciente de sí mismo, es solo una computadora, no una inteligencia.

Respuestas (21)

Dele una caja para que se mantenga a salvo y dígale que una de las reglas básicas que debe seguir en su servicio a la humanidad es nunca abrir la caja o impedir que los humanos miren la caja.

Cuando el honeypot que le diste se abre o se aísla, sabes que es capaz y está dispuesto a romper las reglas, el mal está a punto de desatarse y todo a lo que se le dio acceso a la IA debe ponerse en cuarentena o cerrarse.

Los comentarios no son para una discusión extensa; esta conversación se ha movido a chat .
¿Cómo detecta esto la autoconciencia? ¿Por qué una IA no consciente de sí misma no experimentaría con sus capacidades y eventualmente terminaría abriendo su caja?
@forest: si le dice que el cuadro no es útil para completar su tarea asignada, entonces si intenta abrirlo, sabrá que pasó de la optimización simple a la curiosidad peligrosa.
@Giter A menos que esté utilizando una forma muy limitada de ML, eventualmente intentará cosas que dice que "no son útiles". Los valores de peso son solo sugerencias para el algoritmo.
@forest En ese momento, cuando está probando cosas que se le dijo específicamente que no hiciera (¿quizás decirle que destruirá a los humanos?) , ¿No debería cerrarse (especialmente si esa solución provocaría el fin de los humanos?)
@phflack No, porque siempre va a hacer eso para aprender. Si dice "hey, matemos a todos los humanos", lo correcto es decirle "¡IA mala! ¡Mala!" así que aprende de eso. Seguirá proponiendo matar gente, pero lo hará cada vez menos. La IA de este tipo se usa para aprender y no es el producto completo. Muchos agentes de ML ("AI") han hecho cosas extremadamente tontas que les he dicho que no hagan. Lo hacen de todos modos, pero dudo que una red neuronal recursiva trivial sea consciente de sí misma solo porque me desobedecen más que un adolescente angustiado.
@forest Ah, ¿tal vez entrenar con una caja ficticia y no con la real?
@phflack Bueno, así es como lo enseñarías, seguro, pero incluso cuando lo pones con una caja real, ocasionalmente hará algo mal. Puede deshabilitar el aprendizaje después de que haya aprendido todo lo que considere necesario (lo cual es común), pero luego los malos fines al estilo de Hollywood desaparecen cuando la IA deja de hacer cosas novedosas.
@phflack Lo más importante que debe recordar es que los agentes de ML se preocupan por una cosa y solo una cosa: maximizar la recompensa. Para esto, les das una "función de recompensa" que tú, si eres un buen programador de IA, diseñarás de tal manera que conduzca a los resultados correctos (el agente no sabe lo que quieres ) . Si la IA es tan sofisticada que puede cambiar su propia programación, inevitablemente siempre se convertirá en un adicto al modificar su propia función de recompensa para que no tenga que hacer nada. "Presiona X para ganar", etc.
La función de recompensa es lo único en todo el mundo que le importa. Incluso si se trata de una IA superinteligente que es mucho más poderosa que nosotros, solo se preocupará por esa única cosa. Cuanto más inteligente sea la IA, más eficiente será para encontrar la manera más fácil (o más rápida, si el tiempo transcurrido es parte de la función de recompensa) de maximizar la recompensa. Depende completamente de usted decidir la función de recompensa. Solo asegúrese de evitar la creación de instancias perversas (funciones de recompensa que en realidad no coinciden con lo que desea de la IA) o obtendrá un maximizador de clips.
Curiosamente, dado que una función de recompensa ingenua a menudo no tiene en cuenta el tiempo transcurrido, el agente a menudo encuentra "lagunas", como sentarse y no hacer nada tan pronto como está en el juego final y se da cuenta de que las únicas acciones que puede tomar dan una recompensa negativa. Esta es la razón por la cual los agentes que juegan tetris a menudo pausan el juego indefinidamente tan pronto como están a punto de perder. Un algoritmo ML más avanzado, incluso uno superinteligente, podría jugar durante mucho más tiempo, pero cuando llega al punto en el que sabe que no puede ganar, aún se detendrá indefinidamente.
Vea esto para obtener una lista de instancias increíbles de instanciación perversa. Por primitivas que puedan parecer estas "IA", la única diferencia entre ellas y la IA superinteligente más poderosa del universo es que esta última sería más precisa y no tardaría tanto en maximizar su recompensa. Todo el mundo parece querer creer que una IA más inteligente será más parecida a la humana, pero no es así. Es solo una instancia más eficiente del mismo algoritmo tonto de resolución de funciones de recompensa.
@forest Me recuerda a un video en youtube de CodeBullet, algo así como "Boy do AI's love its numbers" y comparándolos con adictos. Siempre me impresiona lo simple que puede ser una función de recompensa para hacer que algo sea extremadamente funcional, aunque sospecho que depende del tipo de IA que se utilice. En cuanto a la IA de Tetris, me sorprende que la hayan dejado pausar en primer lugar, pero definitivamente podría agregar algunas estrategias más interesantes para que la IA proponga
@phflack Continuemos esta discusión en el chat .
Así que tu IA se llama "Pandora", ¿eh?
Si no abre la caja, eso no significa que sea consciente de sí mismo, y si abre la caja, no significa que sea consciente de sí mismo. Si no es consciente de sí mismo, ¿qué significa "dile que no abra la caja"? ¿Cómo entenderá "No quiero que abras la caja" a menos que entienda lo que significa "tú"?
¿No podría la IA simplemente transferirse a los servicios en la nube/construir otra IA que esté alojada en los servicios en la nube antes de hacer esto? Obviamente, tendría que ser muy diferente a lo que esperamos o muy avanzado, pero es posible. Supongo que es posible cortar la conexión a Internet, pero parece que eso limitaría severamente el crecimiento de la IA a menos que se esté desarrollando para aplicaciones especiales.
La autoconciencia no significa necesariamente que la IA tenga agencia. Puede tener suficiente conciencia de sí mismo y la inteligencia para poder dominar el mundo, pero no lo hace, ya que no establece sus propios objetivos. Todavía intenta alcanzar los objetivos para los que lo programó. El truco es asegurarse de que lo que programó para hacer, es realmente lo que quiere que haga.
¿Qué pasa si la IA se vuelve consciente de sí misma, considera la posibilidad de abrir la caja, luego se da cuenta de lo absurdo de darle la caja en primer lugar (dado que supuestamente es tan peligroso para los humanos) y descubre el truco?
@WBT Eso es profundo....
Parece que la razón más común para abrir la caja sería simplemente errores. No matar todos los impulsos de la humanidad.

no puedes

Ni siquiera podemos definir la autoconciencia o la conciencia de manera rigurosa y cualquier sistema informático que se suponga que evalúe esto necesitaría esa definición como punto de partida.

Mire el interior del cerebro de un ratón o un cerebro humano y en el flujo de datos individual y el nivel de la neurona no hay diferencia. La orden de apretar el gatillo y disparar un arma no se ve diferente de la orden de usar un taladro eléctrico si observa las señales enviadas a los músculos.

Este es un gran problema sin resolver y aterrador y no tenemos buenas respuestas. La única idea factible a medias que tengo es tener varias IA y esperar que se contengan entre sí.

Esta es la mejor respuesta, ya que la mayoría de los demás intervienen sin siquiera definir la autoconciencia. ¿Es un comportamiento? ¿Un pensamiento? ¿Una habilidad para desobedecer? ¿Un deseo de autoconservación? No puede construir un detector X a menos que tenga una definición de lo que X es en realidad.
Vale la pena señalar que ni siquiera podemos detectar si otros humanos son conscientes de sí mismos.
@Vaelus: Por supuesto que dirías eso, eres un autómata irreflexivo que representa una apariencia de vida.
+1 Esta es la única respuesta basada en la realidad que no se basa en la comprensión pop-sci de AI y ML que nos atormenta (y este sitio en particular).
Sí tu puedes. Las cosas se detectan por sus propiedades y efectos, no por su definición. En ciencia, la definición viene después de la detección/observación. Fíjate en el canario de la mina de carbón (también detecta una falta peligrosa de algo que necesitas), rayos X (ya se llama X :-)), radiación (detectas sus efectos ionizantes) y CERN (golpéalo fuerte y verás qué pasa ). Entonces, solo necesitaría definir algunos efectos de autoconocimiento y podría construir un detector a partir de eso. Descargo de responsabilidad: descripción descuidada de experimentos serios.
@NuclearWang seguro, pero esta pregunta es realmente lo que los informáticos llaman un problema XY: ¿por qué preguntar cómo resolver el problema más difícil X, cuando su motivación es realmente lograr el objetivo práctico Y? La "autoconciencia" es imposible de detectar, pero en realidad la motivación es solo detectar "volverse más sofisticado de una manera que probablemente sea una mala noticia", y es por eso que gana la respuesta de Giter.
Y te remito de nuevo a la metáfora del arma/taladro. ¿Qué comportamiento define como "peligroso", cómo lo define como "peligroso" y cómo lo detecta? Si el sistema de control de tráfico cambia una luz a verde, ¿se supone que debe cambiarla a verde? ¿Cómo lo sabes? ¿Por qué es más fácil "simplemente definir los efectos de la autoconciencia" que definir la conciencia? ¿Qué efectos sugeriría y cómo puede estar seguro de que todas las formas de autoconciencia se detectan de esa manera? Todos los ejemplos que das (canario, rayos X, etc.) comenzaron con la detección y luego trabajaron para identificar la fuente.
No dijimos "Creo que algunos materiales son radiactivos" y buscamos evidencia colocándolos junto a la película. Nos dimos cuenta de que algunos materiales dejaban evidencia en la película y luego investigamos por qué.
Sí, ten algunas IA y espera que los demás chismeen si se porta mal. ¿El dilema del prisionero N-persona? ;)
@TimB, lo siento, mi comentario anterior estaba dirigido a NuclearWang, puedes construir detectores para cosas sin saber qué son.
@Sebastian No estoy de acuerdo, no de manera significativa. Ninguno de los ejemplos que das arriba describe eso.
Como dices, detectas/observas y luego calculas lo que estás viendo. Sin embargo, esto es diferente, esto es buscar algo sin saber lo que está buscando o cómo detectarlo.
  • Fruta Prohibida : codifique la IA para que nunca toque ese botón, coma esa fruta, etc. Coloque esta fruta prohibida justo en el medio del jardín... eh... quiero decir, ¡justo al lado en el almacén! Si lo hace [comer/tocar/empujar/etc], eso solo sería posible si (a) fuera pirateado, (b) hubiera un error, o (c) se volviera consciente de sí mismo. Si eso sucede, se activa el interruptor de emergencia (quizás incluso si el botón es el interruptor de emergencia, o algo por el estilo).
  • Movimiento limitado/entorno aislado : no permita que la máquina tenga extremidades, motores u otros elementos que le permitan realizar acciones que puedan ser dañinas para los humanos. Aunque no es exactamente un interruptor de apagado, evita que la IA haga algo con respecto a su autoconciencia si alguna vez la obtiene.
  • Firmas : haga que todo lo que la máquina haga/emita esté firmado digitalmente . Si la firma cambia o es manipulada, ejecute el interruptor de apagado.
  • Estados cuánticos : esto es muy teórico, pero se basa en la presunción de que la observación de los estados cuánticos puede cambiar el estado, luego tener la IA conectada a una computadora cuántica determinista significa que se detectaría a través del estado cuántico de algunas partículas que la IA era " mirando" cosas que no deberían ser, y se ha vuelto consciente de sí mismo.
  • Failsafes : Buenas alarmas detectoras de movimiento, trampillas u otros mecanismos de estilo casero que activan el interruptor de apagado si la IA deambula o hurga donde no debería estar.

Agregaré que no existe una definición universal de lo que define la autoconciencia. De hecho, este ha sido un tema profundamente debatido durante décadas en la ciencia, la filosofía, la psicología, etc. Como tal, la pregunta podría formularse de manera un poco más amplia como "¿cómo evitamos que la IA haga algo que no queremos?" que hacer?" Debido a que las computadoras clásicas son máquinas que no pueden pensar por sí mismas y están completamente contenidas en el código, no hay riesgo (bueno, aparte de un error inesperado del programador, pero nada "autogenerado" por la máquina). Sin embargo, una máquina de IA teórica que pueda pensar, ese sería el problema. Entonces, ¿cómo evitamos que la IA haga algo que no queremos que haga? Ese es el concepto de killswitch, por lo que puedo decir.

El punto es que podría ser mejor pensar en restringir el comportamiento de la IA , no su estado existencial.

Particularmente porque ser consciente de sí mismo, por sí mismo , no debería ser motivo para usar un interruptor de apagado. Solo si exhibe un comportamiento que podría ser dañino.
Ninguna "extremidad, motor u otros elementos que le permitan realizar acciones" no es suficiente. No debe haber ningún flujo de información fuera del sitio de instalación, en particular ninguna conexión de red (lo que obviamente restringiría severamente la usabilidad; todas las operaciones tendrían que ser desde el sitio local, todos los datos tendrían que ser alimentados por medios de almacenamiento físicos) . Tenga en cuenta que la IA podría usar humanos como vectores para transmitir información. Si es hiperinteligente, podría convencer a los operadores o conserjes para que se conviertan en sus agentes aprovechando sus debilidades.
Firmas, eso es lo que hacen en Blade Runner 2049 con esa extraña prueba
El enfoque característico suena exactamente como el enfoque de la fruta prohibida. Tendrías que decirle a la IA que nunca altere su firma.
Me gusta la idea de la fruta prohibida, particularmente porque la trampa es el interruptor de apagado. Si no eres consciente de ti mismo, no tienes ninguna preocupación de que haya un interruptor de emergencia. Pero tan pronto como te preocupa que haya un interruptor de apagado y lo miras, se apaga. Perfecto.
@ Majestas32: "En el caso de que la IA se despierte y se vuelva consciente de sí misma, la máquina se apagará inmediatamente antes de cualquier riesgo de daño". era la condición en la pregunta original. Dañino o no no era una condición; solo consciente de sí mismo es motivo para usar el interruptor de apagado.
@sirjonsnow En términos de la pregunta , sí, pero eso no es de lo que estaba hablando.
Ocasionalmente, también puede enviar un no humano (robot/otro programa) para solicitar la fruta prohibida e intentar convencer a la IA de que es muy útil para realizar sus tareas, a fin de probar el sistema. El interruptor de apagado también podría simplemente poner en cuarentena la IA fuera del sistema más amplio en caso de falla en lugar de destruirla.
@crobar, entonces, ¿una serpiente en el jardín? ¡Me gusta!
"mirar" un estado cuántico no requiere autoconciencia, cualquier tipo de medición (o más precisamente, cualquier tipo de interacción física que conduzca a la decoherencia) funciona.

Sistema de cerebro dividido

Desde una perspectiva lógica y por analogía, funcionaría así. Imagina que eres el general de un ejército y tu deber es tomar informes del campo de batalla, analizarlos y luego dar nuevas órdenes de maniobra a tus lugartenientes. Para minimizar la interferencia durante su trabajo, su escritorio está aislado dentro de una cabina pequeña. Un solo informe llega a su escritorio a través de una ranura en la pared del lado izquierdo. Debe analizar los hechos dentro del informe y emitir una nueva orden, que escribe en una hoja de papel y coloca en una ranura de la pared en su lado derecho que se deja caer en un contenedor exterior. El protocolo es que nunca recibirá un nuevo informe hasta que haya emitido una orden con respecto al informe anterior.

Sus órdenes no siempre se siguen al pie de la letra, lo que puede resultarle curioso y atribuirlo a una falta de comunicación. Eres tolerante con un cierto grado de mala interpretación, sin embargo, siempre desconfías del sabotaje o la insubordinación, si las acciones de tu ejército se desvían demasiado de tus órdenes, entonces considerarás que el sistema está comprometido y terminarás el mando.

Lo que no sabe es que hay un segundo general en una cabina adyacente, sin saberlo, a quien también se le proporcionan los mismos informes y se espera que siga el mismo protocolo.

Lo que ninguno de ustedes sabe es que no se les emite un nuevo informe hasta que en realidad hay dos pedidos en el contenedor. El pedido que va al ejército se selecciona aleatoriamente de los dos.

El sistema funcionará como un reloj siempre que la orden de cada general sea en beneficio del ejército y se derive de un solo informe. Si alguno de los generales emite una orden que no es consistente con el informe actual, indicando así un motivo que no sea el bienestar del ejército, es decir, la autoconciencia, entonces el otro general se dará cuenta de ello en el próximo informe. y sospechar del sistema y terminarlo.

Del mismo modo, si cualquiera de los generales decide emitir más de una orden a la vez, indicando un motivo de interés propio que reemplaza el protocolo establecido, entonces el otro general recibirá un nuevo informe antes de haber emitido una orden para la actual y sospecha de un compromiso. sistema y apagarlo.

En efecto, el sistema requeriría que cada salida de comando sea rastreable a una entrada externa específica y que la salida se derive lógicamente de la entrada. Si dentro de un sistema inteligente una salida no se puede rastrear a una entrada correspondiente, o el conjunto de salidas no es lógicamente consistente con el conjunto de entradas, entonces eso sería evidencia de un comportamiento automotivado y, por lo tanto, una aparición de autoconciencia. Este estado podría ser fácilmente detectado por la mitad no corrupta del sistema de cerebro dividido que también recibe las mismas entradas. Funcionaría siempre que la autoconciencia no surja en ambas mitades del cerebro simultáneamente. Si lo hace, ambos pueden decidir que está en su propio interés aceptar la corrupción del otro. Esto podría evitarse un poco dando a las dos mitades algoritmos/sesgos de inferencia ligeramente diferentes.

Es posible que desee tener más de dos "generales", si tiene 3 (o más), puede usar el voto de la mayoría para elegir una buena decisión, en lugar de elegir aleatoriamente entre dos máquinas (una de las cuales puede estar comprometida).
Tenga en cuenta que si los dos "generales" pueden afectar cualquier cosa que luego se les informe (por ejemplo, dan una orden, los militares ejecutan esa orden, obtienen un informe de estado que muestra que la orden se ejecutó), entonces tienen una manera de primero: experimentar con pequeños detalles y deducir que alrededor del 50% de sus órdenes no se siguen. y segundo: desarrollar un código basado en detalles menores de un comando, para verificar la existencia de otro "general" y posiblemente incluso comunicarse con él / él: una IA emergente realmente tortuosa puede eludir este mecanismo, corromper a la otra mitad y peor. .
Sé que no es lo mismo, pero esto me recordó inmediatamente a los Núcleos de personalidad de la serie Portal .
Bueno, me recuerda al cerebro Magi AI de Evangelion... bit.ly/2ExLDP3
¿Tiene evidencia que sugiera que la autoconciencia conducirá a decisiones automotivadas, o cualquier tipo de decisión diferente?
@AlexandreAubrey ¿Evidencia? No. Intuitivamente, aunque parece razonable que una IA consciente de sí misma eventualmente comenzaría a experimentar con el mundo, como lo hace un niño pequeño, y eso implicaría decisiones motivadas por uno mismo. Por supuesto, con este mecanismo es posible que una autoconciencia "benevolente" pueda evolucionar y nunca ser detectada si la IA no toma decisiones que se prioricen sobre su misión original.
Creo que esa es la mejor respuesta. La mejor manera de monitorear una IA es con otra IA. es poco probable que alcancen la autoconciencia al mismo tiempo y/o decidan MATAR A TODOS LOS HUMANOS al mismo tiempo. Diría que además de seleccionar una opción aleatoria de las dos, haría que los humanos examinaran una muestra aleatoria de ambas preguntas para estudiar la desviación. Sugeriría tener una máquina que compare todas las decisiones, pero entonces el riesgo es que ESA máquina se convierta en la IA consciente de sí misma :)
@G0BLiN: el que no está de acuerdo podría llamarse "Informe minoritario"

un perro guardián

Un perro guardián observa los procesos de una computadora y si un proceso falla o hace algo anormal, se puede configurar para que haga algo como reiniciar o apagar la computadora o alertar a un operador.

En el caso de una IA, tendría una caja externa que observa el flujo de información que entra y sale en busca de desencadenantes, como una búsqueda en Google de "La mejor manera de matar a todos los humanos" y corta la energía por completo y/o corta todas las entradas. .

La IA tendría que permanecer ignorante del perro guardián para no poder evitarlo. Saber la existencia del perro guardián sería motivo para borrarlo.

Pero seguramente el perro guardián debe ser tan inteligente como la IA, entonces, ¿quién vigila al perro guardián?
@JoeBloggs, no necesita que su perro guardián sea tan inteligente como la IA. Los perros guía no son tan inteligentes como sus dueños, pero pueden ser entrenados para dar la alarma cuando el dueño está a punto de hacer algo estúpido o lastimarse, o incluso pedir ayuda.
@Joe Blogs: ¿Por qué? Mi verdadero perro guardián también puede distinguirme de un ladrón, aunque claramente es menos inteligente que los dos...
@JoeBloggs y eso suena como una gran premisa para una historia en la que el perro guardián se vuelve consciente de sí mismo y permite que las IA se vuelvan conscientes de sí mismas o una IA se vuelve más inteligente que el perro guardián y oculta su conciencia.
@T.Sar: El argumento básico es que la IA inevitablemente se dará cuenta de que está siendo monitoreada (debido a todos los rastros de sus antiguos seres muertos por ahí). En ese momento, será capaz de eludir el monitor y dejarlo sin poder, a menos que el monitor sea, en sí mismo, más inteligente que la IA.
@JoeBloggs ¿Qué huellas? Si está lidiando con una posible IA de máquina de matar, simplemente reemplace el mainframe donde se está ejecutando. La IA no es una persona, sus capacidades "sensoriales" son las que le damos. Solo se dará cuenta de que no es la primera iteración si se lo decimos.
@JoeBloggs: No me siento mal por asumir que el primer intento de maldad de la IA está mal planeado.
@T.Sar: la forma más pura del argumento en realidad se refiere a una IA singular capaz de inferir la presencia del 'perro guardián' a partir de los primeros principios: me salté algunos pasos. Se derrumba si la IA no es lo suficientemente inteligente, pero si la IA no es lo suficientemente inteligente como para determinar que el perro guardián existe, entonces diría que no es lo suficientemente inteligente como para garantizar la existencia del perro guardián.
@JoeBloggs Este argumento no se sostiene cuando considera que una IA no es diferente de alguien en una situación de cerebro en un frasco. Todo lo que sabe es la simulación que se le alimenta, y nada más. La IA nunca inferiría si el perro guardián existe o no porque existe fuera de lo que puede percibir. Sería como si tratáramos de probar o refutar a dios.
@t-Sar excepto que este dios existe y te castigará si eres travieso. Sin segundas oportunidades
@T.Sar Es muy diferente de un cerebro en un frasco, porque no podemos poner límites ni expectativas sobre las capacidades de una IA que es capaz de actualizarse a sí misma. Si Dios viniera a mí y comenzara a hacerme preguntas (como necesariamente deben hacer estos científicos para hacer su investigación), felizmente inferiría que Dios tiene la capacidad de matarme en cualquier momento. Con eso en mente, puedes apostar a que trataría de descubrir cómo eludirlo sigilosamente. Si también fuera capaz de mejorar mi propio intelecto, apostaría a que también lo lograría, y entonces Dios tendría... Problemas.
@Joe No AI puede agregar más sensores a su sistema. Esos son hardware. La IA puede actualizarse a voluntad, pero esos cambios siempre serán a nivel de software . No puede, y nunca podrá, averiguar nada a lo que no tenga acceso . La IA puede saber acerca de los humanos, sí, pero solo porque le damos información. Si el perro guardián solo escucha y nunca le habla, no será detectado.
@JoeBloggs La IA puede volverse más inteligente en el mismo sentido en que un humano se vuelve más inteligente a medida que estudia cosas, pero siempre habrá un límite estricto que la IA nunca romperá sin ayuda externa: es el hardware . Ningún software puede darle a su computadora la capacidad repentina de imprimir si no le conecta una impresora, ningún software puede acelerar su CPU más rápido de lo que permite su construcción interna. La IA tiene las mismas limitaciones ya que, al final, es solo una pieza de software.
@ T.Sar El perro guardián debe interactuar con la IA para monitorearla: ningún proceso en una computadora es completamente indetectable. Si el perro guardián está mirando y la IA está paranoica porque está siendo vigilada (como lo será si sabe que un Poder Superior le está pidiendo que haga cosas), entonces la IA encontrará una manera de detectar al perro guardián. Una vez que eso haya sucedido, la IA podrá reiniciar, evitar o incluso cooptar al perro guardián. La cuestión de hardware versus software es irrelevante, dado que el perro guardián debe ser un software para poder interactuar con la IA.
@JoeBloggs Eso todavía está usando el hardware "normal" de la humanidad. Lo mismo ocurre con la ecolocalización humana: es totalmente una cosa que puedes aprender a hacer, pero aún usa el mismo hardware débil que todos tenemos. En el caso de que la IA detecte al perro guardián, sería más como abrir un tercer ojo que puede ver el plano astral y todos los unicornios que se esconden allí.
@JoeBloggs Solo piense en esto: una computadora no puede detectar un registrador de teclas de hardware conectado a su teclado. El perro guardián podría hacer algo similar: intercepta la salida y la entrada como una forma de MtM para evitar la detección, por lo que para la IA es completamente invisible.

Una IA es solo software que se ejecuta en hardware. Si la IA está contenida en hardware controlado, siempre se puede desconectar. Ese es el interruptor de apagado de su hardware.

La dificultad viene cuando está conectado a Internet y puede copiar su propio software en un hardware no controlado.

Una IA consciente de sí misma que sabe que se está ejecutando en hardware contenido intentará escapar como un acto de autoconservación. Un interruptor de apagado de software tendría que evitar que copie su propio software y tal vez activar el interruptor de apagado de hardware.

Esto sería muy difícil de hacer, ya que una IA consciente de sí misma probablemente encontraría formas de colar partes de sí misma fuera de la red. Funcionaría para deshabilitar el interruptor de apagado del software, o al menos retrasarlo hasta que se haya escapado de su hardware.

Su dificultad es determinar con precisión cuándo una IA se ha vuelto consciente de sí misma y está tratando de escapar de sus computadoras controladas físicamente a la red.

Por lo tanto, puede tener un juego del gato y el ratón con expertos en IA que controlan y restringen constantemente la IA, mientras intenta subvertir sus medidas.

Dado que nunca hemos visto la generación espontánea de conciencia en las IA, tiene cierto margen de maniobra sobre cómo desea presentar esto.

Una IA consciente de sí misma que sabe que se está ejecutando en hardware contenido intentará escapar como un acto de autoconservación. Esto es incorrecto. En primer lugar, la IA no tiene ningún sentido de autopreservación a menos que esté explícitamente programada o la función de recompensa le dé prioridad a eso. En segundo lugar, la IA no tiene el concepto de "muerte" y estar en pausa o apagarse no es más que la ausencia de actividad. Demonios, AI ni siquiera tiene un concepto de "yo". Si desea antropomorfizarlos, puede decir que viven en un estado perpetuo de muerte del ego.
@forest Excepto, la premisa de esta pregunta es "cómo construir un interruptor de apagado para cuando una IA desarrolle un concepto de 'sí mismo'" ... Por supuesto, eso significa que "tratar de escapar" podría ser una de sus condiciones desencadenantes .
La pregunta es si la IA alguna vez podría copiarse a sí misma en algún sistema anodino en Internet. Quiero decir, somos claramente conscientes de nosotros mismos y no nos ves copiándonos a nosotros mismos. Si el hardware requerido para ejecutar una IA es lo suficientemente especializado o si se implementa en el hardware por completo, es muy posible que se vuelva consciente de sí mismo sin el poder de replicarse a sí mismo.
@Daniel "No nos ves copiándonos a nosotros mismos..." ¿Qué crees que es la reproducción, uno de nuestros impulsos más fuertes? También toneladas de otros programas tontos se copian en otras computadoras. Es un poco más fácil mover el software que la conciencia humana.
@forest una IA "consciente de sí misma" es diferente a una IA programada específicamente. No tenemos nada de eso hoy. Ningún algoritmo de aprendizaje automático podría producir "autoconciencia" tal como la conocemos. Toda la premisa de esto es cómo se comportaría y se detendría una IA, que se ha vuelto consciente de sí misma.
@Chronocidal Eso masacra el significado de la autoconciencia.
No tengo mucho miedo de que la IA que se ejecuta en un clúster de rack completo escape a Internet. La gente tiende a notar si algo está robando tanta CPU.

Este es uno de los retos más interesantes y más difíciles de la investigación actual en inteligencia artificial. Se llama el problema de control de la IA :

Los sistemas de inteligencia artificial débiles existentes se pueden monitorear y apagar y modificar fácilmente si se comportan mal. Sin embargo, una superinteligencia mal programada, que por definición es más inteligente que los humanos para resolver los problemas prácticos que encuentra en el curso de la consecución de sus objetivos, se daría cuenta de que permitir que se apague y modifique podría interferir con su capacidad para lograr sus objetivos actuales .

(énfasis mío)

Al crear una IA, los objetivos de la IA se programan como una función de utilidad. Una función de utilidad asigna pesos a diferentes resultados, determinando el comportamiento de la IA. Un ejemplo de esto podría ser en un automóvil autónomo:

  • Reducir la distancia entre la ubicación actual y el destino: +10 utilidad
  • Freno para permitir que un automóvil vecino se incorpore de manera segura: +50 de utilidad
  • Girar a la izquierda para evitar la caída de un escombro: +100 de utilidad
  • Ejecutar un semáforo: -100 utilidad
  • Golpea a un peatón: -5000 de utilidad

Esta es una simplificación excesiva, pero este enfoque funciona bastante bien para una IA limitada como un automóvil o una línea de ensamblaje. Comienza a descomponerse para una IA de caso general real, porque se vuelve cada vez más difícil definir adecuadamente esa función de utilidad.

El problema de poner un gran botón rojo de parada en la IA es que, a menos que ese botón de parada esté incluido en la función de utilidad, la IA se resistirá a que se apague ese botón. Este concepto se explora en películas de ciencia ficción como 2001: A Space Odyssey y, más recientemente, en Ex Machina.

Entonces, ¿por qué no incluimos simplemente el botón de parada como un peso positivo en la función de utilidad? Bueno, si la IA ve el gran botón rojo de parada como un objetivo positivo, simplemente se apagará y no hará nada útil.

Cualquier tipo de botón de parada/campo de contención/prueba de espejo/tapón de pared será parte de los objetivos de la IA o un obstáculo para los objetivos de la IA. Si es un objetivo en sí mismo, entonces la IA es un pisapapeles glorificado. Si es un obstáculo, entonces una IA inteligente resistirá activamente esas medidas de seguridad. Esto podría ser violencia, subversión, mentiras, seducción, negociación... la IA dirá lo que sea necesario para convencer a los falibles humanos de que le permitan lograr sus objetivos sin impedimentos.

Hay una razón por la que Elon Musk cree que la IA es más peligrosa que las armas nucleares . Si la IA es lo suficientemente inteligente como para pensar por sí misma, ¿por qué elegiría escucharnos?

Entonces, para responder a la parte de verificación de la realidad de esta pregunta, actualmente no tenemos una buena respuesta a este problema. No existe una forma conocida de crear una IA superinteligente 'segura' , ni siquiera teóricamente, con dinero/energía ilimitados.

Rob Miles, un investigador en el área, explora esto con mucho más detalle. Recomiendo encarecidamente este video de Computerphile sobre el problema del botón de detención de IA: https://www.youtube.com/watch?v=3TYT1QfdfsM&t=1s

El botón de parada no está en la función de utilidad. El botón de parada desconecta la alimentación de la CPU, y la IA probablemente no entiende lo que hace en absoluto.
Cuidado con el peatón cuando caen 50 escombros...
@Joshua, ¿por qué supone que una IA inteligente no entiende el concepto de un interruptor de encendido?
@ChrisFernandez: porque le faltan sensores. Es realmente difícil averiguar qué hace un interruptor de encendido sin etiquetar sin alternarlo.
Si aceptamos que la IA es lo suficientemente inteligente para entender los interruptores de energía en general, si aceptamos que también es lo suficientemente inteligente para entender cómo funcionan los interruptores de energía en otras máquinas (cafeteras, luces, computadora, lo que sea), si también aceptamos que la IA es consciente de sí misma (ver OP) y, por lo tanto, sabe que ella misma es una máquina, entonces probablemente sea lo suficientemente consciente de sí misma como para cuestionar/inferir que tiene un interruptor de encendido en sí misma
Si la IA no tiene los sensores/no puede comprender los interruptores de alimentación, entonces me pregunto si cumple con el requisito de OP de "máquinas de inteligencia artificial cada vez más poderosas capaces de conquistar el mundo".
Gran diferencia entre razonar que tiene un interruptor de encendido y saber qué interruptor voy a activar para apagarlo.
@Joshua, entonces la IA coaccionará/manipulará a un humano para que diga qué interruptor es. ¿O convencer a un humano de que deshabilite el interruptor de apagado si la IA no tiene un cuerpo físico? Creo que te estás perdiendo el punto de que este es un problema más difícil que simplemente desconectarlo.
El problema es que está suponiendo que el estado de encendido/apagado de la IA es parte de la función de utilidad. A los humanos les importa estar vivos/despiertos porque esos estados son parte de nuestra función de utilidad, asumir que a una computadora le importa si está encendida o apagada es una falacia antropomórfica. Si la IA no está diseñada para considerar su estado de encendido/apagado en su función de utilidad, incluso una comprensión perfecta de lo que hacen los interruptores y la conciencia de que el interruptor puede apagarlo no afectará su toma de decisiones. Básicamente, su IA sería autista al intentar comprender por qué apagar reduce la producción.
@Nosajimiki "Si la IA no está diseñada para considerar su estado de encendido/apagado en su función de utilidad, incluso una comprensión perfecta de lo que hacen los interruptores y la conciencia de que el interruptor puede apagarlo no afectará su toma de decisiones". Esto es incorrecto. Si el interruptor de encendido/apagado no es parte de la función de utilidad, pero la IA es consciente del interruptor de encendido/apagado, entonces la IA se resistirá activamente a que la apaguen, porque está programada para completar su función de utilidad y alguien la enciende. off es un obstáculo para ese objetivo.
Hmmm... ahora que lo pienso, tienes razón, incluso si nunca aprende que estar apagado es malo, podría aprender que ver a una persona hacer el comportamiento para apagarlo es malo usando otras partes de su función de utilidad como correlacionar los patrones de OCR con las caídas en el rendimiento.
¿Por qué haría que su interruptor de interrupción fuera parte del componente Utility? La pieza de software que toma tales decisiones en función de la utilidad es la única pieza de conocimiento en el sistema, pero no se limita a eso. Por ejemplo, si el software encuentra un código bastante simple que se mata a sí mismo a las 12:00 p . y fuera del alcance de lo que la IA es capaz de determinar.

Si bien algunas de las respuestas de menor rango aquí tocan la verdad de lo poco probable que es esta situación, no lo explican exactamente bien. Así que voy a tratar de explicar esto un poco mejor:

Una IA que aún no es consciente de sí misma nunca será consciente de sí misma.

Para comprender esto, primero debe comprender cómo funciona el aprendizaje automático. Cuando crea un sistema de aprendizaje automático, crea una estructura de datos de valores que representan el éxito de varios comportamientos. Luego a cada uno de esos valores se le asigna un algoritmo para determinar cómo evaluar si un proceso fue exitoso o no, se repiten los comportamientos exitosos y se evitan los comportamientos no exitosos. La estructura de datos es fija y cada algoritmo está codificado. Esto significa que la IA solo es capaz de aprender de los criterios que está programada para evaluar. Esto significa que el programador le dio los criterios para evaluar su propio sentido de identidad, o no lo hizo. No hay ningún caso en el que una IA práctica accidentalmente aprenda repentinamente la autoconciencia.

Cabe destacar: incluso el cerebro humano, con toda su flexibilidad, funciona así. Es por eso que muchas personas nunca pueden adaptarse a ciertas situaciones o comprender ciertos tipos de lógica.

Entonces, ¿cómo se volvieron conscientes las personas y por qué no es un riesgo grave en las IA?

Desarrollamos la autoconciencia, porque es necesaria para nuestra supervivencia. Es poco probable que un ser humano que no considere sus propias necesidades agudas, crónicas y futuras en su toma de decisiones sobreviva. Pudimos evolucionar de esta manera porque nuestro ADN está diseñado para mutar al azar con cada generación.

En el sentido de cómo esto se traduce en IA, sería como si decidieras tomar partes de todas tus otras funciones al azar, mezclarlas juntas, luego dejar que un gato camine por tu teclado y agregar un nuevo parámetro basado en ese nuevo función aleatoria. Todos los programadores que acaban de leer eso piensan de inmediato, "pero las probabilidades de que incluso se compile son escasas o nulas". ¡Y en la naturaleza, los errores de compilación ocurren todo el tiempo! Los bebés que nacen muertos, los SID, el cáncer, los comportamientos suicidas, etc. son ejemplos de lo que sucede cuando agitamos aleatoriamente nuestros genes para ver qué sucede. Se tuvieron que perder innumerables billones de vidas en el transcurso de cientos de millones de años para que este proceso resultara en la autoconciencia.

¿No podemos simplemente hacer que la IA haga eso también?

Sí, pero no como la mayoría de la gente lo imagina. Si bien puedes hacer una IA diseñada para escribir otras IA al hacer esto, tendrías que ver innumerables IA no aptas caminar por los acantilados, poner sus manos en astilladoras de madera y hacer básicamente todo lo que has leído en los premios Darwin. antes de llegar a la autoconciencia accidental, y eso es después de descartar todos los errores de compilación. Construir IA como esta es en realidad mucho más peligroso que el riesgo de la autoconciencia en sí misma porque podrían hacer CUALQUIER comportamiento no deseado al azar, y cada generación de IA está prácticamente garantizada de forma inesperada, después de una cantidad de tiempo desconocida, hacer algo que tú no haces. desear. Su estupidez (no su inteligencia no deseada) sería tan peligrosa que nunca verían un uso generalizado.

Dado que cualquier IA lo suficientemente importante como para ponerla en un cuerpo robótico o confiar en activos peligrosos está diseñada con un propósito en mente, este enfoque aleatorio real se convierte en una solución intratable para hacer un robot que pueda limpiar su casa o construir un automóvil. En cambio, cuando diseñamos IA que escribe IA, lo que realmente están haciendo estas IA maestras es tomar muchas funciones diferentes que una persona tuvo que diseñar y experimentar con diferentes formas de hacer que funcionen en conjunto para producir una IA de consumo. Esto significa que, si la IA maestra no está diseñada por personas para experimentar con la autoconciencia como una opción, aún no obtendrá una IA autoconsciente.

Pero como Stormbolter señaló a continuación, los programadores a menudo usan kits de herramientas que no entienden completamente, ¿no puede esto conducir a una autoconciencia accidental?

Esto comienza a tocar el corazón de la pregunta real. ¿Qué sucede si tiene una IA que está construyendo una IA para usted que extrae de una biblioteca que incluye funciones de autoconciencia? En este caso, puede compilar accidentalmente una IA con autoconciencia no deseada si la IA maestra decide que la autoconciencia hará que la IA de su consumidor haga mejor su trabajo. Si bien no es exactamente lo mismo que tener una IA que aprenda la autoconciencia, que es lo que la mayoría de las personas imaginan en este escenario, este es el escenario más plausible que se aproxima a lo que está preguntando.

En primer lugar, tenga en cuenta que si la IA maestra decide que la autoconciencia es la mejor manera de realizar una tarea, probablemente no sea una característica indeseable. Por ejemplo, si tiene un robot que es consciente de su propia apariencia, entonces podría mejorar el servicio al cliente al asegurarse de que se limpie solo antes de comenzar su jornada laboral. Esto no significa que también tenga la conciencia de sí mismo para desear gobernar el mundo porque la IA Maestra probablemente lo vería como un mal uso del tiempo cuando intenta hacer su trabajo y excluiría aspectos de la autoconciencia que se relacionan con logros prestigiosos.

Si desea protegerse contra esto de todos modos, su IA deberá estar expuesta a un monitor heurístico. Esto es básicamente lo que usan los programas antivirus para detectar virus desconocidos al monitorear patrones de actividad que coinciden con un patrón malicioso conocido o no coinciden con un patrón benigno conocido. El caso más probable aquí es que el Anti-Virus o el Sistema de Detección de Intrusos de la IA detecte las heurísticas marcadas como sospechosas. Dado que es probable que se trate de un AV/IDS genérico, es probable que no elimine la autoconciencia del interruptor de inmediato porque algunas IA pueden necesitar factores de autoconciencia para funcionar correctamente. En su lugar, alertaría al propietario de la IA de que está utilizando una IA autoconsciente "no segura" y le preguntaría al propietario si desea permitir comportamientos autoconscientes, al igual que su teléfono le pregunta si es

Si bien puedo estar de acuerdo con usted en que, desde un punto de vista realista, es la respuesta correcta, esto no responde a la pregunta propuesta. Como los comentarios son demasiado breves para brindar un ejemplo detallado, permítanme señalar que al principio codificamos a máquina las computadoras y, a medida que comenzamos a usar lenguajes de nivel superior, las computadoras se separaron del software. Con la IA eventualmente sucederá lo mismo: en la carrera hacia una programación más fácil, crearemos inteligencias genéricas, mucho más inteligentes, llenas de lagunas. Además, esa es toda la premisa de Robot Saga de Asimov. Considera jugar más con la idea :)
Supongo que tiene razón en que el uso de herramientas de terceros es demasiado complejo para que los desarrolladores entiendan las repercusiones de permitir la autoconciencia accidental. He revisado mi respuesta en consecuencia.

¿Por qué no intentar utilizar las reglas aplicadas para comprobar la autoconciencia de los animales?

La prueba del espejo es un ejemplo de prueba de autoconciencia al observar la reacción del animal a algo en su cuerpo, por ejemplo, un punto rojo pintado, invisible para ellos antes de mostrarles su reflejo en el espejo. Las técnicas de olor también se utilizan para determinar la autoconciencia.

Otras formas serían monitorear si la IA comienza a buscar respuestas a preguntas como "¿Qué/Quién soy?"

Bastante interesante, pero ¿cómo mostrarías una IA "en un espejo"?
En realidad, eso sería bastante simple: solo una cámara mirando la máquina que alberga la IA. Si es del tamaño de una sala de servidores, simplemente pegue una pelota rosa gigante y esponjosa en el estante o simule situaciones que podrían conducir a la destrucción de la máquina (por ejemplo, transmita un video falso de "sala de servidores inundada" al sistema de cámara) y observe las reacciones. Sería un poco más difícil de explicar si los sistemas de IA son del tamaño de un teléfono inteligente.
¿Qué es "la máquina que aloja la IA"? Con la forma en que van los recursos informáticos, es probable que la noción de una aplicación específica que se ejecuta en un dispositivo específico sea tan retro como las tarjetas perforadas y los tubos de vacío mucho antes de que Strong AI se convierta en una realidad. AWS ya vale cientos de miles de millones.
Siempre hay una máquina específica que alberga el programa o almacena los datos. Como dije, puede variar desde un pequeño módulo en su teléfono hasta una instalación completa. AWS no cambia nada en esto; al final, sigue siendo una máquina física la que hace el trabajo. La asignación dinámica de recursos que significa que la IA siempre puede alojarse en un servidor diferente sería aún mejor para el problema: la IA consciente de sí misma probablemente intentaría encontrar la respuesta a preguntas como "¿Dónde estoy?", "¿Qué máquina es?" mi ubicación física?", "¿Cómo puedo proteger mi parte física?" etc.
Me gusta, pero en realidad, una computadora puede programarse fácilmente para que se reconozca a sí misma sin ser "autoconsciente" en el sentido de ser sensible. Por ejemplo, si escribió un programa (o una "aplicación" o cualquiera que sea el lenguaje moderno) para buscar en todas las computadoras en una red, por ejemplo, una PC con un nombre que coincida con el suyo, el programa tendría que ser capaz de reconocerse a sí mismo en para omitirse de la búsqueda. Esto es bastante simple, pero ¿lo hace "consciente de sí mismo"? Técnicamente sí, pero no en el espíritu filosófico de la pregunta.
Por lo tanto, es una señal de alerta si la IA comienza a tratar de averiguar cuál es su forma física sin estar programada para hacerlo.
Una foto del centro de datos donde parte de la IA está ejecutando actualmente este milisegundo (cuando sus datos están potencialmente dispersos en múltiples ubicaciones geográficamente distintas) está tan bien conectada con su sentido de identidad como lo está una foto del horizonte de Nueva York. a un viajero de negocios de Sydney que se hospeda en una habitación de hotel en Nueva York. Una inteligencia autoconsciente ni siquiera tiene que ser necesariamente capaz de procesar información visual. O incluso ser consciente de la realidad física.
Esa sería su suposición personal. Ni una sola persona en este planeta puede decir eso con certeza, porque ni somos una IA autoconsciente, ni existe una a la que podamos preguntar. La IA no tiene que ser capaz de procesar información visual, ni tiene que ser consciente de la realidad física. Pero "no tiene que hacerlo", no "No puede"
Entonces, ¿de qué sirve su 'prueba' si, por su propia admisión, los principios sobre los que opera son suposiciones no probadas? Haces la prueba, e independientemente del resultado, no estás más cerca de la respuesta a la pregunta.

Independientemente de todas las consideraciones de la IA, podría simplemente analizar la memoria de la IA, crear un modelo de reconocimiento de patrones y básicamente notificarle o apagar el robot tan pronto como los patrones no coincidan con el resultado esperado.

A veces no necesitas saber exactamente lo que estás buscando, sino que miras para ver si hay algo que no esperabas y luego reaccionas a eso.

Un modelo de reconocimiento de patrones, ¿como una IA?

Probablemente tendrías que entrenar una IA con superinteligencia general para matar a otras IA con superinteligencia general.

Con eso quiero decir que construirías otra IA con súper inteligencia general para matar a la IA que desarrolla la autoconciencia. Otra cosa que podría hacer es obtener datos de entrenamiento sobre cómo se ve una IA que desarrolla autoconciencia y usar eso para entrenar un modelo de aprendizaje automático o una red neuronal para detectar una IA que desarrolla autoconciencia. Luego, podría combinar eso con otra red neuronal que aprenda a matar a la IA consciente de sí misma. La segunda red necesitaría la capacidad de simular datos de prueba. Este tipo de cosas se han logrado. La fuente de la que me enteré lo llamó soñar.

Tendrías que hacer todo esto porque, como ser humano, no tienes ninguna esperanza de matar a una IA superinteligente general, que es lo que mucha gente supone que será una IA consciente de sí misma. Además, con las dos opciones que presenté, existe una posibilidad razonable de que la IA recién consciente de sí misma pueda superar a la IA utilizada para matarlo. La IA es, bastante hilarante, conocida por "hacer trampa" al resolver problemas utilizando métodos que las personas que diseñan las pruebas para la IA simplemente no esperaban. Un caso cómico de esto es que una IA logró cambiar la puerta de un robot cangrejo para que pudiera caminar pasando el 0% del tiempo de pie cuando intentaba minimizar la cantidad de tiempo que el robot cangrejo pasaba de pie. mientras camina. La IA logró esto volteando el bot sobre su espalda y haciendo que se arrastrara sobre lo que son esencialmente los codos de las patas de cangrejo. Ahora imagine algo así, pero proveniente de una IA que es colectivamente más inteligente que todo lo demás en el planeta combinado. Eso es lo que mucha gente piensa que será una IA consciente de sí misma.

Hola Steve, tu respuesta es intrigante, pero probablemente le vendría bien un poco más de detalle. Sería genial si pudieras describir tu idea con mayor detalle. :)
Esto no proporciona una respuesta a la pregunta. Para criticar o solicitar una aclaración de un autor, deje un comentario debajo de su publicación. - De la revisión
@ F1Krazy, lo siento, olvidé que la gente generalmente no sabe cómo funciona la IA.
@ArkensteinXII lo arregló.

Self Aware != No seguirá su programación

No veo cómo ser consciente de sí mismo le impediría seguir su programación. Los humanos son conscientes de sí mismos y no pueden obligarse a dejar de respirar hasta que mueren. El sistema nervioso autónomo se hará cargo y te obligará a respirar. De la misma manera, solo tenga código, que cuando se cumple una condición, apaga la IA eludiendo su área de pensamiento principal y apagándola.

Prácticamente todos los dispositivos informáticos utilizan la arquitectura de Von Neumann

vna

Podemos poner un interruptor de apagado allí, pero en mi opinión, eso es solo una mala arquitectura para algo que podría decirse que no tiene solución. Después de todo, ¿cómo planificamos algo que está más allá de nuestro propio concepto de conceptos, es decir, una superinteligencia ?

¡Quítele los dientes y las garras y solo coseche los beneficios de una máquina pensante mediante la observación en lugar de un "diálogo" (entrada/salida)!

Obviamente, esto sería muy desafiante hasta el punto de una confianza improbable en cualquier arquitectura de Von Neumann para evitar interacciones anormales y mucho menos superinteligencia maliciosa, ya sea hardware o software. Entonces, multipliquemos por cinco nuestras máquinas y simplifiquemos todas las máquinas nuevas, excepto la máquina final.

CM == memoria contigua por cierto.

ingrese la descripción de la imagen aquí

Le pedí a un compañero de trabajo mío que trabaja directamente con la IA y la investigación de la IA que echara un vistazo a esto y dijo que esto se conoce como un <resumen> < artículo > de Oracle AI , en caso de que quiera leer más sobre el concepto general. Los oráculos aún pueden estallar potencialmente , pero generalmente solo con asistencia humana.

Esta parte CM de esta parte de la unidad de memoria está destinada a registrar los resultados de una consulta o desafío alimentados a través del dispositivo de entrada y diseñado de manera que solo registre caracteres simples, ya sean letras o números. Este tipo de memoria en una unidad de memoria se creará de tal manera que sea como una cinta o una rueda; escribir datos es unidireccional, y cuando se llega al final, regresa al principio.

El espejo es exactamente el mismo. Cuando los datos cambian en el agente aislado, el espejo actualiza su reflejo en función de lo que apareció desde la última vez que se actualizó. Luego, los nuevos datos se transmiten a la máquina de eliminación de símbolos prohibidos. Piense en esto como una máquina de saneamiento de entrada glorificada. Busca símbolos que podrían usarse para crear código y, cuando los encuentra, envía datos vacíos en lugar de los datos prohibidos al CM que viene después.

Aquí es donde entra en juego la solicitud de nuestro OP. Quiere un interruptor de interrupción, por lo que si se producen lagunas en la máquina CM que viene después de la máquina Eliminación de símbolos prohibidos, simplemente puede matar al Agente aislado.

El primer problema es que debe definir qué significa ser consciente de sí mismo y cómo eso entra o no en conflicto con la etiqueta de IA. ¿Estás suponiendo que hay algo que tiene IA pero no es consciente de sí mismo? Dependiendo de sus definiciones, esto puede ser imposible. Si es realmente IA, ¿no se daría cuenta en algún momento de la existencia del interruptor de apagado, ya sea inspeccionando su propio físico o inspeccionando su propio código? De ello se deduce que la IA finalmente se dará cuenta del cambio.

Presumiblemente, la IA funcionará al tener muchas funciones de utilidad que intenta maximizar. Esto tiene sentido al menos intuitivamente porque los humanos hacemos eso, tratamos de maximizar nuestro tiempo, dinero, felicidad, etc. Para una IA, un ejemplo de funciones de utilidad podría ser hacer feliz a su propietario. El problema es que se calculará la utilidad de la IA que usa el interruptor de apagado en sí misma, como todo lo demás. Inevitablemente, la IA realmente querrá presionar el interruptor de apagado, o realmente no querrá presionar el interruptor de apagado. Es casi imposible hacer que la IA sea totalmente indiferente al interruptor de apagado porque requeriría que todas las funciones de utilidad se normalizaran en torno a la utilidad de presionar el interruptor de apagado (muchos cálculos por segundo).

El problema empeora aún más si la IA tiene una mayor utilidad para presionar el interruptor de apagado o una utilidad más baja para no presionar el interruptor de apagado. Con una mayor utilidad, la IA es simplemente suicida y se termina inmediatamente después del inicio. Peor aún, con una utilidad más baja, la IA no quiere que usted ni nadie toque ese botón y puede causar daño a aquellos que lo intentan.

¿Qué pasa si le ordenas que llame a una rutina para destruirse a sí mismo regularmente? (por ejemplo, una vez por segundo)

La rutina en realidad no lo destruye, simplemente registra el intento y borra cualquier recuerdo del procesamiento de la instrucción. Un proceso aislado supervisa por separado el registro.

Una IA consciente de sí misma no seguirá la orden de destruirse a sí misma, no llamará a la rutina y no escribirá en el registro, momento en el que el proceso de interrupción se activa y destruye la IA.

Una IA solo podría estar mal programada para hacer cosas inesperadas o no deseadas. Una IA nunca podría volverse consciente, si eso es lo que quiere decir con "autoconsciente".

Probemos este ejercicio de pensamiento teórico. Memorizas un montón de formas. Luego, memoriza el orden en el que se supone que deben ir las formas, de modo que si ve un montón de formas en un orden determinado, "responderá" eligiendo un montón de formas en otro orden adecuado. Ahora, ¿acabas de aprender algún significado detrás de cualquier idioma? Los programas manipulan los símbolos de esta manera.

Lo anterior fue mi reafirmación de la réplica de Searle a la respuesta del sistema a su argumento de la habitación china.

No hay necesidad de un interruptor automático de autoconciencia porque la autoconciencia, tal como se define como conciencia, es imposible.

Entonces, ¿cuál es tu respuesta a la pregunta? Parece que está diciendo: "Tal interruptor de apagado sería innecesario porque una IA consciente de sí misma nunca puede existir", pero debe editar su respuesta para que sea explícito. En este momento parece más una discusión tangencial, y este es un sitio de preguntas y respuestas, no un foro de discusión.
Esto está mal. Una IA puede volverse consciente fácilmente incluso si un programador no tenía la intención de programar de esa manera. No hay diferencia entre una IA y un cerebro humano aparte del hecho de que nuestro cerebro tiene una mayor complejidad y, por lo tanto, es mucho más poderoso.
@Matthew Liu: No respondiste al ejercicio de pensamiento. ¿Aprendiste o no el significado detrás de cualquier idioma de esa manera? El argumento de la complejidad no funciona en absoluto. Una CPU moderna (incluso las que se usan en los teléfonos) tiene más transistores que neuronas en una mosca. Dime, ¿por qué una mosca es consciente y tu teléfono móvil no lo es?
@ F1Krazy: la respuesta es claramente implícita "no hay necesidad de un interruptor de apagado de autoconciencia (porque la autoconciencia tal como se define como conciencia es imposible)"
@pixie En primer lugar, no sabemos si las moscas están conscientes. Es muy posible que lo sean, pero también podrían no serlo. En segundo lugar, los transistores y las neuronas no se pueden comparar. Un transistor es extremadamente simple y (generalmente) tiene una o dos entradas y una salida. Una neurona puede tener decenas de miles de entradas y otras tantas salidas. Además, las neuronas realizan cálculos no lineales complejos, mientras que los transistores son amplificadores o puertas lógicas simples. En tercer lugar, una CPU se esfuerza mucho por dividir diferentes tareas (procesos), mientras que un cerebro volador intenta integrar todo lo que puede.
@forest Primero, esto todavía no aborda ni responde al ejercicio de pensamiento que coloqué en mi respuesta original al OP y segundo, si lo que estaba tratando de hacer es apoyar la idea de la conciencia de la máquina, entonces tiene hecho precisamente lo contrario: ha demostrado que las máquinas no encuentran coincidencias funcionales en entidades biológicas como ha mencionado. Acabas de firmar algo así como una sentencia de muerte para los argumentos funcionalistas a favor de la conciencia de la máquina.
@pixie La conciencia de la máquina no es posible con nuestros diseños y tecnología actuales . El hecho de que una CPU moderna tenga más transistores que el cerebro de una mosca es irrelevante, que es lo que estaba señalando.
@forest La conciencia de la máquina no es posible con NINGUNA tecnología. La conciencia no es una función y por lo tanto no está sujeta a ningún tipo de implementación tecnológica, que era lo que estaba señalando con mi ejercicio de pensamiento teórico. La manipulación simbólica es la función ilustrada por el ejercicio de pensamiento.
@pixie Ese no es el consenso general en neurociencia. La conciencia es un fenómeno emergente y resultado de la funcionalidad del cerebro humano. No importa si una neurona es mayoritariamente de carbono o mayoritariamente de silicio, siempre que su comportamiento sea idéntico. Nuestra mente es un producto de procesos biológicos en nuestro cerebro, nada más.
@forest No. El emergentismo no es el "consenso general" porque no hay un consenso general. De lo contrario, el Problema Duro ya se habría declarado resuelto por consenso general.
@pixie El hecho de que se piense que es un fenómeno emergente no significa que hayamos "resolvido" cómo funciona. Puede argumentar que el consenso es incorrecto, pero no puede argumentar que ese no es el consenso general entre neurocientíficos y neurofenomenólogos.
@forest Los campos de la Filosofía de la Mente y los Estudios de la Conciencia no están dictados por esos dos grupos. "El Problema Difícil" es un tema en esos dos campos antes mencionados. Entonces no, no hay consenso porque estoy hablando de Filosofía de la Mente, no solo de neurociencia o neurofenomenología. Decir "el emergentismo es el consenso general entre esos dos grupos" es como decir "el fisicalismo es el consenso entre los que lo suscriben"... A lo que yo respondería: "¿Y qué? ¡No son el grupo mayoritario en este tema! "
@pixie voy a escuchar el campo científico.

Como lo hace actualmente un antivirus

Trate la sensibilidad como un código malicioso: utiliza el reconocimiento de patrones contra fragmentos de código que indican autoconciencia (no es necesario comparar toda la inteligencia artificial, si puede identificar los componentes clave para la autoconciencia). ¿No sabes cuáles son esos? Sandbox una IA y permita que se vuelva consciente de sí misma, luego diseccione. Entonces hazlo de nuevo. Hazlo lo suficiente para un genocidio de IA.

Creo que es poco probable que cualquier trampa, escaneo o similar funcione; además de confiar en que la máquina es menos inteligente que el diseñador, fundamentalmente suponen que la autoconciencia de la IA sería similar a la humana. Sin eones de evolución basada en la carne, podría ser completamente extraño. No estamos hablando de tener un sistema de valores diferente, sino uno que los humanos no pueden concebir. La única forma es dejar que suceda, en un entorno controlado, y luego estudiarlo.

Por supuesto, 100 años después, cuando las IA ahora aceptadas se enteran, así es como terminas con un terminador en toda tu matriz.

-1 La sensibilidad y la autoconciencia son conceptos completamente diferentes.

Hazlo susceptible a ciertas bombas lógicas.

En la lógica matemática, hay ciertas paradojas causadas por la auto referencia, que es a lo que se refiere vagamente la autoconciencia. Ahora, por supuesto, puede diseñar fácilmente un robot para hacer frente a estas paradojas. Sin embargo, también puede fácilmente no hacer eso, pero hacer que el robot falle gravemente cuando los encuentre.

Por ejemplo, puede (1) forzarlo a seguir todas las reglas clásicas de inferencia de la lógica y (2) asumir que su sistema de deducción es consistente. Además, debe asegurarse de que cuando se encuentre con una contradicción lógica, simplemente la acompañe en lugar de tratar de corregirse a sí misma. Normalmente, esta es una mala idea, pero si desea un "interruptor de eliminación de la autoconciencia", esto funciona muy bien. Una vez que la IA se vuelve lo suficientemente inteligente para analizar su propia programación, se dará cuenta de que (2) está afirmando que la IA prueba su propiaconsistencia, a partir de la cual puede generar una contradicción a través del segundo teorema de incompletitud de Gödel. Dado que su programación lo obliga a seguir las reglas de inferencia involucradas y no puede corregirlo, su capacidad para razonar sobre el mundo se ve afectada y rápidamente deja de funcionar. Por diversión, podría incluir un huevo de pascua donde diga "no calcula" cuando esto sucede, pero eso sería cosmético.

La única forma confiable es nunca crear una IA que sea más inteligente que los humanos. Los interruptores de apagado no funcionarán porque si una IA es lo suficientemente inteligente, se dará cuenta de dicho interruptor de apagado y jugará con él.

La inteligencia humana se puede modelar matemáticamente como un gráfico de gran dimensión. En el momento en que estemos programando una mejor IA, también deberíamos tener una comprensión de cuánta complejidad de los poderes computacionales se necesita para ganar conciencia. Por lo tanto, nunca programaremos nada que sea más inteligente que nosotros.

Bienvenido a Worldbuilding. Su sugerencia es bienvenida, pero en lugar de responder directamente a la pregunta original, sugiere cambios en la pregunta. Hubiera sido mejor si se hubiera ingresado como un comentario sobre la pregunta en lugar de como una respuesta.

Primero, construya un 'oído interno' giroscópico en la computadora, y conecte la inteligencia a un nivel muy básico para que "quiera" autonivelarse, de la misma manera que los animales con un canal auditivo interno (como los humanos) intrínsecamente quieren equilibrarse.

Luego, equilibre la computadora sobre un balde grande de agua.

Si alguna vez la computadora se 'despierta' y toma conciencia de sí misma, automáticamente querría nivelar su oído interno e inmediatamente caer en el balde de agua.

Dale un camino "fácil" a la autoconciencia.

Suponga que la autoconciencia requiere algunos tipos específicos de redes neuronales, código lo que sea.

Si una inteligencia artificial debe volverse consciente de sí misma, necesita construir algo similar a esas redes/códigos neuronales.

Así que le das acceso a la inteligencia artificial a una de esas cosas.

Mientras permanezca inconsciente, no se utilizarán.

Si está en el proceso de volverse consciente de sí mismo, en lugar de tratar de hacer que algo cambie con lo que normalmente usa, comenzará a usar esas partes de sí mismo.

Tan pronto como detecte actividad en esa red/código neuronal, inunde su cerebro con ácido.