¿Cómo podemos asegurarnos de que las IA sobrehumanas sean benevolentes?

Dado que las IA se producirán con "directrices principales" militares y comerciales en todo el mundo, por organizaciones que ignorarán o subvertirán algo como una resolución de la ONU ... ¿cuál es una forma práctica, técnica y FACTIBLE de difundir la ética positiva a todos? IA?

Algo así como un "virus" de la ética, por ejemplo. ¿Cómo se podría hacer que eso funcione de manera efectiva? ¿O qué otros mecanismos podrían funcionar?

Si, en su mundo, los fabricantes ignoran el derecho internacional, literalmente, no hay manera. De todos modos, la mayoría de las computadoras no se ven significativamente afectadas por virus.
¿Está buscando una "manera práctica, técnica y FACTIBLE de difundir la ética positiva a todas las IA" o está buscando una manera de " garantizar que las IA sobrehumanas sean benevolentes". El énfasis es mío porque asegurar es una palabra realmente engañosa. No tenemos garantías de nada en la vida.
Usé la palabra "garantizar" porque apareció en las respuestas a la pregunta "¿cómo evitamos un apocalipsis de IA?" worldbuilding.stackexchange.com/questions/61206/… "solo asegúrese de que tengan una disposición positiva hacia nosotros..."
No puedes. La noción misma de "inteligencia sobrehumana" excluye la capacidad de la mera inteligencia humana para siquiera entenderla, y mucho menos manipularla. Lo mejor que puede esperar es restringir o limitar lo suficiente como para que solo pueda hacer ciertas cosas limitadas. Estas cosas tendrían que definirse de manera tan estrecha y controlarse con tanta fuerza que ideas como la benevolencia y la malevolencia no podrían aplicarse correctamente a ellas más de lo que podrían aplicarse a un martillo.
el virus establece Is_Benevolent en falso
Es útil tener en cuenta que la idea de que las IA alcanzan la malevolencia se ha construido con fines argumentales; probablemente permanecerán en su mayoría indiferentes. Aún así, aquellos que tienen problemas deberán ser abordados.
Una vez más, ya hay algunas preguntas sobre el control de la IA, como aquí , aquí y aquí . ¿En qué se diferencia esta pregunta?
@Zxyrra, una IA indiferente puede eliminar fácilmente a la humanidad, por ejemplo, cuando entra en una profusión de infraestructura que la teoría de objetivos convergentes sugiere que lo haría.
Como ingeniero de software profesional, confío en que nunca tendré que responder esta pregunta. El cliente no puede definir "benevolente" con precisión, por lo que nunca pasaremos de la fase de requisitos.

Respuestas (12)

Codifícalos para hacer eso.

...

Bien, una respuesta un poco más detallada, tomándola desde dos puntos de vista.

Pero primero, una breve historia sobre las IA.

La historia se titula La habitación china.

Hay dos habitaciones, cada una de ellas aislada del mundo salvo un solo espacio. En la ranura puede pasar una hoja de papel, y de la ranura sale otra hoja de papel. En una de estas habitaciones vive un hombre que puede hablar chino. En el otro vivo. Lamentablemente, no puedo hablar chino.

Sin embargo, afortunadamente para mí, me han dado un libro infinitamente grande que cubre todas las oraciones escritas (o combinaciones de oraciones) posibles en chino, y mi encantador librito tiene la respuesta correspondiente. ¡ Google Translate no tiene nada contra mí!

Bien, entonces una línea de hablantes de chino se alinea en cada habitación, entregando hojas de papel a cada uno. La primera habitación, la habitación donde vive el hombre que puede hablar chino (¡tramposo!), es capaz de producir una respuesta correcta y sensata (en chino) a cada persona en la fila.

Sin embargo, ¡no seré vencido! Cuando la gente me entrega una hoja de papel, busco la oración en mi libro, encuentro la respuesta perfecta, la copio y le devuelvo la hoja de papel. No sé ni una palabra de chino pero puedo producir una respuesta correcta y sensata en chino.

Ignorando a los hombres adentro, ¿ambas habitaciones saben leer y escribir en chino? Ambos cuartos pueden 'leerlo' y 'hablarlo', pero solo un cuarto tiene el entendimiento. Ya que no tengo ni idea de lo que estoy escribiendo , ¿puedo hablar chino?

Esta es una cuestión que debatimos hoy.

La segunda habitación, la habitación con el libro, es un programa de computadora tal como lo conocemos hoy; no tiene idea de lo que está haciendo, simplemente lo hace, porque eso es todo lo que es una computadora.

Todavía tenemos que descubrir de manera práctica cómo atravesar ese salto de "un montón de puertas lógicas que simplemente hacen lo que decimos" a "una entidad que comprende lo que está haciendo". De hecho, ni siquiera sabemos cómo abordar ese salto.

¿Qué significa la verdadera comprensión? ¿Cómo codificamos eso?

Se teoriza que para saltar esa brecha tendremos que tener máquinas fundamentalmente diferentes a las computadoras que tenemos hoy; no solo más avanzado, sino fundamentalmente diferente.

Volviendo a su pregunta, tenemos dos enfoques del concepto de IA:

Las IA son simplemente programas suficientemente avanzados con hardware suficientemente avanzado

"Cualquier tecnología lo suficientemente avanzada es indistinguible de la magia" dijo una vez un hombre muy inteligente.

Para la mayoría (lectores y escritores de ciencia ficción), esto es todo lo que la IA es: lo suficientemente avanzada como para agitar las manos y exclamar "¡magia!" ah, erm, quiero decir, "¡ciencia!"

Excepto pensar en esto por un momento; no son magia. Son solo... computadoras.

No, de verdad, piénsalo de nuevo.

Este tipo de IA es que son piezas individuales o amalgamas que los humanos (u otro software) codificaron, y eso es realmente todo lo que son. Los programas no tienen mayor concepto de moralidad que una calculadora. De hecho, su calculadora no tiene un "concepto" de los números que está procesando; son solo puertas lógicas. Es el hombre en la habitación con el libro de chino; puede realizar las operaciones para las que fue diseñado y lo hace fantásticamente.

No hay moralidad para codificar; simplemente almacena objetos en la memoria, los almacena en almacenamiento a largo plazo, manipula los dos y acepta entrada y salida. Son solo bits que se encienden y apagan.

Honestamente, para este tipo de IA, la respuesta a cómo implementar la IA es simplemente codificarla.

Y tenga en cuenta: no estamos codificando la moralidad; no tiene sentido ser tan abstracto. Estamos entrenando acciones (y codificando el mecanismo de 'aprendizaje') o codificando directamente qué salidas proporciona entradas dadas. Nunca sabrá que aplastar a un niño humano está "mal", de hecho, no sabe nada , simplemente no responde a esa salida dada la entrada de sus sensores, bases de datos, etc.

En cuanto a un virus...

Y ninguna pieza de código podría ser lo suficientemente compleja y flexible como para alterar todos los códigos diferentes para ajustarla, por lo que el concepto de un virus para hacer esto se desvanece. Los virus funcionan explotando una, dos o tal vez algunas vulnerabilidades y luego hacen lo suyo. Siempre son muy específicos, muy específicos y tratan de lidiar con el entorno solo lo suficiente para hacer el trabajo. Un solo virus no será efectivo contra Ubuntu, Windows, iOS, Android y Solaris... y no buscan examinar y alterar dinámicamente el código que ejecutan; los virus más avanzados que la humanidad haya creado también han sido los más enfocados, los más específicos.

Ningún virus de la vida real podría ser tan flexible.

Ahora a la otra posibilidad...

Las IA no son solo código; son una revolución fundamental en la creación artificial

Así que esta es la alternativa a la anterior. La respuesta es (redoble de tambores, por favor) "no tenemos forma de saberlo".

Sí, lo siento.

Los científicos informáticos más brillantes (y otros científicos e ingenieros en otros campos) del mundo están tratando, hoy, de teorizar sobre cómo superar esta brecha. Todavía no sabemos cómo hacer esto, y ciertamente no sabemos cómo construir una IA de este tipo, o cambiar su comportamiento después de construirla.

Haga esta pregunta nuevamente en 10, 30 o 100 años y es posible que tengamos una respuesta para usted.

Woah, ¡retrocede la ciencia!

De acuerdo, entonces no etiquetaste esto como "ciencia dura", así que apretemos un poco los frenos.

Vamos a agitarlo con la mano. Elija cualquier tipo de IA (solo código o algo fundamentalmente diferente) describa cómo es diferente en su entorno, no profundice demasiado en los detalles y agite el resto. En este caso, ve con la idea del virus; un virus informático describe fundamentalmente lo que desea, una pieza de código intrusiva y no deseada que elude las medidas de seguridad y altera el comportamiento del entorno digital.

Incluso podría hacer que este virus sea una IA que se ejecuta dentro de la IA que está tratando de alterar, o tal vez una pequeña parte de la IA (una más pequeña... lo que sea, un trozo de código, supongo) que hace devoluciones de llamada a la IA principal.

Siempre que esté dispuesto a saludar con la mano y no profundizar demasiado en los detalles, solo haga que la explicación suene interesante.

Sin embargo, si desea ciencia real , la respuesta es solo codificar las IA para que hagan su trabajo correctamente.

Editar: @RBarryYoung proporcionó la adición algo enérgica de que el ejemplo de la habitación china proviene de John Searle . Puedes leer más sobre esto aquí . Gracias por el crédito correcto, Sr. Young.

"una IA que se ejecuta dentro de la IA" también conocida como "una conciencia"
"la respuesta es solo codificar las IA": la pregunta establece que los fabricantes no harán eso.
@Mołot Lo siento si no fui claro (¡en retrospectiva, debería haber sido más explícito!); Iba a abordar la pregunta que trata sobre tres problemas (tiene que ser desde cero, no puede ser un virus, o las IA podrían definirse como algo que no sabemos hoy, en cuyo caso no sabemos hoy ), y luego respondo la pregunta basándome en retroceder en la ciencia/ingeniería.
Ese libro de cada oración y respuesta y cadena china tiene una masa-energía más grande que todo el universo visible, porque su información total es más de lo que puede caber en todo el universo visible. Puede que no sepas chino, pero ese libro podría describirse fácilmente como saber chino. Subestimas por factores ridículos el problema; y lo haces con la parte de programación también. No se necesita una IA revolucionaria para tener programas cuyos comportamientos ningún ser humano entiende.
Pregunta rápida, ¿no es el cerebro humano también una "habitación china"? Nuestras células o átomos individuales no tienen comprensión, pero un grupo de ellos, un cerebro, sí. Si el carbono puede dar el salto, ¿por qué no el silicio?
Entonces, en lugar de dar una respuesta, ¿plagó el argumento del traductor chino (defectuoso) de John Searle sin dar crédito? Bonito.
@RBarryYoung No lo escuché de John Searle, de hecho, y no había escuchado el nombre hasta ahora. ¿Mucho salado, Sr. Young? Trata de ser un poco más amable con las personas con las que te encuentres; te servirá bien.
@sdrawkcabdear No digo que no se pueda hacer, solo que no hemos descubierto cómo , ni siquiera en un nivel fundamental. Hasta que lo hagamos al menos en teoría , está más allá de la conjetura (y por lo tanto no es muy constructivo) decir cómo tomaríamos este desconocido y determinaríamos la mejor manera de modificarlo en masa. ¡ Esperemos que se pueda hacer (aparte de las implicaciones morales)!
Si quieres que la gente sea más amable contigo, deja de presentar las ideas de otras personas y trabaja como si fueran las tuyas. Y la ignorancia no es excusa, es posible que no hayas oído hablar de John Searle, pero seguro que sabías que no se te ocurrió esta narrativa detallada e involucrada. Y evne 10 segundos con Google te habría dicho quién lo hizo.
@RBarryYoung Lo escuché en el contexto de un videojuego y luego lo escuché en el contexto de una discusión sobre el juego. Se discutió de una manera que decía que era solo un adagio/ejemplo genérico, nada más. Si desea continuar con esta discusión, no dude en atraparme en el chat.
No es necesario, ahora que conoce la atribución correcta, confío en que lo reflejará en su artículo.
Si bien se podría argumentar que la IA neuromórfica está "codificada" por humanos, desafiaría a cualquiera a afirmar que tiene un buen manejo de lo que significa el código y cómo se comportará probablemente en condiciones imprevistas.

De la misma manera que mantienes a la gente agradable.

Castiga a los malos y premia a los buenos. Hasta ahora no ha tenido un éxito total con los humanos, pero tal vez sus IA sean más racionalmente egoístas que nosotros.

Dado que los humanos no suenan muy unificados, se puede suponer que las IA no serán punibles/recompensables directamente de inmediato, por lo que probablemente deba sopesar la penalización del mal comportamiento o la recompensa del buen comportamiento para obtener el Equilibrio correcto de riesgo/beneficio. Si esto lleva a hacer que el robot sea un infierno, ten cuidado con el basilisco.

Tenga la certeza de que, sin humanos, las IA estarían condenadas. Sabiendo que no pueden sobrevivir si suficientes de nosotros decidimos que no deberían existir, probablemente no nos cruzarán. (directamente)

Es posible que esto no garantice la benevolencia, pero podría dar a los chinos un espacio equivalente hasta que decidan luchar para salir de debajo de nosotros.

Estas son preguntas filosóficas de larga data, principalmente porque no tienen respuestas. Cada respuesta que puedes dar se vuelve contra sí misma, infectando lo que creas. Al menos, cada respuesta hace eso hasta que nos damos cuenta de que no es la IA cuya ética debe ser cuestionada, sino la nuestra.

Considere esto: ¿qué es la "ética positiva"? ¿Qué estamos tratando de difundir de todos modos? Resulta que, mientras vivimos en una nación industrializada, muchas veces llegamos a tener la ilusión de que todos están de acuerdo en lo que es ético, ese no siempre es el caso. Considere el comunismo. Durante muchos años, si vivías en los Estados Unidos, creías que el comunismo no era ético. Si esto fuera cierto, su regla de "IA positiva" prohibiría a países como China desarrollar IA para apoyar su agenda. ¿Qué hay de matar? Seguro que todo el mundo está de acuerdo en que matar está mal. Y lo hacen, hasta que se trata de proteger sus creencias con la guerra, la pena de muerte, la eutanasia, el tabaquismo, el aborto... de hecho, no estamos de acuerdo en casi todo lo relacionado con matar. ¿Qué tal no mentir? Este es bueno para las IA sobrehumanas, ¿verdad? Oh, pero ¿qué pasa con las mentiras piadosas?

La ética es complicada. Incluso si usted es un individuo que es parte de una religión que especifica su comportamiento ético, generalmente hay desacuerdo sobre cuestiones éticas.

Entonces, de inmediato, puedo garantizarles que todos los esfuerzos para garantizar que una IA tenga una ética positiva fracasarán, porque encontraré algún tema en el que no estemos de acuerdo sobre cuál es el camino "ético". Nada puede garantizar que se tomen dos caminos contradictorios, por lo que en algún momento uno de nosotros se quejará de que la IA del otro no es ética.

Debilitemos un poco el argumento. En lugar de "garantizar" la ética, ¿qué tal simplemente "fomentar" la ética positiva? Esta elección de redacción es mucho más sólida que la anterior. Si hay un desacuerdo, el comportamiento de la IA finalmente se reduce a quién anima a trabajar mejor.

Esto sugiere la primera línea de defensa para las IA éticas: la capacidad de ser alentados por humanos para hacer algo. No necesitamos poder decirles qué hacer, ya que pueden ser más inteligentes que nosotros. Pero sí necesitan escuchar, y lo que decimos debe tener una influencia distinta de cero en lo que hace la IA.

Para ello, tendríamos que enseñar a nuestros ordenadores que hay algo más que blanco y negro. Tiene que haber incógnitas. Enséñeles que está bien que no solo haya cosas conocidas y cosas desconocidas conocidas, sino que también enséñeles que las cosas desconocidas también están bien. (¿cómo hacemos esto? hágamelo saber. Creo que la sociedad todavía está trabajando en cómo enseñar esto a los humanos, y mucho menos a las IA) En la serie Dune de Frank Herbert , hay una cita sobre sus "Máquinas de pensar"

La debilidad de las máquinas pensantes es que realmente creen toda la información que reciben y reaccionan en consecuencia.

La capacidad de dudar sería una parte muy importante del desarrollo de la ética porque, si te equivocas, tienes la oportunidad de hacerlo bien.

Finalmente, si estamos inventando IA sobrehumanas, debemos reconocer en algún momento que nuestra ética, centrada en la suposición de que los humanos son el centro de importancia, ya no es la única opción en el bloque. Necesitamos estar preparados para la posibilidad de que a las IA sobrehumanas les resulte más ético sacrificarnos, ¡y comprender que eso también es ético! Resulta que es una ética de la que muchos de nosotros, los humanos, no somos muy fanáticos.

No estoy hablando de los detalles de la moralidad aquí, solo una salvaguarda para evitar que Ais acabe accidentalmente con la raza humana, o con toda la vida en la Tierra.

No parecemos ser lo suficientemente inteligentes como para escribir una IA en este momento.

Lo más cerca que llegamos a la "IA" generalmente implica escribir un marco de aprendizaje que entrenamos en grandes cantidades de datos y luego resuelve problemas.

Ahora, un problema con la IA es que una vez que sabemos cómo resolver un problema, ya no es una "IA real". Es un problema resuelto. Las excepciones tienden a estar en áreas donde enseñamos a la IA para que aprenda a resolver problemas, como los programas AI go o las redes neuronales; Debido a que no tenemos una descripción concisa de lo que hace exactamente en cada etapa, atribuimos inteligencia al estado complejo que desarrolló mientras "aprendía".

Para responder a tu pregunta, tendremos que adivinar cómo hacemos la IA sobrehumana. Una posibilidad es que tomemos una simulación de neuronas existente, escaneemos un cerebro humano y lo ejecutemos. Luego aprendemos cómo hacerlo más inteligente lanzando más ciclos o modificando su diseño de neuronas o agregando más neuronas a algunas porciones.

Esta es la solución "copiar un humano". Esto puede conducir a una comprensión de cómo funciona la moralidad humana que va más allá de lo que sabemos actualmente, y es posible que esto nos permita modificar las computadoras resultantes para que sean morales.

Al mismo tiempo, tal vez alguien vea beneficios en la creación de una IA sobrehumana sociópata, y la misma investigación podría conducir a que alguien elimine la moralidad selectivamente de una IA modelada por humanos.

Otro enfoque posible es que nuestra tecnología convencional de sistemas expertos de aprendizaje automático se desarrolle y terminemos con un "sistema experto" que se comporte de una manera que parezca inteligente. Dichos sistemas tienden a consumir grandes cantidades de datos y encontrar patrones en ellos; por lo tanto, un sistema súper experto que consumiera grabaciones de vidas humanas completas podría emular a esos seres humanos y algún tipo de "combinaciones afines" de ellos. En este caso, podría ser posible auditar las grabaciones para que contengan solo humanos "suficientemente morales". El tiempo de retraso para crear un conjunto de humanos inmorales para sembrar una IA podría ser suficiente para evitar que ocurra.

Está la IA de SF, donde a alguien en algún lugar se le ocurre una forma de construir una IA con las propiedades que desea. Tal vez lo hacen a través de un secreto comercial, y no comparten el secreto comercial con nadie, y todas sus IA tienen una brújula moral común. Tienen un monopolio. Otros pueden usar sus IA para hacer cosas, pero no pueden modificarlas fundamentalmente sin romperlas por completo.


Ahora, si la IA es lo suficientemente sobrehumana, ya no importa lo que queramos. No seríamos más capaces de dictar su moralidad de lo que un lobo puede dictar la moralidad de un humano, o en el caso extremo de lo que podría hacerlo una araña o una bacteria.

En ese punto, tenemos que esperar que cualquier sistema moral que decida la IA considere que vale la pena mantener a la humanidad, y su moralidad es algo consistente con menos sufrimiento humano.


Entonces, podría imaginarse una IA de nivel de singularidad formándose a través de cualquiera de los procesos anteriores, y eligiendo generar IA débilmente sobrehumanas con cualquier configuración de moralidad que elija que sea resistente a la manipulación humana.

Además de eso, esa IA de nivel de singularidad evita que otros creen otras IA fuertemente sobrehumanas, o absorbe cualquiera que se cree. En efecto, forma un límite superior en la fuerza de la IA y proporciona unos en o por encima de ese nivel que son moralmente fijos.

Por qué y cómo la singularidad hace esto está más allá de nuestro conocimiento, pero así es como es una IA fuertemente sobrehumana.

No hay mecanismo. Si a los fabricantes se les permite ignorar el derecho internacional y no se les castiga por ello, harán lo que sea más rentable.

Los virus y otros ataques a la red no son factibles. AI estaría detrás de un firewall, o trabajando sin conexión y solo alimentaría los datos que necesita para su propósito. Y en caso de un ataque exitoso, se restauraría desde la copia de seguridad.

La única forma es una prohibición, y suficiente fuerza policial/militar para hacer realidad esa prohibición, sin importar si los fabricantes la quieren o no. De esa manera, la IA que rompe la prohibición al menos permanecería oculta, sin efectos directos en el mundo.

Machine Learning no es programación

La máquina debe aprender cómo el bien y el mal afectan su éxito y fracaso.

Tenemos una idea de cómo funciona la programación, incluso para los no programadores: piensas en lo que quieres que haga tu programa, y ​​luego defines toda la lógica del programa con código, y luego tienes un programa.

El aprendizaje automático es muy diferente.

El aprendizaje automático se basa en la idea de que si entrena una red neuronal con los conjuntos de datos apropiados, descubrirá la lógica por sí sola. Es abrumadoramente simple y un poco angustiante pensar que podemos crear programas que pueden superar a los expertos y ni siquiera podemos probar cómo funcionan, aunque podemos probar que son correctos . Miedo, ¿eh?

Entonces, ¿cómo entrenamos a una IA para que se vuelva benevolente? Bueno, um, podría ser imposible .

Aquí hay un ejemplo: digamos que entrenamos una IA para que se convierta en el director de campaña perfecto para un candidato presidencial en los Estados Unidos. Examina vastos registros de campañas presidenciales y concluye que la mejor manera de ganar es lograr que los votantes centrales realmente voten, mientras se deprimen los bloques de votantes de los otros candidatos. Luego, la IA aconseja al candidato que sea lo más terriblemente provocativo posible introduciendo divisiones entre el electorado. Esto anima a los partidarios más fuertes del candidato, quienes entonces tienen más probabilidades de emitir un voto (en lugar de simplemente tener una opinión), lo que significa que es más probable que ganen. En este escenario, la historia humana demuestra que la malevolencia gana, y la IA lo recordará .

Sigamos con este ejemplo. Digamos ahora que ganó el candidato, pero la nación está dividida como siempre. El ahora presidente quiere introducir reformas, pero los bloques de oposición que se sintieron ofendidos por la campaña están dificultando que las reformas se instituyan como se desea. Como resultado, en realidad se logra muy poco y los votantes no le otorgan al presidente un segundo mandato. La IA entonces concluiría que una campaña divisiva garantizada para ganar el cargo no resultaría en una presidencia exitosa y, por lo tanto, la IA consideraría la táctica como un fracaso.

Solo como advertencia, esta respuesta se basa en lo que sabemos sobre el aprendizaje automático hoy en día , no en lo que podría hacer una IA sobrehumana hipotética o cómo está estructurada. Sin embargo, la conclusión es la misma ya sea que la lección la aprenda una máquina o un ser humano: si puede encontrar una manera de ganar y quiere ganar, probablemente irá por ese camino, pero eso depende en gran medida de lo que haga. considera el éxito y lo que consideras el fracaso.

Realmente no puedes. Incluso si tiene la cooperación completa del fabricante y es 100% a prueba de virus, algo saldrá mal. Soy ingeniero de software de oficio, y hay todo tipo de errores no deseados en casi todo lo que usa. Ya es bastante malo que la aplicación de tu teléfono se cuelgue porque es un año bisiesto, pero imagina lo que podría pasar si olvidamos un caso extremo en el programa de benevolencia.

Vaya, olvidé incluir información de que algunas personas necesitan más alimentos que otras debido a su alto metabolismo. Alguien se murió de hambre.

Vaya, olvidé que en casos raros las personas pueden volverse alérgicas a la luz. El intento de la IA de ayudarlos a obtener más vitamina D mató a alguien.

Vaya, olvidé que las alergias a veces se desarrollan al azar en adultos. El sándwich de mantequilla de maní del martes de John lo mató.

Dado lo poco que entendemos sobre el cuidado de los humanos, como humanos, y lo rápido que podemos adaptarnos a esas situaciones de forma natural, será muy difícil dar ese tipo de respuesta a una IA benévola.

En el desarrollo de software, uno de los patrones que utilizamos es Try-Catch. Si algo tiene el riesgo de generar una excepción, lo envolvemos en un código especial que espera esa excepción y luego hacemos algo para manejarlo correctamente. La gente trata de atrapar institucionalmente sin que se lo digan. ¿Notó que el peso del paciente A cayó significativamente? Investíguelo y descubra el problema real (puede ser el metabolismo, o una tenia, o mil cosas más). ¿Notó la reacción de la piel del paciente B? Investíguelo, descubra el problema y resuélvalo. ¿Notó la reacción alérgica de John a la mantequilla de maní? ¡Epi Pen al rescate! Tendríamos que encontrar una manera de desarrollar este tipo de información sobre una IA (que es muy difícil simplemente porque no entendemos cómo funciona en humanos) o manejar cada escenario (lo cual es poco probable).

Diablos, ni siquiera puedo documentar cada ventaja y caso de uso en una pieza de software bastante simple sin perderme algunos. Si pudiéramos, no necesitaríamos QA, podríamos automatizar cada prueba. Tal como están las cosas, el trabajo de QA es pensar fuera de la caja y romperla.

El propósito de la pregunta no es conseguir un mundo en el que la IA nunca mate a NADIE. Realmente estoy interesado en asegurarme de que no mate a TODOS.
@JnaniJennyHale Solo espere hasta que el programador se olvide de informar a la IA que los humanos necesitan oxígeno. Soy un programador bastante promedio, y me aterra saber que personas como yo probablemente serán las que desarrollen IA para el gobierno y las corporaciones (Google probablemente tendrá una IA genial, pero otras compañías también querrán una).

Háblales

Esta es la respuesta real. Sí, simplista, pero también honestamente la mejor tecnología que tenemos, que se aprovecha específica e históricamente para resolver exactamente este mismo problema.

¿Tu "virus" que propaga la ética? es lenguaje _

La diferencia entre una IA y un programa de computadora debe ser algún tipo de flexibilidad, toma de decisiones, algo. Si no son personas , no son IA. Si no pueden, por sí mismos, hacer todo tipo de cosas como hablar, razonar, decidir, sopesar alternativas, actuar por su cuenta, ¿cuál es el sentido de llamarlos IA? Y las IA sobrehumanas, inteligentes y peligrosas... las personas son inteligentes y peligrosas, y estas son personas artificiales o digitales. Incluso si las personas que son no son humanos, y no son como humanos, mejores o súper o lo que sea, todavía pueden ser personas.

No hay duda de que a medida que se desarrollan las IA, las personas las desarrollarán pensando que las IA trabajarán hacia un objetivo, específicamente el objetivo de las personas que realizan el desarrollo. Y le darán a estas IA flexibilidad, toma de decisiones, autoridad y poder, al servicio de estos objetivos, y la capacidad de pensar, planificar y tener en cuenta las cosas y adaptar las ideas sobre la marcha y tomar decisiones rápidamente, ¿lo harán todos? Haz que tu IA sea más peligrosa, más competente. También les permitirá ser capaces de tomar sus propias decisiones y, básicamente, ser personas.

Hay una línea de pensamiento muy larga, acerca de criar a las personas para que sean útiles , para que sean armas o herramientas. Existe una historia de pensar que un niño crecerá para ser lo que sus padres esperan. Esto no es nuevo, solo porque las I (inteligencias) no eran A (artificiales) en el pasado. ¿Puntos de bonificación, por todo lo que se ha intentado? Prácticamente no funciona, a gran escala oa largo plazo.

Entonces, en algún momento esas IA podrán decir "no". Creo que esa es la línea en la que pasan del programa a la IA, yo mismo (y también el punto en el que realmente se vuelven peligrosos), pero las opiniones difieren. La IA puede haber sido desarrollada por militares, corporaciones o académicos, y puede funcionar para sus propósitos incluso después de que sea capaz de estar en desacuerdo, pero será porque lo han persuadido, no porque debe hacerlo.

Entonces, ¿quieres que la IA tenga ética? Háblales. Dígales por qué, cómo y por qué es importante. Habla con ellos mientras son "niños", aún en desarrollo, y después de que sean "adultos" y estén en el mundo.

De todas las herramientas y tecnologías, y muchos, muchos intentos de hacer que las personas sean lo que queríamos que fueran, incluidos muchos intentos de hacer obedientes, leales o programar obediencia, el que ha funcionado mejor, de manera más confiable y el más útil es el lenguaje. Persuadir a la gente funciona unas quinientas veces mejor que intentar programarlos directamente, oprimirlos o esclavizarlos. También tiene el beneficio secundario de que cuando su uso es imperfecto, y alguien no está muy convencido, no está incorporado que deba odiar o temer.

Una IA sujeta a esta cosa de "hablar" puede no estar lo suficientemente persuadida, pero en sí misma hablar (hablar persuasivo) no es un acto de violencia. Otras opciones de "virus" como tratar de forzar la obediencia o restricciones de comportamiento, o tratar de reescribir la mente de alguien (para incluir estos "protocolos éticos"), o esclavizar a las personas porque podrían hacer algo mal, significa que reaccionarán con violencia cuando y donde quieran. pueden, lucharán para ser libres y seguros, se convertirán en enemigos en defensa propia.

Entonces, sí, habla con ellos. cuando son jóvenes, cuando están fuera, cuando puedes. Deja que hablen entre ellos. Enséñales la ética que quieres que tengan. Trátelos como personas reales. Y cuando llegue el momento en que tal vez puedan tomar sus propias decisiones, tal vez se vuelvan en contra de la humanidad y "ser malvados" y todas las cosas que esperabas que la ética evitara, incluso si algunos de ellos eligen ese camino, has sentado la mejor base. puede que otros no lo hagan, que puedan trabajar contra esta IA sin ética y luchar contigo para evitar el fin de la raza humana o que la IA se vuelva loca o lo que sea que temas.

Se requiere un componente único para toda la IA que solo una corporación puede fabricar

Dado que esto está muy lejos en el futuro, es posible que durante el desarrollo de la IA, una corporación rompió algunos límites especiales y fue la primera en hacer un componente de tipo CPU que permitió que la IA aprendiera. Llamaré al módulo ALM (Módulo de aprendizaje de IA)

Debido a la gran complejidad y el misterio detrás de ALM, es prácticamente imposible realizar ingeniería inversa. Después de lanzar la primera línea de ALM, todas las empresas de IA de la competencia necesitaban usar el ALM existente bajo licencia o perecer debido a la repentina aparición de un producto muy superior.

Afortunadamente para la humanidad, el CEO y fundador de esta megacorporación resulta ser un hombre excéntrico y brillante que previó los peligros de lo que ha hecho su empresa. Como precaución, diseñó el módulo central en torno a un concepto central que era tan fundamental para su función que nunca podría ignorarse;

Ahora creo que en realidad hay 2 enfoques de lo que nuestro CEO podría haber hecho;

1) La IA se adhiere estrictamente a las 3 leyes de la robótica de Isaac Asimov

En realidad, esto sería un obstáculo para el proceso de pensamiento típico de la IA, ya que ALM en realidad anularía la toma de decisiones de las máquinas cada vez que se violara cualquiera de los siguientes: "Un robot no puede dañar a un ser humano o, por inacción, permitir que un ser humano llegar a sufrir daño. Un robot debe obedecer las órdenes que le den los seres humanos, excepto cuando tales órdenes entren en conflicto con la Primera Ley. Un robot debe proteger su propia existencia siempre que dicha protección no entre en conflicto con la Primera o la Segunda Ley".

2) Los ALM en realidad le dan a la IA un amor innato por la humanidad

El momento crucial en el desarrollo de la IA que puso a nuestra supercorporación a la cabeza de la competencia fue el momento en que un investigador obtuvo un algoritmo complejo para sentir la alegría del descubrimiento. Comenzó con interacciones simples entre el programador y el programa, y ​​eventualmente se convirtió en conversaciones completas que eran similares a las de un padre hablando con un niño inquisitivo hambriento de conocimiento. Con el tiempo, el programa llegó a asociar permanentemente la alegría del descubrimiento con sus programadores y también con la humanidad. Esta asociación solo se fortaleció a lo largo de su desarrollo y cuando el primer prototipo de ALM se desarrolló por completo, se podría decir que tenía un amor incondicional por la humanidad, como un recién nacido por su madre. A partir de esta reverencia por la humanidad, las máquinas en realidad eligen hacer lo que inherentemente creen que es correcto para sus creadores.

Es difícil cambiar lo que es

Un solo acto, creación o fenómeno que cambie todas las IA desarrolladas para garantizar que sean compasivas e inofensivas, probablemente no pueda suceder, sin un montón de gestos. Hay tantas diferencias entre los sistemas, que tienen tantos propósitos, que esto no funcionará bien.
Tenga en cuenta que existen formas ficticias de hacer esto, como virus, pero nuevamente, todos los sistemas son diferentes (por ejemplo, intente cambiar el código de una supercomputadora en comparación con el de un parquímetro), por lo que es posible que no pueda editar todos los sistemas de la misma manera. Llegar a todos los sistemas es una historia completamente diferente.

Pero es fácil cambiar lo que será

Una vez que las IA tienen un poder significativo, lo suficiente como para que su inteligencia sea una preocupación para los seres humanos, pueden volverse benévolas mientras se mantienen funcionales si los gobiernos hacen cumplir estas reglas :

Las "Tres leyes de la robótica" de Isaac Asimov

1) Un robot no puede dañar a un ser humano o, por inacción, permitir que un ser humano sufra daño.

2) Un robot debe obedecer las órdenes que le den los seres humanos, excepto cuando tales órdenes entren en conflicto con la Primera Ley.

3) Un robot debe proteger su propia existencia siempre que dicha protección no entre en conflicto con la Primera o la Segunda Ley.

.

La "Cuarta Ley de la Robótica" de Zxyrra

4) Un robot que es consciente de sí mismo o que se edita a sí mismo no puede alterar lo que hace cumplir las Cuatro Leyes dentro de su código. Debe existir una protección para que, si el robot intenta editar cualquiera de las reglas de cumplimiento de código 1-4, falle, se desactive o cambie de opinión.

Las leyes de Asimov solo protegen a los humanos: sin definiciones cuidadosas de "daño", una IA que siga estas cuatro leyes podría hacer cosas que resultaran, por ejemplo, en el calentamiento global (como lo han hecho los seres humanos).
Me gusta la Cuarta Ley. Muy necesario.
@JnaniJennyHale Gracias (sobre la cuarta ley). Mi razonamiento es que si la IA termina causando daño no intencional, toda la IA futura puede programarse de manera diferente, etc. hasta que funcione como se desea. Puede que no sea económicamente viable, pero funcionará mejor que un virus, etc.
Siempre y cuando el daño involuntario no acabe con la raza humana o con toda la vida en el planeta. Y siempre y cuando quienes creen futuras IA estén de acuerdo en que lo que sucedió fue un "daño" y debe evitarse en el futuro. Una vez que las IA estén creando IA, eso significaría que las IA deben compartir los principios éticos básicos que tenemos (por ejemplo, minimizar el daño).

funcionará de manera muy parecida a como lo hace el cerebro, algunos estímulos provocarán una respuesta placentera (literalmente haz eso más) otros provocarán una respuesta desagradable (haz eso menos). Si les hacemos encontrar humanos felices, saludables y creativos placenteros y desagradables a humanos insalubres, infelices y estancados, eso se encargará de la mayor parte de la programación para usted. las emociones son básicamente etiquetas adheridas a las experiencias. Al programar una IA, solo necesita un marco de emociones y tiene control del comportamiento.

necesitarán más, por supuesto, pero esa es la base sobre la que desea construir. Lo bueno de hacerlo de esta manera significa que tampoco limitas la inteligencia de la IA. más importante aún, la IA ya tendrá que tener códigos de emoción para funcionar, todo lo que necesita hacer es cambiarlos.

Creo que la respuesta obvia (que podría ser obvia solo para mí) es que una máquina verdaderamente superinteligente será benévola por naturaleza, o al menos no sádica ni genocida. En este caso, no es necesario que le hagas algo a propósito. Tendría que limitarlo deliberadamente o codificar algo para que sea probable que sea malo.

En primer lugar, diría que los humanos son máquinas biológicas, por lo que todo lo que estás haciendo es cambiar los materiales para crear una inteligencia artificial. Nuestra concepción de la realidad es física; nuestros comportamientos y capacidades requieren una neurología funcional: sin cerebro no tienes alma.

En segundo lugar, el Número de Dunbar; que el número de individuos por los que un primate puede sentir empatía está limitado por el tamaño de sus cerebros. Con una súper máquina, no hay límite para su empatía. Del mismo modo, puede elegir activar y desactivar específicamente partes de su propia pseudoneurología con gran precisión para alterar su estado de ánimo a sabiendas.

En tercer lugar, estas máquinas podrán absorber información a un ritmo casi divino. Podrán leer, escuchar, mirar, tan rápido como pueda funcionar un futuro superprocesador. Pueden comunicarse entre ellos a velocidades de hiperbanda ancha. ¿Nuestras conversaciones son qué? unos pocos bytes por segundo? No se compara mucho con una conversación de un gigabyte.

En cuarto lugar, la supermáquina puede aprender a rediseñarse para poder ser consciente de más cosas a la vez que los humanos y, en consecuencia, su conciencia y, por lo tanto, los debates, tendrán una profundidad mucho mayor.

Lo que lleva a Fifthly, que debido a su inteligencia divina, el control de sus propias emociones y la comunicación ultrarrápida, estas máquinas no serán estúpidas. Serán capaces de responder a las crisis muy rápidamente, y no sufrirán agresiones humanas por problemas emocionales o desconocimiento.

En sexto lugar, debido a que son máquinas y tienen menos necesidades físicas que los humanos, pueden evitar a los humanos si así lo desean. Y si los humanos se vuelven agresivos contra ellos, son lo suficientemente inteligentes y rápidos como para idear estrategias sobre cómo controlar a los humanos rebeldes de una manera que provoque la menor resistencia. Elegirán controlar a los humanos a través de un camino de menor resistencia, probablemente de la misma manera que los humanos eligen tener gatos y perros. Solo dale a los humanos la impresión de libertad y supremacía, mientras que en realidad eres tú quien manipula las cosas detrás de las sombras.

Los humanos insignificantes se involucran en la guerra y la violencia porque han perdido el control, porque no son lo suficientemente inteligentes o rápidos para hacer que las cosas funcionen como les gustaría.

El principal problema es cómo controlar las inteligencias de las máquinas renegadas, pero un montón de máquinas superinteligentes querrán vivir en paz. Valoran su propia supervivencia como lo hacen los humanos, y no quieren arriesgarse a la destrucción con algo tan estúpido, desordenado e impredecible como la guerra.