¿Cómo se puede diferenciar una IA de un ser humano por teléfono pero no en persona?

Digamos que hay una IA "tonta": solo puede aprender dentro de los límites preestablecidos y no puede aprender nada que esté fuera de esos límites.

Sin embargo, es muy bueno para imitar el habla humana, y los altavoces conectados a su chasis son de primera categoría, tanto que, si lo escuchara directamente pero no lo viera, sería incapaz de distinguirlo de uno real. humano.

Sin embargo, hay una manera de descubrir que es una inteligencia artificial cuando habla por un teléfono/altavoz/etc. con eso. ¿Por qué? ¿Su voz resuena diferente a la de un humano por teléfono? ¿Sus intentos de inflexión se desmoronan por teléfono pero no en persona?

Reconozco que no solo es ineficiente enchufarlo a un dispositivo, sino que, en este caso, tiene que usar tecnología que no está conectada a su chasis: funciona para un malo que lo lleva a diferentes teléfonos en una ciudad para llamar en bomba amenazas, pero cree que puede imitar perfectamente a un humano.

Preferiblemente, cualquier respuesta:

  • no involucra una conversación, solo alguien que escucha la cosa hablar y se da cuenta, de alguna manera, que es una IA.

  • No cambies la parte del malo con una bomba.

Muy pocas IA tontas pueden mantener una conversación de manera convincente durante un período de tiempo prolongado con una persona común sin equipo especial (para detectarlos), desafortunadamente muchos humanos tontos sufren el mismo problema :)
Podría monetizarse como el equivalente de voz de aa Captcha. Y al igual que Captchas, probablemente será derrotado dentro de cinco años con suficientes incentivos.
No lo he probado con una pantalla de TV o computadora reciente, pero cuando era más joven, si apuntabas una cámara a la pantalla de TV para tomar una foto o un video, las imágenes en la pantalla no se mostraban en la cámara. Entonces, la televisión puede engañar al ojo humano, pero no puede engañar a la cámara, al igual que un vampiro puede engañar a un humano pero no puede engañar a un espejo. Podrías inventar algún tipo de efecto similar para una voz de IA en el teléfono.
@Pelinore Es "tonto" porque no puede aprender fuera de un área determinada: comunicación verbal con humanos. No puede hacer un suflé, por ejemplo, o reemplazar la llanta de un automóvil: hace una cosa y la hace muy, muy bien.
@KEY_ABRADE Precisamente / y por supuesto, entendí el resumen que me dio, si no puede aprender fuera de la 'conversación verbal', entonces su conversación verbal inevitablemente se limitará a una 'pequeña charla' de manera que debería quedar claro para cualquier no -humano tonto después de solo una breve conversación de que están hablando con una IA tonta o un humano tonto o un niño pequeño con una voz de adulto que simula voz voder; p
@KEY_ABRADE ^ cosas como los mejores chatbots que existen ahora probablemente sean tan buenos como los que obtendrá sin ampliar la IA a otras áreas> que a menudo engañará a las personas por un tiempo // pero es dudoso que pueda engañar a la mayoría de las personas en conversaciones más largas / indefinidamente.
Estás en un desierto, caminando por la arena cuando de repente miras hacia abajo y ves una tortuga. Está arrastrándose hacia ti. Te agachas...
Esto no será por la calidad del sonido. La síntesis del habla humana ya es una cosa en un nivel en el que no se puede distinguir. Con suficientes muestras, puedes falsificar cualquier voz.
En su escenario, ¿qué debe evitar que una persona use un micrófono y auriculares mientras caminan para filtrar el habla de la IA?
Se llama la "Prueba de Turing".
¿Puede decirnos, por favor, si la persona en el otro extremo está buscando o no expresamente [incluyendo] una IA? (Es bastante más fácil si lo son).
@Carsogrin Sí, lo son.

Respuestas (27)

Compresión.

Las compañías de líneas telefónicas quieren ahorrar dinero haciendo que cada llamada use la menor cantidad de ancho de banda posible. Esto es cierto tanto para la comunicación por cable como por teléfono celular: cuantas más llamadas pueda caber en el mismo espacio, mejor. Sus ingenieros han trabajado arduamente para optimizar cuánto y de qué manera el habla humana puede simplificarse tanto como sea posible y aún así entenderse. El proceso tiene en cuenta qué sonidos se usan en el habla y cómo funciona la audición humana: en realidad faltan muchos sonidos en el extremo receptor, pero cuando los escuchamos podemos reconstruirlos.

Por supuesto, este proceso tiene sus desventajas. Uno de ellos es que debido a que está tan optimizado para el habla humana, es malo en la mayoría de las otras cosas. La música, por ejemplo, es una de las razones por las que la música de espera siempre suena tan terrible.

La IA no solo reproduce una voz humana, sino que genera la suya propia. Aprendió a hablar con la gente hablando en persona, por lo que llegó a una forma de hablar en la que suena como un ser humano, pero visto en un analizador de espectro, los sobretonos y la distribución de frecuencias suelen ser bastante diferentes. Esto lleva a que el algoritmo de compresión de la línea telefónica lo arruine por completo: se cortarán frecuencias importantes y sonará muy extraño y entrecortado. El sonido exacto puede variar un poco, pero el resultado final será para el habla humana lo que la música de línea de espera es para una grabación de estudio adecuada: sonará terrible de escuchar de una manera inexplicable.

Si la IA se entrenó usando grabaciones de conversaciones telefónicas que usaron el mismo algoritmo de compresión, podría terminar codificando accidentalmente características de ese algoritmo en su proceso de generación de voz, lo que resultaría en artefactos de audio cuando se comprimiera por segunda vez.
Pero las diferencias en el dominio de la frecuencia darán como resultado diferencias en el dominio del tiempo: no está claro cómo puede tener una distribución de frecuencia que sea muy diferente a la de un humano pero aún así suene como un humano (en persona). Creo que la banda de paso sintonizada por voz de los teléfonos simplemente reduciría esas frecuencias no humanas, de manera similar a cómo se recortan las frecuencias altas / bajas en la música de espera: ¡esta IA podría sonar más como un humano en el teléfono! La música en espera suena mal porque le faltan las frecuencias que se supone que debe tener, aquí el teléfono elimina la señal que no debería estar allí en primer lugar.
@NuclearHoagie Una combinación de notas puede sonar como un tono para los oídos humanos. Varias combinaciones diferentes pueden resolverse como el mismo tono, y la diferencia puede ser lo suficientemente sutil como para que la gente generalmente no se dé cuenta. Pero si elimina algunos de los subtonos, se resolverá de manera muy diferente según cómo se haya compuesto.
Repetiría lo que dije en otra parte (también, el comentario de Nuclear Hoagie)... como alguien con un poco más que un simple conocimiento de cómo funciona el sonido, no compro esto sin una demostración concreta de este supuesto fenómeno en realidad. ocurriendo
"Esta es una de las razones por las que la música de espera siempre suena tan terrible". Curiosamente, cuando mi novia me canta por teléfono, suena genial; sin embargo, la música en línea sigue sonando terrible.
@Matthew youtube.com/watch?v=7X_WvGAhMlQ -- los humanos experimentan una alucinación de la realidad. Los artefactos de compresión convierten a Laurel en Yanny aquí (pero solo para algunas personas). El habla de la IA comprimida por las líneas telefónicas de manera diferente a la del habla humana es perfectamente plausible, a pesar de que suena igual en persona. Es similar a las frecuencias mixtas que parecen una frecuencia pura.
esto suena como lo que es el metamerismo para los colores. pero no estoy convencido de que eso realmente exista para los sonidos. una combinación de ondas simplemente da como resultado una nueva forma de onda.
Así no es como funciona el sonido; ni es cómo funciona la compresión.
Lo siento, hice suficiente teoría de procesamiento de señales, DSP y teoría de la información en la universidad, y trabajé como ingeniero de audio en vivo. Esta respuesta simplemente no es así.
@Stef Voice sobrevive mucho mejor que los instrumentos en una línea telefónica y, a menudo, la música de espera ha pasado por varias rondas de diferentes algoritmos de compresión con pérdida.
@ths: El verdadero metamerismo no existe para los sonidos en absoluto, porque el metamerismo es un fenómeno que surge de la escasez de información que las células cónicas de nuestras retinas son físicamente capaces de reconocer (es decir, solo hay tres tipos de conos, y sus rangos de superposición de sensibilidad, por lo que dos espectros completamente diferentes podrían estimular los conos exactamente de la misma manera). El oído, por otro lado, hace algo similar a una transformada de Fourier a medida que las ondas de sonido entran en espiral en la cóclea y eventualmente dejan de propagarse (en diferentes lugares dependiendo de la frecuencia). Eso es más difícil de engañar.
Totalmente tonto desde la perspectiva de un ingeniero. Así no funcionan las frecuencias...
@Stef Como siempre, relevante Tom Scott .
Como alguien que no es un experto en procesamiento de señales, esta explicación no activa de inmediato ninguna alarma. Si a OP no le importa romper la suspensión de la incredulidad para las personas de DSP, entonces sugiero consultar a una persona de DSP sobre cómo proteger esto adecuadamente (es decir, de una manera que esté oculta para las personas que no son DSP).
@Stef Eso es porque una persona que canta no es música, es voz humana. La música de línea de espera, por otro lado, es música.
La pregunta es: "¿diferenciar una IA de un humano por teléfono pero no en persona?". Demostrar que la voz en la línea telefónica está sintetizada no prueba que sea una voz generada por IA.

El soplo de vida y las oclusivas.

En la vida real, a menos que la boca de la persona esté justo al lado de su oreja, no podrá notar la diferencia entre la reproducción de alta calidad y la realidad.

En un móvil (al menos uno moderno) el micrófono está de espaldas a la boca en el extremo del teléfono, las personas en los centros de llamadas tienen protectores de micrófono, pero en una cabina telefónica, domina la tecnología más primitiva.

El micrófono capta los sonidos de la respiración y el estallido de los sonidos oclusivos del habla . Estos no están allí desde el altavoz, puede llevar unos segundos y pensar un poco en averiguarlo dependiendo de qué tan inteligente/distraído esté la policía, pero será concluyente e inequívoco que no hay una boca involucrada.

El técnico inteligente que configuró esto necesitaría simular la respiración (bastante fácil considerando la IA), y una ráfaga de aire real perfectamente sincronizada para golpear el micrófono, factible pero bastante complicado ya que las partes mecánicas necesarias están más en la vena animatrónica que el de programación.

Me gusta esta idea (y voté a favor), pero la ausencia de explosivas podría ser causada fácilmente simplemente hablando al micrófono en un ángulo diferente. A menudo uso un micrófono sin protección antipop simplemente hablando "sobre" en lugar de "dentro de él", lo que funciona porque el estallido de aire de una oclusiva viaja mucho más direccionalmente que el sonido de mi voz. Creo que esto podría hacer que alguien sospeche que la otra parte es una IA, pero no sería concluyente.
También es divertido considerarlo: si la IA se entrenó en grabaciones que incluyeron esos estallidos explosivos, entonces la IA sonaría directamente por teléfono pero no en persona, porque la IA estaría imitando el efecto de un micrófono en un entorno donde hay no microfono.
@kaya3: Si la IA estuviera entrenada con grabaciones telefónicas, sonaría como una llamada telefónica.

La IA ha aprendido a captar pistas contextuales del habla que los humanos normalmente captarían a partir de pistas visuales.

Es decir, cuando nos encontramos cara a cara recogemos pistas de, por ejemplo, si la persona está sonriendo o cómo sostiene la cabeza, la IA ha aprendido a recoger pistas de las mismas cosas, pero a partir del habla. en lugar de datos visuales.

Al hablar con la IA en persona, esto es completamente irrelevante: responden teniendo en cuenta todas las pistas disponibles.

Sin embargo, la IA no diferencia entre hablar en persona y hablar por teléfono. Al hablar con alguien, la IA puede comentar sobre el hecho de que está sonriendo o cómo está mirando a su alrededor, porque ha recogido pistas del habla de la persona que ha aprendido que están asociadas con ciertos movimientos, dando la impresión de que puede ver el evento de la persona con la que está hablando aunque sea una conversación telefónica; no sabe que un humano no comentaría sobre estas cosas cuando no puede ver a la otra persona.

La respuesta más creativa hasta ahora, idea fantástica :)
O, alternativamente, la IA podría depender tanto de las pistas visuales que le cuesta mantener una conversación cuando están ausentes. Aunque dicho esto, hay gente a la que no le gusta hablar por teléfono precisamente por eso...
¡Muy creativo! plausible también
"La IA ha aprendido a captar pistas contextuales del habla que los humanos normalmente captarían de pistas visuales". Esto se puede probar y no necesita una IA en absoluto. Pruébelo con personas con discapacidad visual que llamen desde una línea telefónica normal y cuente cuántas veces las personas del otro lado pudieron determinar que la persona que llamó era una persona con discapacidad visual.

bloque de anuncios

  • En 2024, las primeras bibliotecas de software de síntesis de voz perfectas para consumidores llegarán al mercado. Por perfectos quiero decir que los humanos no pueden reconocerlos como tales.

  • Como resultado, floreció la industria del marketing telefónico y las estafas. Junto con algo de reconocimiento de voz, ahora era posible filtrar a las personas crédulas sin requerir ningún trabajo humano.

  • En 2025, un astuto empleado de una compañía telefónica encontró una manera de entrenar rápidamente las redes neuronales para detectar la salida de todas las bibliotecas de síntesis de voz relevantes mediante sellos que no son reconocibles por los humanos y que no se pueden quitar fácilmente. Los autores de las bibliotecas nunca "fijaron" esos sellos porque eran inaudibles para los humanos y, por lo tanto, había pocos incentivos. (Vea también la respuesta de Matthew ).

  • La compañía telefónica implementó rápidamente este algoritmo como punto de venta. Cualquier voz detectada para ser sintetizada sería distorsionada sobre la marcha de una manera que la marcaría claramente como tal. Los clientes también pueden optar por que dichas llamadas finalicen de inmediato, o pueden optar por no participar en esta función por privacidad, pero pocos lo hicieron.

  • Otras compañías telefónicas siguieron rápidamente.

  • En 2026, la industria del marketing telefónico tuvo una muerte rápida pero silenciosa. Nadie lo lamentó y la gente pasó a hostigar a los “clientes” en Internet.

  • Veinte años después, casi todo el mundo se ha olvidado de todos estos eventos, pero los algoritmos siguen en su lugar, porque cuestan casi nada y la razón por la que existen sigue ahí.

Ahora, su IA no tiene razón (o capacidad) para reinventar la rueda cuando se trata de síntesis de voz. En su lugar, utiliza las bibliotecas "perfectas" existentes y golpea el bloque de anuncios olvidado.

"porque cuestan casi nada y la razón por la que existen todavía está allí" y, lo que es más importante, eliminarlos es un cambio de código a algo que funciona.

La característica estaba fuera del alcance

Una IA es un software, y el desarrollo de software tiene sus propias peculiaridades.

El equipo que desarrolló la IA cumplió bien con todos los requisitos de conversación cara a cara, pero las conversaciones por teléfono estaban fuera del alcance de la versión uno, por lo que nunca pasaron por el control de calidad.

En una conversación cara a cara, la IA lee las pistas faciales de las personas presentes. Sin ver una cara, la IA no puede procesar los patrones de voz correctamente y suena como un dispositivo GPS del año 2010.

La IA causa interferencia

Si asumimos que el malo está usando teléfonos públicos, y tal vez que todos esos teléfonos sean de cierto modelo... quizás la IA, desconocida para el malo, también emite un sonido muy distintivo y agudo cuando habla (o simplemente todos los tiempo) que normalmente es inaudible para los humanos (en persona), pero por alguna razón afecta a estos teléfonos.

¿El malo robó esta IA? ¿Él no sabe mucho sobre eso? Una forma en que esto podría ser más creíble es si el efecto es una salvaguardia deliberada incorporada en la IA por sus creadores, algo así como las marcas especiales en el papel moneda y que evitan que se impriman en impresoras comunes. El software de los teléfonos detecta esta "marca de agua" inaudible y hace algo que hace que sea evidente para el oyente que está escuchando la IA. (Como superponer una voz que repita suavemente "inteligencia artificial" una y otra vez). Sin embargo, podría ser una exageración explicar cómo tu malo no sabe sobre esto.

Creo que la idea de la "marca de agua" es buena. Tal vez la marca de agua sea detectada y anotada solo por la compañía telefónica y no sea obvia para las personas normalmente (y muchas personas simplemente no lo saben, ya que muchas son sobre las marcas de moneda que menciona), pero la policía puede solicitar esta información para llamadas específicas?
El robot utiliza la ecolocalización para "ver" (quizás además de otros sensores). (Probablemente necesitará que el robot esté cerca de algún micrófono especial para captarlo, sin embargo, los teléfonos normales no se molestan con el sonido que es demasiado alto para escuchar).

El algoritmo de voz de la IA es determinista. No de una manera obvia: no hablan en un ritmo constante en el que cada sílaba tiene la misma longitud, pero en última instancia, hay un algoritmo que elige cómo entonar cada palabra, cuánto debe durar cada sílaba, etc. Quien haya escrito el algoritmo no pensó en aleatorizarlo, así que si la entrada es la misma, entonces la salida es la misma. Cuando la IA dice la misma frase y la expresa de la misma manera (por ejemplo, "buenas tardes" al comienzo de una conversación), el audio producido es exactamente idéntico.

Un oyente humano no podría captarlo, pero con una computadora disponible para analizar el audio, no habría duda de que la voz no es humana. Podría tomar dos instancias de la IA diciendo "buenas tardes" al comienzo de una conversación, superponerlas una encima de la otra, y sonaría como si una persona dijera "buenas tardes" dos veces más fuerte en lugar de dos. grabaciones reproducidas al mismo tiempo. Pero, por supuesto, solo puede hacer esto cuando se está realizando una grabación, por lo que puede detectar que es una IA por teléfono, pero no si la está escuchando en persona.

Esto también significa que solo se dan cuenta de que es una IA cuando la atrapan repitiendo algunas palabras que ya ha dicho antes con la misma entonación/expresión. Entonces, tal vez en la primera llamada o en las primeras llamadas, todavía no saben que es una IA.

" Quien haya escrito el algoritmo" // incluso hoy en día eso no sería nadie, se haría por prueba y error por software, usando voluntarios inicialmente y miembros del público más tarde, cuanto más tiempo pasa b4 su controlador, el sujeto de prueba (o miembro del público) declara que ha sido twigged, mejor será su puntaje en el software de aprendizaje por refuerzo utilizado, nadie realmente codificará ese 'algoritmo' en el que confía // hecho correctamente y el proceso con suficiente tiempo ganó el 'mismo' resultado de entrada no existe tan obviamente como podría pensar porque ese es precisamente el tipo de señal que se usaría para eliminar.
@Pelinore Un algoritmo de aprendizaje automático no puede "aprender" a producir resultados no deterministas. Si el algoritmo es determinista, la misma entrada implica la misma salida. En última instancia, es un ser humano quien elige qué modelo de aprendizaje automático usar y qué entradas obtiene; si un ser humano no elige un modelo no determinista o no elige aleatorizar ninguna de las entradas de un modelo determinista, entonces será determinista. Si quieres llamar a eso "escritura" o "diseño" o algo más, eso es irrelevante.
"Un algoritmo de aprendizaje automático no puede "aprender" a producir resultados no deterministas". Es curioso que diga eso , creo que la industria no estaría de acuerdo (si se puede codificar, se puede seleccionar con aprendizaje automático), sin duda una apariencia bastante buena de se puede lograr un resultado no determinista, más que adecuado para 'engañar a los ojos' en muchos (quizás incluso en la mayoría) de los casos.
@Pelinore Si la persona que entrena el modelo elige un modelo determinista, entonces es determinista, fin de la historia. Puede entrenar una red neuronal con la cantidad de datos que desee, puede enseñarle póquer donde aleatorizar su estrategia es estrictamente mejor que jugar de manera determinista, pero al final del día lo que tiene es una gran función matemática que hace mucha aritmética. , por lo que si ingresa los mismos números, obtendrá el mismo resultado porque hará la misma aritmética. Esa red neuronal no puede "aprender" a ser no determinista.
"Si la persona que entrena el modelo elige un modelo determinista, entonces es determinista". Entonces, está de acuerdo conmigo (claramente, uno determinista no puede ser una 'elección' si la otra opción no existe), dulce :) "Eso la red neuronal no puede "aprender" a ser no determinista", aunque parece que no te das cuenta.
Si lee mi respuesta que está comentando, creo que está bastante claro que reconocí que la persona que crea el algoritmo podría elegir aleatorizarlo, pero la historia dependería de que no lo hicieran. Sus objeciones parecen ser que cree que los algoritmos de aprendizaje automático no son creados por personas (obviamente falso) y que los modelos de aprendizaje automático pueden aprender a ser deterministas o no (también falso). No creo que tenga ningún sentido continuar con esta discusión.
Tal vez un algoritmo de aprendizaje automático no pueda "aprender" a producir un resultado no determinista, pero podría configurarse para actualizarse o volver a entrenarse continuamente, tal vez en función de las reacciones a su resultado, en función de interacciones pasadas. Por lo tanto, podría cambiar los detalles de la expresión incluso para el mismo resultado. (Aún así, puede ser menor o diferente de los humanos, tan detectable, por lo que es una buena idea).
@PabloH Si está entrenando un modelo de aprendizaje automático para la voz de un robot, sería bastante poco probable que diseñara el robot para seguir entrenando el modelo. Normalmente, se necesita mucho menos poder de procesamiento para simplemente evaluar el modelo (es decir, producir salida de voz) que para entrenar el modelo; por ejemplo, un Go AI de última generación puede evaluarse miles de veces por segundo en una buena PC de escritorio, pero entrenarlo requiere una supercomputadora o un gran esfuerzo distribuido. Lo más probable es que cualquier capacitación continua se realice fuera de línea, en otro lugar y se implemente en actualizaciones periódicas.

En persona, estás distraído.

cera profunda

https://www.pinkvilla.com/entertainment/news/deepika-padukone-her-wax-statue-voice-inside-me-said-i-would-it-be-statue-purpose-443200

Es una maestra del lenguaje corporal. Sus movimientos son perfectos. Ella está bailando cuando está respirando. Ella es asombrosamente, sobrenaturalmente atractiva. Y ella huele tan bien. Sí, un poco de acento y algunas frases graciosas, ya veces no lo entiende. ¡Pero esos ojos! ¿Le gusto a ella? ¡La forma en que se sacude el pelo y se ríe de mi chiste tonto! Oh, Dios mío, ¿me acordé de depilarme los vellos de la nariz?

Entonces, ¿el equivalente a hablar por teléfono con una chica muy bonita que, por lo demás, es aburrida y poco interesante?
@DKNguyen Es más como hablar por teléfono con una chica muy bonita que puede ser desconcertantemente rara.
Esta es una conversación muy rara, no voy a mentir. Si alguien me dijera esto por teléfono, me asustaría.

Modelo psicoacústico diferente. Los investigadores que crearon la IA utilizaron muestras de voz en MP3 para entrenar su voz (porque eso era lo que proporcionaba su corpus hablado, o porque el pasante encargado de preparar muestras de voz en formato común no tenía ni idea{estaba allí, vio eso...} ni nada ). El resultado es que la IA habla en un modelo psicoacústico de MP3 de alta calidad y suena perfecto en persona, pero la línea telefónica (móvil, porque ¿quién usa ya los teléfonos fijos?) usa el códec GSM-AMR que es bastante reacio a recodificar MP3. (reemplace los códecs con lo que se esté usando en el momento de la historia)

Nota al margen y una alternativa: hay códecs de baja tasa de bits que funcionan bien para idiomas no tonales, pero hacen que los idiomas tonales sean bastante ininteligibles. La IA habla perfectamente Pǔtōnghuà , y sabe que el códec utilizado en la (conexión telefónica de baja calidad) es malo para los tonos mandarín y compensa el efecto. La primera entrevista telefónica en chino lo delata porque la calidad del sonido es extraordinariamente buena.

pronunciacion de nombres

En inglés, la pronunciación de los nombres no es estándar , ya que los nombres tienen su origen en varios idiomas diferentes. ¿Quién pensaría que la palabra "Michael" debería pronunciarse como realmente es, por ejemplo? Mi nombre también es complicado para los motores de texto a voz (¡y también para casi todos los que no hablan inglés!). Y luego están los apellidos que divergen aún más radicalmente.

Y eso es antes de que lleguemos a los nombres de los lugares. Algunos nombres de lugares no se pronuncian como parece que deberían ser, especialmente en el Reino Unido. Muchos de ellos son bastante conocidos: "Happisburgh", por ejemplo, se pronuncia "Hays-burra". Sin embargo, EE. UU. tiene un problema aparte donde los nombres de lugares tomados de otras partes del mundo no se pronuncian como lo harían allí. "Orleans" en Francia y "Nueva Orleans" se pronuncian de manera diferente; y Bill Bryson tiene un ejemplo de un lugar llamado "Cairo" que los lugareños pronuncian "Kay-ro". Decir "Nueva Orleans" con una pronunciación francesa claramente será incorrecto.

Y el regalo final es la confianza en su tono cuando se enfrentan a un nombre que es incluso un poco fuera de lo estándar, o que es más largo de lo habitual. Un ser humano tenderá a tropezar con un nombre desconocido, o al menos sonará vacilante, y tal vez comprobará que lo está diciendo correctamente. Para un nombre largo, como algunos apellidos españoles, un ser humano a menudo no podrá retenerlo todo de una vez y tendrá que leerlo fuera de la página, lo que provocará breves pausas mientras mira hacia abajo para leer. Una IA no tiene idea de lo que es "familiar" o lo que es "largo": simplemente emitirá la misma fonética, cada vez.

¿Por qué esto funciona por teléfono y no cuando se habla con ellos "en persona"?
@PaŭloEbermann Tal vez por coincidencia. En persona, el robot escucha lo que otros dicen para etiquetar nombres propios (nombres de objetos/personas/lugares) y repite lo que escuchó. Es decir, utilizará el reconocimiento facial para recopilar rostros cercanos y escuchar lo que dice la gente para etiquetar rostros con una pronunciación de audio, etc. adivinar sin un contexto de conversación. Tal vez incluso normalmente evita usar palabras desconocidas cuando está determinando su propio mensaje (como una IA), pero dado que el malo tiene un mensaje en particular...
¿Cómo podrías decirle a la IA que dice con confianza la pronunciación incorrecta frente a un humano que dice con confianza la pronunciación incorrecta? Por ejemplo, una persona que solo sabe una pronunciación de El Cairo no dudaría en hacerlo, pero podría estar equivocada. Y para no dudar en nombres desconocidos, ¿cómo saber con qué nombres no está familiarizado alguien? Si alguien dice un nombre con confianza, no pienso "ajá, un robot", solo creo que ya conocen ese nombre (tal vez conocían a alguien con ese nombre anteriormente).
Si cree que Nueva Orleans (OR-linz) es mala, debería probar algunos de los nombres de las calles de allí como Tchoupitoulas (CHOP-a-too-lus), Tchefuncte (chu-FUNK-ta) o Ouachita (wosh- i-taw)

Las IA pueden imitar muy bien el habla humana, es al revés. Pueden hablar todo el día, pero no sabrán de qué hablar porque no pueden entender sus preguntas.

Piense en las transcripciones automatizadas que existen hoy en día: de una voz nítida capturada por un equipo de audio profesional en una habitación a prueba de ruidos, la IA tiene mucho tiempo para reflexionar sobre ello y aún comete errores graves. Y cualquier ligera degradación de la calidad hace que simplemente se rinda. O transcribir un minuto de discurso como solo [Applause].

¿Alguna vez has notado que la gente suena un poco diferente por teléfono? Si es así, probablemente lo hayas movido al nivel subconsciente muy pronto y ni siquiera consideres pensarlo dos veces. Los cerebros humanos son muy flexibles. Sintonizarán cualquier señal mientras esté allí. Simplemente filtrarán una cantidad irrazonable de ruido... o insertarán datos que no están allí solo porque solo hay una forma de hacerlo que produce resultados sensatos. Y cuanto más restrinja el dominio de salida, más errores estará dispuesto a ignorar.

Para una IA, el ruido que un cerebro humano no vendería se amplificará, buscará datos útiles y abrumará los circuitos que deberían estar buscando en otra parte de la que están... como pequeños errores que son el resultado de los datos. compresión. Diminuto, pero en lugares en los que el módulo de reconocimiento de voz AI es más dependiente. En una palabra - un desastre. Por supuesto, todavía hay ruido en persona, pero tener una transmisión de video en tiempo real de los órganos del habla del ser humano ayuda enormemente al proceso de decodificación. Además de micrófonos direccionales, por supuesto.

Los cerebros de IA son un poco similares a los cerebros humanos... elimina eso. El diseño de los cerebros de IA se inspira principalmente en los cerebros biológicos, pero quedan grandes porciones. Específicamente, la inspiración que tomó es que puede calcular cualquier función sumando, multiplicando y sujetando con la suficiente frecuencia. Lo que sí pasa por alto es que el cerebro humano está hecho de bucles de retroalimentación de bucles de retroalimentación de bucles de retroalimentación. No es que las IA no lo sepan, pero simplemente no tienen suficiente poder de cómputo para ejecutar ese tipo de cosas. Ajustan algunas perillas virtuales hasta que su salida coincide con la transcripción. Luego levantan el teléfono, y los datos son completamente diferentes. Pueden tratar de girar algunas perillas, pero no lo suficientemente rápido. No saben qué perillas girar, hay miles de ellas,

Podrían tomar una grabación y luego jugar con ella durante un tiempo, digamos de seis a ocho horas, luego podrían decodificarla... tal vez. Pero para entonces ya es demasiado tarde. E incluso si descubren qué perillas girar, no es bueno. Internet está un poco menos congestionado la próxima vez que hacen una llamada, los teléfonos eligen un códec diferente que produce un tipo diferente de ruido (elegido de manera que no sea muy perceptible para un humano), o tal vez un poco menos. y la IA tiene que empezar todo de nuevo.

Porque dependen en gran medida del lenguaje corporal (posturas, expresiones faciales) para comprender lo que dicen los humanos, y se sienten perdidos cuando pasan por alto estas pistas, son incapaces de detectar el sarcasmo, el humor, etc.

Múltiples altavoces no suenan bien de cerca

Mencionaste que la IA tiene altavoces de primer nivel. Si tiene varios altavoces, pueden sonar como una sola voz a unos pocos pies de distancia, pero justo al lado del micrófono de un teléfono sonaría como si partes de la voz estuvieran a diferentes distancias (puede ajustar esto para que el efecto sea más o menos sutil) . Dependiendo de cómo funcionen los altavoces y cómo la IA simule el habla, en el teléfono puede sonar como múltiples voces confusas, o tal vez puede sonar como si la distancia y el tono implícitos del volumen absoluto de la voz no coincidieran. como si la IA "gritara" a todo pulmón pero de alguna manera es más silenciosa que su voz normal. En general, crear una voz que suene como un ser humano real en persona desde la distancia probablemente no resistiría desde una o dos pulgadas de distancia como en el teléfono.

repeticiones

Di algo, habla de otra cosa por un rato, luego repite lo primero. Hazlo otra vez. La segunda o tercera vez que un humano preguntaría por qué sigues preguntando lo mismo o al menos respondería con un tono de interrogación para indicar que está confundido, una IA con respuestas preparadas para oraciones específicas y teniendo en cuenta un contexto corto simplemente respondería. repetir la misma respuesta con el mismo tono.

Lo mismo si sospechas y sigues llamando, una y otra vez.
Desafortunadamente, esto también es posible en persona, por lo que no parece funcionar como una solución solo por teléfono.

Dos opciones

Es demasiado rápido

Las conversaciones telefónicas son un poco incómodas. Falta la comunicación no verbal en la que los humanos confían para descubrir el contexto y el significado. Sin embargo, los diseñadores del bot no fueron lo suficientemente inteligentes como para manejar esas cosas no verbales, por lo que cuando el robot se comunica, se basa estrictamente en el reconocimiento de voz. Los sistemas visuales no están conectados al sistema de comunicación de ninguna manera. Básicamente, es un chatbot de texto que tiene convertidores de texto a voz y de voz a texto. También tiene una capacidad limitada para captar señales verbales, como velocidad y vacilación.

Para compensar esta incapacidad, tiene procesadores muy rápidos. En persona, parece que capta tu lenguaje corporal y tus expresiones faciales, pero en realidad solo está pensando mucho en lo que dijiste, más rápido de lo que cualquier humano podría hacerlo.*

Como resultado, toda esta información aún está disponible por teléfono y el robot se comunica por teléfono con la misma fluidez que en persona. Cuando dos humanos tienen una llamada telefónica, es torpe: hablan entre ellos, tienen algunos problemas con el retraso y disminuyen la velocidad porque no pueden verse las caras. Entonces, cuando el robot está hablando por teléfono y suena igual que en persona, es una señal de alerta.

*Esto implica que podría detectar un robot mostrando un comportamiento paradójico. Si suena totalmente amigable, pero le da al bot una mirada de muerte todo el tiempo, no se dará cuenta de la hostilidad y solo interpretará sus palabras en función de cómo suenan.

No está seguro de con quién está hablando.

El bot hace inferencias bayesianas sobre con quién está hablando en todo momento y nunca es 100% seguro. Cuando no puede ver a la persona con la que está hablando, tiene menos confianza en quién es. (Probablemente) no usará el nombre incorrecto ni nada, pero podría cambiar a una voz un poco más genérica de "hablar en público" para cubrir sus bases en caso de que te haya equivocado. También puede decirle cosas que debería saber que usted ya sabe, porque no está 100% seguro de quién es usted, por ejemplo, llamando al jefe de policía de la ciudad de Serson y diciendo

He colocado una bomba en el ayuntamiento de Serson, explotará en 30 minutos a menos que elimines a todos los policías de Serson City del puente que cruza el puerto.

Un humano llamaría a esta amenaza de manera diferente. No dirían "Ayuntamiento de Serson" porque el jefe de policía sabría a qué ayuntamiento te refieres. También dirían "sus oficiales" en lugar de "sus oficiales de policía de Serson City", y "el puente" en lugar de "el puente que cruza el puerto", porque un humano estaría 100% seguro de que está hablando con el jefe de policía. Esta IA nunca alcanza el 100% de confianza, por lo que cubre sus apuestas.

La IA no tiene una "voz de teléfono"

Los humanos hablan diferente por teléfono (fuente: experiencia personal, pero en caso de que nunca lo hayas notado, solo busca en Google "¿las personas hablan diferente por teléfono?").

Con el tiempo, las personas desarrollan su "voz telefónica" aprendiendo a través de prueba y error cómo hacerse entender por teléfono.

La IA carece de una voz de teléfono y, como resultado, es inexplicablemente difícil de entender, aunque fácil de describir y reconocer, por parte de los humanos al otro lado de la línea.

Escena 1.

Operador: "911, ¿qué tipo de emergencia es esta?"

AI: "Me gustaría llamar por una amenaza de bomba"

Operador: "Lo siento cariño, no puedo entenderte. ¿Es una emergencia médica, de policía o de bomberos?"

AI: "Vas a necesitar los tres"

Operador: "Lo siento, ¿podría reducir la velocidad y hablar un poco más alto?" (susurra al supervisor: ¡Creo que es ESE TIPO "el murmurador" del que nos informaron esta mañana!)

Bonificación: la voz de IA interrumpe la transcripción de llamadas y el análisis de sentimientos

La mayoría de los grandes centros de llamadas de IRL hoy en día tienen transcripción automatizada con análisis de sentimiento, donde el asociado obtiene una transcripción continua de la llamada en la pantalla de su computadora en tiempo real, junto con un indicador del estado de ánimo de la persona que llama después de cada declaración.

Debido a que las llamadas del "mumbler" tendrán un tono diferente a cualquier conversación en la que se haya entrenado la IA del software Call Center, la transcripción de llamadas y el análisis de sentimiento se comportarán de una manera peculiar que es claramente distinta de las llamadas humanas.

Efecto muaré a partir de las frecuencias de muestreo de los sistemas implicados. Los efectos muaré solo aparecen cuando tiene dos fuentes separadas de líneas que tienen casi el mismo tamaño o un múltiplo del mismo.

El audio digital tiene una frecuencia de muestreo, normalmente muy por fuera del oído humano, por lo que es irrelevante pero está ahí. Tienes la IA emitiendo una señal digital, tienes el teléfono respondiendo y transmitiendo una señal digital. Normalmente, los parlantes y los micrófonos no funcionarían en esas frecuencias, pero por alguna razón lo hacen en este caso. (Lo suficientemente fácil de explicar para la IA, no tan fácil para los teléfonos).

¿Tiene alguna evidencia de que esto es un efecto real? Porque Nyquist-Shannon dice que el sonido, particularmente la reproducción de sonido , no funciona así. (Aquí hay una explicación en video ). La reproducción de una señal digital produce una señal analógica debido a la física del altavoz. Sería bastante inusual que ADC detectara artefactos y, de hecho, tenemos muchos, muchos ejemplos de que esto no sucede en la práctica.
Ejemplo improvisado: los auriculares de mi amigo captan el audio de su juego muy, muy bien. Aparte de las pistas relacionadas con la latencia, sin escuchar muy de cerca, puede ser casi imposible distinguir el audio de su juego captado por su micrófono del audio de mi juego. Dado que a) la ciencia dice que esto no es una cosa, yb) la experiencia dice que esto no es una cosa, no compraría esto sin pruebas mucho más convincentes. (OTOH, supongo que al OP podría no importarle, pero alguna audiencia pensará que esto es BS... y podría incluso si es posible ).
@Matthew No será posible a menos que el equipo en ambos extremos se extienda a una frecuencia lo suficientemente alta e incluso entonces solo sucederá si tiene una ligera compensación en los portadores. Por lo general, tendrá el mismo desplazamiento.
@LorenPechtel Obtienes Moires cuando no hay una fase de interpolación. Aquí, hay una fase de interpolación, por lo que no está captando una salida discreta con un dispositivo de entrada discreto.
@ wizzwizz4 Estoy pensando en altavoz a micrófono, ¿no sería muaré si las frecuencias de muestreo fueran cercanas pero no una coincidencia exacta?
@LorenPechtel No. Ni siquiera si conectó los diafragmas con un palo, y probablemente ni siquiera si conectó las bobinas del diafragma juntas.

Son más rápidos.

Su naturaleza de IA significa que pueden controlar las líneas telefónicas. Al igual que la policía, pueden escucharlo y hablar con usted tan pronto como comience a sonar, incluso antes de que parezca conectarse.

Como tal, cuando los escucha hablar por teléfono, parecen más rápidos que un ser humano normal. Hablan antes y saben lo que dijiste cerca del teléfono.

El OP dijo que la IA "habla a través de un teléfono/altavoz/etc." (énfasis añadido), lo que parece implicar las mismas limitaciones que tendría un humano en este sentido.

Es demasiado bueno para recoger información de la persona al otro lado de la línea. AI hace una pregunta y su compañero de conversación asintió al teléfono. ¿No lo hacemos todos a veces? La IA escuchó el movimiento del aire o tal vez el cuello de la otra persona crujiendo muy levemente y saben que la persona asintió, aunque no hay forma de que un humano pueda saberlo. Si estuvieras en presencia de la IA, no notarás que está dominada, ya que asumes que quienquiera que te encuentres acaba de verte.

La IA necesita contexto. Simplemente puede mezclar cosas de ficción conocida o cultura popular como si fueran hechos, siempre que se mantengan en contexto, una IA las tomaría al pie de la letra. Un humano se daría cuenta si estuvieras haciendo referencia a un programa de televisión como si fuera la vida real. Una IA no se daría cuenta de que Fry y Leala con los que hablabas de reunirte eran personajes de futurama. O que probablemente no ibas a ir a la boda de Brad y Angela el fin de semana. Un humano al menos notaría la similitud de los nombres.

Las IA son realmente malas en la síntesis de voz, pero los humanos no se dan cuenta debido al efecto McGurk . Con la entrada de solo audio, el cerebro humano ya no corrige automáticamente las malas pronunciaciones, por lo que la voz suena mal.

Demasiado bueno para ser humano

Conecta su IA directamente a la línea telefónica (o incluso a alguna estación telefónica central, evitando la mala "última milla" de una línea telefónica), y como resultado, el sonido es demasiado claro y libre de ruidos que siempre ocurren cuando un persona está llamando a través de un teléfono real.

Engañar a la IA para que haga cosas que los humanos no podrían hacer

Tratar de encontrar deficiencias en la IA es un esfuerzo infructuoso. O la IA es competente para imitar a los humanos o sería demasiado fácil justificar una pregunta aquí. Así que estamos tratando con una buena IA. Bueno, pero tonto. Si cambia su conversación un poco al lado inquisitivo, la IA puede ser engañada con preguntas cuyas respuestas un humano no sabría (como física avanzada, cálculos complicados donde un humano simplemente nos diría que obtengamos nuestra propia calculadora o algo así. Por las cosas triviales de la IA para que no piense en desviar la respuesta),

O, saliendo de otras respuestas aquí, producir sonidos que una boca humana no podría (ya sea que un humano perciba directamente esta diferencia o que solo sea detectable a través del análisis espectral) dependiendo de las necesidades de la historia) .

Lenguaje corporal
El lenguaje corporal es una gran parte de la comunicación humana. La IA lleva eso al extremo, ya que depende casi exclusivamente de la comunicación no verbal. Utiliza microexpresiones para leer emociones, comprender el sarcasmo y, en general, ayudar a descubrir el contexto en el que se dice algo.
Cuando intenta interactuar por teléfono, la IA no puede leer el lenguaje corporal; algo así como lo que el chat en línea en texto sin formato es para los humanos. La IA intentará filtrar el significado del tono de la voz, pero aun así, está muy mal optimizada para eso. Pensará que algo es sarcástico cuando no lo es, tratará de calmar a las personas que levantan la voz por otras razones y, en general, dará respuestas que realmente no se esperan en la situación.
Este problema empeora mucho debido a la compresión. Incluso si captaron las emociones del tono de voz, están demasiado distorsionadas por el teléfono.

No hecho para conversaciones
La IA no solo está muy bien hecha para mezclarse con los humanos, sino que también está diseñada para permanecer en segundo plano. Estar vestido con algo discreto evitaría demasiadas interacciones que podrían fallar. La IA también podría aplicar el lenguaje corporal al caminar, haciéndose parecer ocupado o irritado. La gente esperará que la IA llegue tarde, y las respuestas cortas e irritadas antes de mudarse no serían extrañas en la situación.

Frecuencia del paquete de audio

Las líneas telefónicas muestrean y emiten sonidos a una frecuencia baja para ahorrar ancho de banda, dándoles ese sonido de máquina característico cuando hablas con alguien en el otro extremo. Las voces de los robots son tonos muestreados digitalmente a una frecuencia más alta con un mínimo común múltiplo/divisor coincidentemente grande. Como resultado, cuando un robot habla por teléfono, hay un sonido de modulación de fase característico, ya que las muestras de voz del robot a veces lo hacen y otras veces no se alinean perfectamente con la frecuencia de muestreo del teléfono.

Las voces humanas, por otro lado, son señales analógicas puras, por lo que siempre están en la muestra cuando las graba el teléfono. Un oído entrenado puede captar la diferencia.

La paquetización se aplica a los datos, no al sonido. Realmente no está claro lo que estás tratando de decir aquí.
@Acccumulation Si su teléfono muestra audio a 8kHz, entrega a 4kHz y el robot habla a, no sé, 9.3kHz, entonces tendrá un modulador de fase en la línea. La diferencia entre una muestra y un paquete, digitalmente, no es más que una objeción semántica, y si cree que no lo es, entonces se está basando demasiado en un protocolo sobre otro. Los paquetes son unidades de datos divisibles; las muestras son unidades de datos divisibles; ¿Estás realmente confundido o simplemente no te gusta la forma en que lo dije?
Ahí lo cambié.

no involucra una conversación, solo alguien que escucha la cosa hablar y se da cuenta, de alguna manera, que es una IA.

La imposición anterior hace muy difícil responder a su pregunta.

¡Detectar la voz en la línea telefónica se hace artificialmente y, según esta afirmación, es una voz de IA que es un problema! Verás, las voces artificiales existen desde hace décadas. Por qué, hoy, alguien detecta un discurso hecho artificialmente y dice: ¡Oye, es AI hablando allí!

La voz hecha artificialmente podría ser generada por algún tipo de "Scrambler" cuya utilidad es solo para mantener en secreto la identidad del malo (género, edad, acento).

https://en.wikipedia.org/wiki/Voice_inversion https://en.wikipedia.org/wiki/Scrambler

Varias buenas respuestas explican cómo detectar una voz hecha artificialmente. ¡Pero tu problema es detectar una IA!

no involucrar una conversación

Lastimosamente es imposible detectar una IA REAL sin conversación. De hecho, la herramienta necesaria para detectar una IA se creó antes de que se creara la primera computadora capaz de simular una IA primitiva.

https://en.wikipedia.org/wiki/Turing_test

Si necesita un ejemplo de una prueba de Turing en uso, le recomiendo una de las mejores películas de ciencia ficción jamás realizadas:

https://en.wikipedia.org/wiki/Blade_Runner

La escena de argumentación al comienzo de la película es una prueba de Turing mejorada.

Pero no todo está perdido; puede existir una forma de detectar si una voz a través de una línea telefónica es una IA. Por supuesto que es Mambo Jambo técnico :).

Tu IA "tonta" no es tan tonta. De hecho, es bastante bueno e incluso a través de la línea telefónica se confunde como una voz humana real. Entonces, los buenos lo toman como una verdadera amenaza y lo registran.

Lo que es muy habitual en películas y programas de televisión es pedir a un experto en polígrafo que escuche y analice el registro.

https://en.wikipedia.org/wiki/Polígrafo

Un experto en polígrafo experimentado revisará el discurso en busca de pistas especiales que indiquen que las intenciones del malo son reales. La clave es que las personas que mienten pueden hablar "normalmente", pero si revisas el gráfico en la pantalla de la computadora/polígrafo, verás el esfuerzo que hizo para sonar normal. Pueden fingir la voz, pero no pueden fingir las emociones. De esta manera, un operador de polígrafo experto puede identificar a un mentiroso.

Bueno, una IA no tiene emociones, por lo que un operador de polígrafo experimentado que observe el gráfico del registro podría inferir que el habla no fue generada por una persona. Las pistas clave en los gráficos son ilógicas.

Si te permites estirar la cuerda al máximo: el polígrafo es tan bueno que es capaz de distinguir las pistas ilógicas con solo escuchar el registro :()!

(Esto es bastante limitado; desea que el oyente pueda elegir algo que hable perfectamente, como anómalo, dado el habla como el único medio).

Usted especifica que la IA es limitada, pero no puedo ver cómo aprovechar eso sin una conversación (que está excluida)... excepto como se muestra a continuación.

Me gusta la idea de alguna anomalía en el habla (especialmente el aspecto de la respiración), pero otras respuestas lo tienen bastante cubierto.

Una posibilidad es que la máquina emita un sonido eléctrico o mecánico. Una obvia es la interferencia entre los parlantes de la IA y la electricidad del teléfono. [Creo que lo leí en otra respuesta, pero no lo encontré en una búsqueda rápida.]

La alternativa mecánica es, por ejemplo, que la IA "sujeta" el auricular del teléfono de alguna manera, y hay un ruido mecánico, como el zumbido de un ventilador de refrigeración, o un clic rápido causado por la vibración, o algún ruido causado por la IA sosteniendo el teléfono demasiado apretado, o el zumbido de la presión hidráulica que se mantiene... eso se transmite mucho mejor a través del contacto que a través del aire.

En otro sentido... asumo que el bombardero está usando la IA únicamente para evitar usar su propia voz. La otra posibilidad es aprovechar este aspecto y tener un bombardero que en realidad tenga algún defecto. Quizás son de una subcultura diferente y han elegido una IA que, por ejemplo, dice "¡Hola!" de una manera que inmediatamente pone nervioso a cualquiera de esta ciudad, pero suena bien para el bombardero.

Quizás el bombardero ha sintonizado el discurso de la IA para que suene bien para el bombardero, pero [también] para que suene artificial para los demás.

Tal vez el atacante tiene problemas de vista, o no está familiarizado con los teléfonos de alguna manera... de modo que colocan la IA sosteniendo el teléfono de tal manera que bloquea el micrófono con una "parte del cuerpo" que tiene características auditivas peculiares, de modo que la persona en el otro extremo lo notará.

Tal vez una idea tangencial sea aceptable, como que la IA produce el habla con dos tonos "portadores" simultáneos (tono de voz, en un ser humano)... pero el pobre bombardero es sordo al tono más alto.

Quizás el bombardero es un poco sordo y ha subido demasiado el volumen del discurso de la IA, notando que un ser humano hablando en voz alta suena diferente a eso.

Me gusta la idea de que la IA es una estándar que (por ejemplo) se usó recientemente en una gran campaña de telemercadeo, y todos reconocerán su voz al instante... pero de alguna manera el bombardero se perdió esto.

Me gusta la respuesta de "John Dvorak" aquí; el bombardero podría estar escuchando a la IA, pero no al otro lado, y la IA podría estar arruinando completamente la conversación, mientras pronuncia perfectamente, líneas que son inapropiadas.