Digamos que hay una IA "tonta": solo puede aprender dentro de los límites preestablecidos y no puede aprender nada que esté fuera de esos límites.
Sin embargo, es muy bueno para imitar el habla humana, y los altavoces conectados a su chasis son de primera categoría, tanto que, si lo escuchara directamente pero no lo viera, sería incapaz de distinguirlo de uno real. humano.
Sin embargo, hay una manera de descubrir que es una inteligencia artificial cuando habla por un teléfono/altavoz/etc. con eso. ¿Por qué? ¿Su voz resuena diferente a la de un humano por teléfono? ¿Sus intentos de inflexión se desmoronan por teléfono pero no en persona?
Reconozco que no solo es ineficiente enchufarlo a un dispositivo, sino que, en este caso, tiene que usar tecnología que no está conectada a su chasis: funciona para un malo que lo lleva a diferentes teléfonos en una ciudad para llamar en bomba amenazas, pero cree que puede imitar perfectamente a un humano.
Preferiblemente, cualquier respuesta:
no involucra una conversación, solo alguien que escucha la cosa hablar y se da cuenta, de alguna manera, que es una IA.
No cambies la parte del malo con una bomba.
Las compañías de líneas telefónicas quieren ahorrar dinero haciendo que cada llamada use la menor cantidad de ancho de banda posible. Esto es cierto tanto para la comunicación por cable como por teléfono celular: cuantas más llamadas pueda caber en el mismo espacio, mejor. Sus ingenieros han trabajado arduamente para optimizar cuánto y de qué manera el habla humana puede simplificarse tanto como sea posible y aún así entenderse. El proceso tiene en cuenta qué sonidos se usan en el habla y cómo funciona la audición humana: en realidad faltan muchos sonidos en el extremo receptor, pero cuando los escuchamos podemos reconstruirlos.
Por supuesto, este proceso tiene sus desventajas. Uno de ellos es que debido a que está tan optimizado para el habla humana, es malo en la mayoría de las otras cosas. La música, por ejemplo, es una de las razones por las que la música de espera siempre suena tan terrible.
La IA no solo reproduce una voz humana, sino que genera la suya propia. Aprendió a hablar con la gente hablando en persona, por lo que llegó a una forma de hablar en la que suena como un ser humano, pero visto en un analizador de espectro, los sobretonos y la distribución de frecuencias suelen ser bastante diferentes. Esto lleva a que el algoritmo de compresión de la línea telefónica lo arruine por completo: se cortarán frecuencias importantes y sonará muy extraño y entrecortado. El sonido exacto puede variar un poco, pero el resultado final será para el habla humana lo que la música de línea de espera es para una grabación de estudio adecuada: sonará terrible de escuchar de una manera inexplicable.
El soplo de vida y las oclusivas.
En la vida real, a menos que la boca de la persona esté justo al lado de su oreja, no podrá notar la diferencia entre la reproducción de alta calidad y la realidad.
En un móvil (al menos uno moderno) el micrófono está de espaldas a la boca en el extremo del teléfono, las personas en los centros de llamadas tienen protectores de micrófono, pero en una cabina telefónica, domina la tecnología más primitiva.
El micrófono capta los sonidos de la respiración y el estallido de los sonidos oclusivos del habla . Estos no están allí desde el altavoz, puede llevar unos segundos y pensar un poco en averiguarlo dependiendo de qué tan inteligente/distraído esté la policía, pero será concluyente e inequívoco que no hay una boca involucrada.
El técnico inteligente que configuró esto necesitaría simular la respiración (bastante fácil considerando la IA), y una ráfaga de aire real perfectamente sincronizada para golpear el micrófono, factible pero bastante complicado ya que las partes mecánicas necesarias están más en la vena animatrónica que el de programación.
Es decir, cuando nos encontramos cara a cara recogemos pistas de, por ejemplo, si la persona está sonriendo o cómo sostiene la cabeza, la IA ha aprendido a recoger pistas de las mismas cosas, pero a partir del habla. en lugar de datos visuales.
Al hablar con la IA en persona, esto es completamente irrelevante: responden teniendo en cuenta todas las pistas disponibles.
Sin embargo, la IA no diferencia entre hablar en persona y hablar por teléfono. Al hablar con alguien, la IA puede comentar sobre el hecho de que está sonriendo o cómo está mirando a su alrededor, porque ha recogido pistas del habla de la persona que ha aprendido que están asociadas con ciertos movimientos, dando la impresión de que puede ver el evento de la persona con la que está hablando aunque sea una conversación telefónica; no sabe que un humano no comentaría sobre estas cosas cuando no puede ver a la otra persona.
En 2024, las primeras bibliotecas de software de síntesis de voz perfectas para consumidores llegarán al mercado. Por perfectos quiero decir que los humanos no pueden reconocerlos como tales.
Como resultado, floreció la industria del marketing telefónico y las estafas. Junto con algo de reconocimiento de voz, ahora era posible filtrar a las personas crédulas sin requerir ningún trabajo humano.
En 2025, un astuto empleado de una compañía telefónica encontró una manera de entrenar rápidamente las redes neuronales para detectar la salida de todas las bibliotecas de síntesis de voz relevantes mediante sellos que no son reconocibles por los humanos y que no se pueden quitar fácilmente. Los autores de las bibliotecas nunca "fijaron" esos sellos porque eran inaudibles para los humanos y, por lo tanto, había pocos incentivos. (Vea también la respuesta de Matthew ).
La compañía telefónica implementó rápidamente este algoritmo como punto de venta. Cualquier voz detectada para ser sintetizada sería distorsionada sobre la marcha de una manera que la marcaría claramente como tal. Los clientes también pueden optar por que dichas llamadas finalicen de inmediato, o pueden optar por no participar en esta función por privacidad, pero pocos lo hicieron.
Otras compañías telefónicas siguieron rápidamente.
En 2026, la industria del marketing telefónico tuvo una muerte rápida pero silenciosa. Nadie lo lamentó y la gente pasó a hostigar a los “clientes” en Internet.
Veinte años después, casi todo el mundo se ha olvidado de todos estos eventos, pero los algoritmos siguen en su lugar, porque cuestan casi nada y la razón por la que existen sigue ahí.
Ahora, su IA no tiene razón (o capacidad) para reinventar la rueda cuando se trata de síntesis de voz. En su lugar, utiliza las bibliotecas "perfectas" existentes y golpea el bloque de anuncios olvidado.
Una IA es un software, y el desarrollo de software tiene sus propias peculiaridades.
El equipo que desarrolló la IA cumplió bien con todos los requisitos de conversación cara a cara, pero las conversaciones por teléfono estaban fuera del alcance de la versión uno, por lo que nunca pasaron por el control de calidad.
En una conversación cara a cara, la IA lee las pistas faciales de las personas presentes. Sin ver una cara, la IA no puede procesar los patrones de voz correctamente y suena como un dispositivo GPS del año 2010.
La IA causa interferencia
Si asumimos que el malo está usando teléfonos públicos, y tal vez que todos esos teléfonos sean de cierto modelo... quizás la IA, desconocida para el malo, también emite un sonido muy distintivo y agudo cuando habla (o simplemente todos los tiempo) que normalmente es inaudible para los humanos (en persona), pero por alguna razón afecta a estos teléfonos.
¿El malo robó esta IA? ¿Él no sabe mucho sobre eso? Una forma en que esto podría ser más creíble es si el efecto es una salvaguardia deliberada incorporada en la IA por sus creadores, algo así como las marcas especiales en el papel moneda y que evitan que se impriman en impresoras comunes. El software de los teléfonos detecta esta "marca de agua" inaudible y hace algo que hace que sea evidente para el oyente que está escuchando la IA. (Como superponer una voz que repita suavemente "inteligencia artificial" una y otra vez). Sin embargo, podría ser una exageración explicar cómo tu malo no sabe sobre esto.
El algoritmo de voz de la IA es determinista. No de una manera obvia: no hablan en un ritmo constante en el que cada sílaba tiene la misma longitud, pero en última instancia, hay un algoritmo que elige cómo entonar cada palabra, cuánto debe durar cada sílaba, etc. Quien haya escrito el algoritmo no pensó en aleatorizarlo, así que si la entrada es la misma, entonces la salida es la misma. Cuando la IA dice la misma frase y la expresa de la misma manera (por ejemplo, "buenas tardes" al comienzo de una conversación), el audio producido es exactamente idéntico.
Un oyente humano no podría captarlo, pero con una computadora disponible para analizar el audio, no habría duda de que la voz no es humana. Podría tomar dos instancias de la IA diciendo "buenas tardes" al comienzo de una conversación, superponerlas una encima de la otra, y sonaría como si una persona dijera "buenas tardes" dos veces más fuerte en lugar de dos. grabaciones reproducidas al mismo tiempo. Pero, por supuesto, solo puede hacer esto cuando se está realizando una grabación, por lo que puede detectar que es una IA por teléfono, pero no si la está escuchando en persona.
Esto también significa que solo se dan cuenta de que es una IA cuando la atrapan repitiendo algunas palabras que ya ha dicho antes con la misma entonación/expresión. Entonces, tal vez en la primera llamada o en las primeras llamadas, todavía no saben que es una IA.
En persona, estás distraído.
Es una maestra del lenguaje corporal. Sus movimientos son perfectos. Ella está bailando cuando está respirando. Ella es asombrosamente, sobrenaturalmente atractiva. Y ella huele tan bien. Sí, un poco de acento y algunas frases graciosas, ya veces no lo entiende. ¡Pero esos ojos! ¿Le gusto a ella? ¡La forma en que se sacude el pelo y se ríe de mi chiste tonto! Oh, Dios mío, ¿me acordé de depilarme los vellos de la nariz?
Modelo psicoacústico diferente. Los investigadores que crearon la IA utilizaron muestras de voz en MP3 para entrenar su voz (porque eso era lo que proporcionaba su corpus hablado, o porque el pasante encargado de preparar muestras de voz en formato común no tenía ni idea{estaba allí, vio eso...} ni nada ). El resultado es que la IA habla en un modelo psicoacústico de MP3 de alta calidad y suena perfecto en persona, pero la línea telefónica (móvil, porque ¿quién usa ya los teléfonos fijos?) usa el códec GSM-AMR que es bastante reacio a recodificar MP3. (reemplace los códecs con lo que se esté usando en el momento de la historia)
Nota al margen y una alternativa: hay códecs de baja tasa de bits que funcionan bien para idiomas no tonales, pero hacen que los idiomas tonales sean bastante ininteligibles. La IA habla perfectamente Pǔtōnghuà , y sabe que el códec utilizado en la (conexión telefónica de baja calidad) es malo para los tonos mandarín y compensa el efecto. La primera entrevista telefónica en chino lo delata porque la calidad del sonido es extraordinariamente buena.
En inglés, la pronunciación de los nombres no es estándar , ya que los nombres tienen su origen en varios idiomas diferentes. ¿Quién pensaría que la palabra "Michael" debería pronunciarse como realmente es, por ejemplo? Mi nombre también es complicado para los motores de texto a voz (¡y también para casi todos los que no hablan inglés!). Y luego están los apellidos que divergen aún más radicalmente.
Y eso es antes de que lleguemos a los nombres de los lugares. Algunos nombres de lugares no se pronuncian como parece que deberían ser, especialmente en el Reino Unido. Muchos de ellos son bastante conocidos: "Happisburgh", por ejemplo, se pronuncia "Hays-burra". Sin embargo, EE. UU. tiene un problema aparte donde los nombres de lugares tomados de otras partes del mundo no se pronuncian como lo harían allí. "Orleans" en Francia y "Nueva Orleans" se pronuncian de manera diferente; y Bill Bryson tiene un ejemplo de un lugar llamado "Cairo" que los lugareños pronuncian "Kay-ro". Decir "Nueva Orleans" con una pronunciación francesa claramente será incorrecto.
Y el regalo final es la confianza en su tono cuando se enfrentan a un nombre que es incluso un poco fuera de lo estándar, o que es más largo de lo habitual. Un ser humano tenderá a tropezar con un nombre desconocido, o al menos sonará vacilante, y tal vez comprobará que lo está diciendo correctamente. Para un nombre largo, como algunos apellidos españoles, un ser humano a menudo no podrá retenerlo todo de una vez y tendrá que leerlo fuera de la página, lo que provocará breves pausas mientras mira hacia abajo para leer. Una IA no tiene idea de lo que es "familiar" o lo que es "largo": simplemente emitirá la misma fonética, cada vez.
Las IA pueden imitar muy bien el habla humana, es al revés. Pueden hablar todo el día, pero no sabrán de qué hablar porque no pueden entender sus preguntas.
Piense en las transcripciones automatizadas que existen hoy en día: de una voz nítida capturada por un equipo de audio profesional en una habitación a prueba de ruidos, la IA tiene mucho tiempo para reflexionar sobre ello y aún comete errores graves. Y cualquier ligera degradación de la calidad hace que simplemente se rinda. O transcribir un minuto de discurso como solo [Applause]
.
¿Alguna vez has notado que la gente suena un poco diferente por teléfono? Si es así, probablemente lo hayas movido al nivel subconsciente muy pronto y ni siquiera consideres pensarlo dos veces. Los cerebros humanos son muy flexibles. Sintonizarán cualquier señal mientras esté allí. Simplemente filtrarán una cantidad irrazonable de ruido... o insertarán datos que no están allí solo porque solo hay una forma de hacerlo que produce resultados sensatos. Y cuanto más restrinja el dominio de salida, más errores estará dispuesto a ignorar.
Para una IA, el ruido que un cerebro humano no vendería se amplificará, buscará datos útiles y abrumará los circuitos que deberían estar buscando en otra parte de la que están... como pequeños errores que son el resultado de los datos. compresión. Diminuto, pero en lugares en los que el módulo de reconocimiento de voz AI es más dependiente. En una palabra - un desastre. Por supuesto, todavía hay ruido en persona, pero tener una transmisión de video en tiempo real de los órganos del habla del ser humano ayuda enormemente al proceso de decodificación. Además de micrófonos direccionales, por supuesto.
Los cerebros de IA son un poco similares a los cerebros humanos... elimina eso. El diseño de los cerebros de IA se inspira principalmente en los cerebros biológicos, pero quedan grandes porciones. Específicamente, la inspiración que tomó es que puede calcular cualquier función sumando, multiplicando y sujetando con la suficiente frecuencia. Lo que sí pasa por alto es que el cerebro humano está hecho de bucles de retroalimentación de bucles de retroalimentación de bucles de retroalimentación. No es que las IA no lo sepan, pero simplemente no tienen suficiente poder de cómputo para ejecutar ese tipo de cosas. Ajustan algunas perillas virtuales hasta que su salida coincide con la transcripción. Luego levantan el teléfono, y los datos son completamente diferentes. Pueden tratar de girar algunas perillas, pero no lo suficientemente rápido. No saben qué perillas girar, hay miles de ellas,
Podrían tomar una grabación y luego jugar con ella durante un tiempo, digamos de seis a ocho horas, luego podrían decodificarla... tal vez. Pero para entonces ya es demasiado tarde. E incluso si descubren qué perillas girar, no es bueno. Internet está un poco menos congestionado la próxima vez que hacen una llamada, los teléfonos eligen un códec diferente que produce un tipo diferente de ruido (elegido de manera que no sea muy perceptible para un humano), o tal vez un poco menos. y la IA tiene que empezar todo de nuevo.
Porque dependen en gran medida del lenguaje corporal (posturas, expresiones faciales) para comprender lo que dicen los humanos, y se sienten perdidos cuando pasan por alto estas pistas, son incapaces de detectar el sarcasmo, el humor, etc.
Mencionaste que la IA tiene altavoces de primer nivel. Si tiene varios altavoces, pueden sonar como una sola voz a unos pocos pies de distancia, pero justo al lado del micrófono de un teléfono sonaría como si partes de la voz estuvieran a diferentes distancias (puede ajustar esto para que el efecto sea más o menos sutil) . Dependiendo de cómo funcionen los altavoces y cómo la IA simule el habla, en el teléfono puede sonar como múltiples voces confusas, o tal vez puede sonar como si la distancia y el tono implícitos del volumen absoluto de la voz no coincidieran. como si la IA "gritara" a todo pulmón pero de alguna manera es más silenciosa que su voz normal. En general, crear una voz que suene como un ser humano real en persona desde la distancia probablemente no resistiría desde una o dos pulgadas de distancia como en el teléfono.
Di algo, habla de otra cosa por un rato, luego repite lo primero. Hazlo otra vez. La segunda o tercera vez que un humano preguntaría por qué sigues preguntando lo mismo o al menos respondería con un tono de interrogación para indicar que está confundido, una IA con respuestas preparadas para oraciones específicas y teniendo en cuenta un contexto corto simplemente respondería. repetir la misma respuesta con el mismo tono.
Dos opciones
Las conversaciones telefónicas son un poco incómodas. Falta la comunicación no verbal en la que los humanos confían para descubrir el contexto y el significado. Sin embargo, los diseñadores del bot no fueron lo suficientemente inteligentes como para manejar esas cosas no verbales, por lo que cuando el robot se comunica, se basa estrictamente en el reconocimiento de voz. Los sistemas visuales no están conectados al sistema de comunicación de ninguna manera. Básicamente, es un chatbot de texto que tiene convertidores de texto a voz y de voz a texto. También tiene una capacidad limitada para captar señales verbales, como velocidad y vacilación.
Para compensar esta incapacidad, tiene procesadores muy rápidos. En persona, parece que capta tu lenguaje corporal y tus expresiones faciales, pero en realidad solo está pensando mucho en lo que dijiste, más rápido de lo que cualquier humano podría hacerlo.*
Como resultado, toda esta información aún está disponible por teléfono y el robot se comunica por teléfono con la misma fluidez que en persona. Cuando dos humanos tienen una llamada telefónica, es torpe: hablan entre ellos, tienen algunos problemas con el retraso y disminuyen la velocidad porque no pueden verse las caras. Entonces, cuando el robot está hablando por teléfono y suena igual que en persona, es una señal de alerta.
*Esto implica que podría detectar un robot mostrando un comportamiento paradójico. Si suena totalmente amigable, pero le da al bot una mirada de muerte todo el tiempo, no se dará cuenta de la hostilidad y solo interpretará sus palabras en función de cómo suenan.
El bot hace inferencias bayesianas sobre con quién está hablando en todo momento y nunca es 100% seguro. Cuando no puede ver a la persona con la que está hablando, tiene menos confianza en quién es. (Probablemente) no usará el nombre incorrecto ni nada, pero podría cambiar a una voz un poco más genérica de "hablar en público" para cubrir sus bases en caso de que te haya equivocado. También puede decirle cosas que debería saber que usted ya sabe, porque no está 100% seguro de quién es usted, por ejemplo, llamando al jefe de policía de la ciudad de Serson y diciendo
He colocado una bomba en el ayuntamiento de Serson, explotará en 30 minutos a menos que elimines a todos los policías de Serson City del puente que cruza el puerto.
Un humano llamaría a esta amenaza de manera diferente. No dirían "Ayuntamiento de Serson" porque el jefe de policía sabría a qué ayuntamiento te refieres. También dirían "sus oficiales" en lugar de "sus oficiales de policía de Serson City", y "el puente" en lugar de "el puente que cruza el puerto", porque un humano estaría 100% seguro de que está hablando con el jefe de policía. Esta IA nunca alcanza el 100% de confianza, por lo que cubre sus apuestas.
La IA no tiene una "voz de teléfono"
Los humanos hablan diferente por teléfono (fuente: experiencia personal, pero en caso de que nunca lo hayas notado, solo busca en Google "¿las personas hablan diferente por teléfono?").
Con el tiempo, las personas desarrollan su "voz telefónica" aprendiendo a través de prueba y error cómo hacerse entender por teléfono.
La IA carece de una voz de teléfono y, como resultado, es inexplicablemente difícil de entender, aunque fácil de describir y reconocer, por parte de los humanos al otro lado de la línea.
Escena 1.
Operador: "911, ¿qué tipo de emergencia es esta?"
AI: "Me gustaría llamar por una amenaza de bomba"
Operador: "Lo siento cariño, no puedo entenderte. ¿Es una emergencia médica, de policía o de bomberos?"
AI: "Vas a necesitar los tres"
Operador: "Lo siento, ¿podría reducir la velocidad y hablar un poco más alto?" (susurra al supervisor: ¡Creo que es ESE TIPO "el murmurador" del que nos informaron esta mañana!)
Bonificación: la voz de IA interrumpe la transcripción de llamadas y el análisis de sentimientos
La mayoría de los grandes centros de llamadas de IRL hoy en día tienen transcripción automatizada con análisis de sentimiento, donde el asociado obtiene una transcripción continua de la llamada en la pantalla de su computadora en tiempo real, junto con un indicador del estado de ánimo de la persona que llama después de cada declaración.
Debido a que las llamadas del "mumbler" tendrán un tono diferente a cualquier conversación en la que se haya entrenado la IA del software Call Center, la transcripción de llamadas y el análisis de sentimiento se comportarán de una manera peculiar que es claramente distinta de las llamadas humanas.
Efecto muaré a partir de las frecuencias de muestreo de los sistemas implicados. Los efectos muaré solo aparecen cuando tiene dos fuentes separadas de líneas que tienen casi el mismo tamaño o un múltiplo del mismo.
El audio digital tiene una frecuencia de muestreo, normalmente muy por fuera del oído humano, por lo que es irrelevante pero está ahí. Tienes la IA emitiendo una señal digital, tienes el teléfono respondiendo y transmitiendo una señal digital. Normalmente, los parlantes y los micrófonos no funcionarían en esas frecuencias, pero por alguna razón lo hacen en este caso. (Lo suficientemente fácil de explicar para la IA, no tan fácil para los teléfonos).
Su naturaleza de IA significa que pueden controlar las líneas telefónicas. Al igual que la policía, pueden escucharlo y hablar con usted tan pronto como comience a sonar, incluso antes de que parezca conectarse.
Como tal, cuando los escucha hablar por teléfono, parecen más rápidos que un ser humano normal. Hablan antes y saben lo que dijiste cerca del teléfono.
Es demasiado bueno para recoger información de la persona al otro lado de la línea. AI hace una pregunta y su compañero de conversación asintió al teléfono. ¿No lo hacemos todos a veces? La IA escuchó el movimiento del aire o tal vez el cuello de la otra persona crujiendo muy levemente y saben que la persona asintió, aunque no hay forma de que un humano pueda saberlo. Si estuvieras en presencia de la IA, no notarás que está dominada, ya que asumes que quienquiera que te encuentres acaba de verte.
La IA necesita contexto. Simplemente puede mezclar cosas de ficción conocida o cultura popular como si fueran hechos, siempre que se mantengan en contexto, una IA las tomaría al pie de la letra. Un humano se daría cuenta si estuvieras haciendo referencia a un programa de televisión como si fuera la vida real. Una IA no se daría cuenta de que Fry y Leala con los que hablabas de reunirte eran personajes de futurama. O que probablemente no ibas a ir a la boda de Brad y Angela el fin de semana. Un humano al menos notaría la similitud de los nombres.
Las IA son realmente malas en la síntesis de voz, pero los humanos no se dan cuenta debido al efecto McGurk . Con la entrada de solo audio, el cerebro humano ya no corrige automáticamente las malas pronunciaciones, por lo que la voz suena mal.
Demasiado bueno para ser humano
Conecta su IA directamente a la línea telefónica (o incluso a alguna estación telefónica central, evitando la mala "última milla" de una línea telefónica), y como resultado, el sonido es demasiado claro y libre de ruidos que siempre ocurren cuando un persona está llamando a través de un teléfono real.
Engañar a la IA para que haga cosas que los humanos no podrían hacer
Tratar de encontrar deficiencias en la IA es un esfuerzo infructuoso. O la IA es competente para imitar a los humanos o sería demasiado fácil justificar una pregunta aquí. Así que estamos tratando con una buena IA. Bueno, pero tonto. Si cambia su conversación un poco al lado inquisitivo, la IA puede ser engañada con preguntas cuyas respuestas un humano no sabría (como física avanzada, cálculos complicados donde un humano simplemente nos diría que obtengamos nuestra propia calculadora o algo así. Por las cosas triviales de la IA para que no piense en desviar la respuesta),
O, saliendo de otras respuestas aquí, producir sonidos que una boca humana no podría (ya sea que un humano perciba directamente esta diferencia o que solo sea detectable a través del análisis espectral) dependiendo de las necesidades de la historia) .
Lenguaje corporal
El lenguaje corporal es una gran parte de la comunicación humana. La IA lleva eso al extremo, ya que depende casi exclusivamente de la comunicación no verbal. Utiliza microexpresiones para leer emociones, comprender el sarcasmo y, en general, ayudar a descubrir el contexto en el que se dice algo.
Cuando intenta interactuar por teléfono, la IA no puede leer el lenguaje corporal; algo así como lo que el chat en línea en texto sin formato es para los humanos. La IA intentará filtrar el significado del tono de la voz, pero aun así, está muy mal optimizada para eso. Pensará que algo es sarcástico cuando no lo es, tratará de calmar a las personas que levantan la voz por otras razones y, en general, dará respuestas que realmente no se esperan en la situación.
Este problema empeora mucho debido a la compresión. Incluso si captaron las emociones del tono de voz, están demasiado distorsionadas por el teléfono.
No hecho para conversaciones
La IA no solo está muy bien hecha para mezclarse con los humanos, sino que también está diseñada para permanecer en segundo plano. Estar vestido con algo discreto evitaría demasiadas interacciones que podrían fallar. La IA también podría aplicar el lenguaje corporal al caminar, haciéndose parecer ocupado o irritado. La gente esperará que la IA llegue tarde, y las respuestas cortas e irritadas antes de mudarse no serían extrañas en la situación.
Frecuencia del paquete de audio
Las líneas telefónicas muestrean y emiten sonidos a una frecuencia baja para ahorrar ancho de banda, dándoles ese sonido de máquina característico cuando hablas con alguien en el otro extremo. Las voces de los robots son tonos muestreados digitalmente a una frecuencia más alta con un mínimo común múltiplo/divisor coincidentemente grande. Como resultado, cuando un robot habla por teléfono, hay un sonido de modulación de fase característico, ya que las muestras de voz del robot a veces lo hacen y otras veces no se alinean perfectamente con la frecuencia de muestreo del teléfono.
Las voces humanas, por otro lado, son señales analógicas puras, por lo que siempre están en la muestra cuando las graba el teléfono. Un oído entrenado puede captar la diferencia.
no involucra una conversación, solo alguien que escucha la cosa hablar y se da cuenta, de alguna manera, que es una IA.
La imposición anterior hace muy difícil responder a su pregunta.
¡Detectar la voz en la línea telefónica se hace artificialmente y, según esta afirmación, es una voz de IA que es un problema! Verás, las voces artificiales existen desde hace décadas. Por qué, hoy, alguien detecta un discurso hecho artificialmente y dice: ¡Oye, es AI hablando allí!
La voz hecha artificialmente podría ser generada por algún tipo de "Scrambler" cuya utilidad es solo para mantener en secreto la identidad del malo (género, edad, acento).
https://en.wikipedia.org/wiki/Voice_inversion https://en.wikipedia.org/wiki/Scrambler
Varias buenas respuestas explican cómo detectar una voz hecha artificialmente. ¡Pero tu problema es detectar una IA!
no involucrar una conversación
Lastimosamente es imposible detectar una IA REAL sin conversación. De hecho, la herramienta necesaria para detectar una IA se creó antes de que se creara la primera computadora capaz de simular una IA primitiva.
https://en.wikipedia.org/wiki/Turing_test
Si necesita un ejemplo de una prueba de Turing en uso, le recomiendo una de las mejores películas de ciencia ficción jamás realizadas:
https://en.wikipedia.org/wiki/Blade_Runner
La escena de argumentación al comienzo de la película es una prueba de Turing mejorada.
Pero no todo está perdido; puede existir una forma de detectar si una voz a través de una línea telefónica es una IA. Por supuesto que es Mambo Jambo técnico :).
Tu IA "tonta" no es tan tonta. De hecho, es bastante bueno e incluso a través de la línea telefónica se confunde como una voz humana real. Entonces, los buenos lo toman como una verdadera amenaza y lo registran.
Lo que es muy habitual en películas y programas de televisión es pedir a un experto en polígrafo que escuche y analice el registro.
https://en.wikipedia.org/wiki/Polígrafo
Un experto en polígrafo experimentado revisará el discurso en busca de pistas especiales que indiquen que las intenciones del malo son reales. La clave es que las personas que mienten pueden hablar "normalmente", pero si revisas el gráfico en la pantalla de la computadora/polígrafo, verás el esfuerzo que hizo para sonar normal. Pueden fingir la voz, pero no pueden fingir las emociones. De esta manera, un operador de polígrafo experto puede identificar a un mentiroso.
Bueno, una IA no tiene emociones, por lo que un operador de polígrafo experimentado que observe el gráfico del registro podría inferir que el habla no fue generada por una persona. Las pistas clave en los gráficos son ilógicas.
Si te permites estirar la cuerda al máximo: el polígrafo es tan bueno que es capaz de distinguir las pistas ilógicas con solo escuchar el registro :()!
(Esto es bastante limitado; desea que el oyente pueda elegir algo que hable perfectamente, como anómalo, dado el habla como el único medio).
Usted especifica que la IA es limitada, pero no puedo ver cómo aprovechar eso sin una conversación (que está excluida)... excepto como se muestra a continuación.
Me gusta la idea de alguna anomalía en el habla (especialmente el aspecto de la respiración), pero otras respuestas lo tienen bastante cubierto.
Una posibilidad es que la máquina emita un sonido eléctrico o mecánico. Una obvia es la interferencia entre los parlantes de la IA y la electricidad del teléfono. [Creo que lo leí en otra respuesta, pero no lo encontré en una búsqueda rápida.]
La alternativa mecánica es, por ejemplo, que la IA "sujeta" el auricular del teléfono de alguna manera, y hay un ruido mecánico, como el zumbido de un ventilador de refrigeración, o un clic rápido causado por la vibración, o algún ruido causado por la IA sosteniendo el teléfono demasiado apretado, o el zumbido de la presión hidráulica que se mantiene... eso se transmite mucho mejor a través del contacto que a través del aire.
En otro sentido... asumo que el bombardero está usando la IA únicamente para evitar usar su propia voz. La otra posibilidad es aprovechar este aspecto y tener un bombardero que en realidad tenga algún defecto. Quizás son de una subcultura diferente y han elegido una IA que, por ejemplo, dice "¡Hola!" de una manera que inmediatamente pone nervioso a cualquiera de esta ciudad, pero suena bien para el bombardero.
Quizás el bombardero ha sintonizado el discurso de la IA para que suene bien para el bombardero, pero [también] para que suene artificial para los demás.
Tal vez el atacante tiene problemas de vista, o no está familiarizado con los teléfonos de alguna manera... de modo que colocan la IA sosteniendo el teléfono de tal manera que bloquea el micrófono con una "parte del cuerpo" que tiene características auditivas peculiares, de modo que la persona en el otro extremo lo notará.
Tal vez una idea tangencial sea aceptable, como que la IA produce el habla con dos tonos "portadores" simultáneos (tono de voz, en un ser humano)... pero el pobre bombardero es sordo al tono más alto.
Quizás el bombardero es un poco sordo y ha subido demasiado el volumen del discurso de la IA, notando que un ser humano hablando en voz alta suena diferente a eso.
Me gusta la idea de que la IA es una estándar que (por ejemplo) se usó recientemente en una gran campaña de telemercadeo, y todos reconocerán su voz al instante... pero de alguna manera el bombardero se perdió esto.
Me gusta la respuesta de "John Dvorak" aquí; el bombardero podría estar escuchando a la IA, pero no al otro lado, y la IA podría estar arruinando completamente la conversación, mientras pronuncia perfectamente, líneas que son inapropiadas.
Pelinore
Glew loco
Stef
LLAVE_ABRADE
Pelinore
Pelinore
Preocupado binario
Juan O.
jammin4co
robert harvey
carsogrin
LLAVE_ABRADE