¿Cómo podría funcionar una 'voz' puramente mecánica?

En mi mundo hay autómatas semihumanoides mecánicos.

¿Sería posible hacerlos hablar de una manera que suene natural (es decir, humana)? ¿Cómo podría funcionar?

El mecanismo debe ser capaz de (en orden de prioridad):

  1. Pronunciar sonidos en inglés.
  2. Simulación de entonación.
  3. Simulación de cambios de tono (frecuencia).
  4. Simulación de cambios en el timbre (forma de onda).
  5. Simulación de cambios de volumen.
  6. Pronunciar sonidos no ingleses.

Tenga en cuenta que no me importaría que el artilugio tenga "peculiaridades", como que la /s/ siempre se pronuncie un poco más bajo que los otros sonidos debido a algún extraño efecto secundario del mecanismo, o que pueda haber un silbido revelador. antes de cada palabra de las bombas despresurizando.

Estas cajas de voz mecánicas pueden construirse con materiales disponibles en la época victoriana tardía, con piezas de precisión (como mecanismos de reloj) disponibles gratuitamente.

Controlar el mecanismo no debería ser motivo de preocupación.

Cuanto más compacto, modular y más ajeno sea el sistema, mejor.

EDITAR:
había investigado la voz humana en Wikipedia y el tweet de los relojes de cuco , pero encontré que la voz humana real era demasiado grande y dispersa para el uso práctico en la maquinaria, particularmente debido a la participación de la lengua (siendo un órgano bastante grande) y es la distancia de los pulmones.
Los relojes de cuco son muy primitivos y no se me ocurrió nada inspirado en ellos.
Me preguntaba si se podría usar algo más parecido a una trompeta, permitiendo enrollar las grandes distancias para conservar el espacio, pero tengo un gran desconocimiento en lo que se refiere a temas de acústica más avanzada.

está buscando un dispositivo que produzca vibración (fácil), flujo de aire (fácil) a través de una laringe (fácil-ish) y una forma de deformar mecánicamente la laringe (medio), controlado de manera inteligente (super duro ) . Una laringe es esencialmente solo un tubo deformable, que es fácil con caucho y posiblemente cuero. Supongo que si tienes alguna IA / inteligencia mística que puede manejar las deformaciones como lo hacen los humanos, hacer que el reloj deforme la laringe no sería ESO. duro.
@Marky Pero, ¿cómo harías la laringe y podrías reducir el tamaño de todo el sistema?
@A Lambent Eye Un tubo de cuero envuelto en elástico o simplemente un tubo de goma, con abrazaderas mecánicas para apretarlo en varios puntos; un ventilador en un extremo sentado encima de una afeitadora de barbero (o algo más apropiado para el período de tiempo). La construcción para hacer sonidos no es difícil; hacer sonidos inteligibles requiere inteligencia y mucha práctica. La caja de voz en las personas es una combinación de un instrumento de cuerda y viento, es muy flexible y capaz de una gran variedad de deformaciones.
@Marky Debo señalar que la cavidad bucal, la lengua, los dientes y los labios son una parte importante de la articulación en inglés. No se trata simplemente de hacer tonos en una pipa. No puede, por ejemplo, hacer un sonido 's' / 'c' suave o 'ch' (como en "check") con una tráquea y laringe solo. Y a medida que avanza a través de los fonemas, encontrará muchos más ejemplos de este tipo.
@MichaelK eso es justo, pero nuevamente, si el mecanismo de relojería está disponible según la norma steam-punk; entonces no veo una razón por la que no se puedan hacer también dientes/mejillas/lenguas artificiales; en ese momento, se trata más de aclarar el sonido base que de generarlo en primer lugar, lo siento.
¿Qué hay de malo en tener un diccionario grabado de palabras guardado en un microchip que se reproduce a través de un altavoz? ¿Quién dice que sus autómatas necesitan tener su sistema de voz integrado con su sistema respiratorio?
Respuesta corta: como la nuestra
¿Eres consciente de que el cuerpo humano es literalmente una máquina muy complicada? No hay nada mágico al respecto. Estamos hechos de átomos, como todo lo demás.
@DennisWilliamson: eso es un poco extraño (suena como R2D2 en A Bad Lip Reading ). hilos resonantes; bastante simple. La parte difícil es hacer la computadora que lo controla con "materiales disponibles en la era victoriana tardía". (difícil, no imposible, pero ridículamente inviable)
@mazura: No necesitaría una computadora para controlarlo. Solo un mecanismo de pianola con un rollo cuidadosamente elaborado. Según Wikipedia, el desarrollo serio de la pianola ocurrió durante la época victoriana tardía. ¡Hacer el rollo, sin embargo, habría sido toda una hazaña!
@DennisWilliamson - Eso se llamaría ' LOL Roll'. (Viejita; memoria de cuerda central )
¿Qué tiene de malo un altavoz? puedes hacer altavoces puramente mecánicos.

Respuestas (6)

Este es Thomas Edison con su segundo fonógrafo en 1878.

tommy e

La era victoriana terminó en 1901, que yo sepa.

Todo lo que necesita es un conjunto de frases pregrabadas y una aguja o cabeza de acceso aleatorio. El Sexy British Accent™ depende de quien lo esté doblando.

O simplemente un conjunto de fonemas, en lugar de frases. ( en.wikipedia.org/wiki/Phoneme )
ni siquiera necesita eso, el diafragma en un fonógrafo vibra con una palanca, su autómata puede mover la palanca con cualquier fuerza que le permita moverse.

Hay un equipo de investigadores japoneses construyendo una boca artificial con el fin de emular el habla humana.

Consiste en una bomba que bombea aire a través de la boca, una membrana vibratoria, un tubo de caucho de silicona con una lengüeta integrada y una cavidad nasal. Personalmente, me resulta difícil entender lo que dice (ya que no hablo japonés), pero puedes escucharlo articular diferentes sillabies.

El equipo japonés aún no ha terminado, la boca carece de la capacidad de cerrar los labios para pronunciar B, P y M y los dientes para pronunciar F y S.


En tu historia, podrías construir una boca artificial con caucho, cuero, hule, papel encerado y lo que consideres apropiado. La construcción de la primera " máquina parlante " de Wolfgang von Kempelen comenzó en 1769 ( véala en acción ), por lo que los materiales necesarios para construir una también están disponibles en su mundo. Y luego está el dispositivo Euphonia de Joseph Faber, del cual no pude encontrar un video.

[D]ieciséis palancas o teclas 'como las de un piano' proyectaron dieciséis sonidos elementales mediante los cuales 'cada palabra en todos los idiomas europeos se puede producir claramente'.

La formación real de palabras es el problema aquí y requiere un poco de movimiento manual.

Me imagino la caja de voz en la "cabeza" del autómata y una caja de cambios similar a una transmisión en la cavidad torácica. Cuerdas conectan la caja de cambios a los mecanismos que deforman la boca. Está lleno de ruedas dentadas que tiran de diferentes cuerdas para deformar la boca de diferentes maneras y producir diferentes sonidos.

La palabra "hola" se formaría activando sucesivamente los engranajes HELO, mientras que la palabra "héroe" activaría los engranajes HEER O.

¿Podría esta respuesta estar relacionada con el enlace de YouTube de @ Marky arriba? Además, la silicona no está disponible en mi mundo y es una cosa enorme y torpe, ¡aunque agradezco la contribución!
@ALambentEye Eche un vistazo ahora, encontré algunas referencias a "dispositivos de voz" muy antiguos
@ALambentEye Sí, los dos enlaces están relacionados. Independientemente de la disponibilidad de ciertos materiales en su mundo, una variación apropiada de este concepto es casi con seguridad la respuesta que mejor responde a su pregunta, tal como está. El dispositivo ciertamente está en línea con la descripción de "autómata", y los componentes de silicona podrían reemplazarse con cualquier material apropiado disponible en su mundo, cueros, caucho, incluso combinaciones de metales cubiertos de tela podrían ser apropiados, dependiendo de lo que realmente esté disponible en el configuración.
Un documental basado en clips llamado "Gizmo!" de los años ochenta presentaba un dispositivo mecánico de síntesis de voz que tenía una capacidad de entonación de regular a media. Pronunció la frase "Ella me vio" y varió la pronunciación para enfatizar palabras basadas en preguntas como "¿Te escuchó o te vio?" (comienza a las 11:27 si no funciona bien) youtu.be/ONwe96StEpA?t=687
Aunque es una respuesta válida, siento que la respuesta de @Renan es más práctica.
@ALambentEye No hay problema. Tú eres el cartel original, tú decides qué respuesta se ajusta más a tus necesidades. No hay una regla que tenga que aceptar la respuesta con la puntuación más alta. Por el contrario, el recorrido afirma que "Aceptar no significa que sea la mejor respuesta, solo significa que funcionó para la persona que preguntó".

ANTECEDENTES (estableciendo el contexto para mi respuesta):

De hecho, solía ser investigador en un laboratorio universitario que creó el software para sintetizadores de voz en la década de 1980. En ese momento, todos los sintetizadores usaban grabaciones de voces humanas y editaban ejemplos de cada fonema (el sonido que podrías asociar con una letra, pero no son letras). Luego, el software tomaría los sonidos que necesitaba y los uniría. Salida muy entrecortada y horrible.

Los profesores con los que trabajé (era un estudiante universitario que trabajaba a tiempo completo o parcial, según el horario de mi escuela) crearon un sistema completamente nuevo. Hicieron una lista de cada combinación de dos fonemas (por ejemplo, "b-ah" o "sh-ew") y algunos múltiplos comunes (como st-ah) y luego usaron una voz humana grabada para los ejemplos. Mi trabajo consistía en cortar cada pareja en el medio exacto (la segunda mitad de la "b" y la primera mitad de la "ah", por ejemplo). El punto era mantener todas esas transiciones importantes. Tenía tanto los sonidos como una representación gráfica de las grabaciones en una computadora.

Los resultados fueron magníficos en comparación con cualquier cosa anterior. Mucho más realista. Pero todavía no había entonación. Cambiar el tono, el volumen y algunas otras cosas tonales era posible entonces y ahora es aún más fácil. Pero la entonación es DIFÍCIL .

Para crear entonación, necesita reglas extensas sobre qué tonos usar y cuándo. Puede pensar que esto es fácil (al igual que podría pensar que mi otro trabajo, escribir las reglas para texto a voz que traducía palabras escritas en listas de fonemas, era fácil), pero estaría equivocado. Es difícil para los humanos que hablan un segundo idioma hacerlo bien y es increíblemente difícil para las computadoras.

Pero eso fue hace más de 30 años. Todo lo que hacía a mano ahora está parcial o completamente automatizado. Es más fácil ahora que antes. Pero todavía no es fácil. Quiero decir, ¿has escuchado una voz electrónica que entona bien? Siri? ¿Alexa? Si no. En el mejor de los casos, obtiene un tono ascendente para las preguntas.

Tome todo esto en un futuro cercano y, seguro, va a suceder. Las voces electrónicas ya son mucho mejores que en lo que estaba trabajando, y eso estaba a años luz de lo que había. Las voces electrónicas se usan todos los días ahora y solo van a aumentar. Hay empresas enteras (y departamentos de empresas más grandes) trabajando en estos problemas.

TU PREGUNTA:

Tienes dos diferencias de lo que estaba hablando.

  1. Sus parlantes electrónicos pueden ser inteligentes. En ese caso, no necesita software para determinar qué fonemas usar o qué variaciones tonales.
  2. Estás atascado con tecnología de nivel victoriano.

No me queda claro si sus "autómatas semihumanoides mecánicos" son realmente inteligentes. Si no, necesitan ser programados de alguna manera. Incluso si solo se trata de configurar teclas para pronunciar varios fonemas. Todavía necesita tener una forma de que los cerebros de las máquinas, o la programación, se transfieran a las "bocas". Esto es muy difícil para esa época.

Si usa bocas artificiales para articular sonidos , deberá dividir cada fonema en sus partes componentes. Estos son:

  • Sonoro o sordo (si las cuerdas vocales vibran durante el sonido).
  • Posición de la lengua y/o labios. Para las consonantes solo hay unas pocas opciones, pero las vocales son muy complejas y algunas requieren un movimiento de la lengua de una manera particular.
  • Método de articulación (stop, fricativa, líquida, etc).

Luego, debe bombear aire a través de todo el mecanismo y de alguna manera lograr que todo se coordine. En serio, algo como esto tomaría mucho tiempo para construir. Y eso es solo para la versión que tarda 3 segundos en decir cada palabra.

Si usa una voz electrónica , necesitará tener un inventario almacenado de fonemas (o los pares de fonemas cortados como los que describí anteriormente). Con las computadoras modernas puedes usar sonidos generados electrónicamente, pero es la misma idea básica: crear una cadena de sonidos que se juntan como palabras.

¿Inglés vs no inglés? Pan comido. Eso es solo sobre qué fonemas y/o pares de fonemas tiene en su base de datos.

¿Se puede cambiar el volumen o el tono? Tal vez. Se puede hacer mecánicamente, pero necesita que un humano lo haga, una máquina inteligente o encontrar alguna forma de programarlo.

¿Qué hay de la entonación? No. Jodidamente. Forma. Si solo los rudimentos de la entonación se pueden hacer con la tecnología moderna, no sucederá con la tecnología de la era victoriana.

[La entonación es] extraordinariamente compleja. "Aunque la entonación es principalmente una cuestión de variación del tono, es importante tener en cuenta que las funciones atribuidas a la entonación, como la expresión de actitudes y emociones, o resaltar aspectos de la estructura gramatical, casi siempre implican una variación concomitante en otras características prosódicas. David Crystal por ejemplo, dice que "la entonación no es un sistema único de contornos y niveles, sino el producto de la interacción de características de diferentes sistemas prosódicos: tono, rango de tono, volumen, ritmo y tempo en particular " .

¿Y si controlar la máquina realmente no fuera un problema?

El OP afirma esto, pero realmente depende del marco de la pregunta. ¿Cuánto movimiento de manos y "tecnología alienígena" hay? Incluso con un "software" que es realmente un cerebro inteligente capaz de producir un control perfecto, todavía estás lidiando con la lentitud de las máquinas de la época victoriana. Si todo está realmente construido localmente, no veo ninguna forma de que el habla pueda tener una velocidad normal, y mucho menos tener todos estos matices.

Con 44 fonemas en inglés ( Ju|'hoan tiene alrededor de 130) y cientos para dar cuenta de todos los idiomas del mundo, la base de datos de grabaciones por sí sola ocuparía demasiado espacio, incluso si se hiciera muy pequeña e incluso si pudiera construir el pequeño reproductor. y una máquina para moverlo. Y eso suponiendo que solo grabe fonemas, no las combinaciones editadas que le darán resultados mucho más fluidos y mejores.

según OP: "El control del mecanismo no debería ser motivo de preocupación". La mayoría de las dificultades/complejidades que describe en la simulación de voz se relacionan con el software... es decir, el control. Entonces, sin hablar del habla generada electrónicamente por computadora: física/mecánicamente, ¿cuál es el problema con la simulación de la entonación? Parece que si puedes cambiar el tono, puedes simular la entonación... Seguro que tienes que cambiar el tono de una manera muy delicada, pero eso es cuestión de control...
@ Mr. Mindor es extraordinariamente complejo. "Aunque la entonación es principalmente una cuestión de variación del tono, es importante tener en cuenta que las funciones atribuidas a la entonación, como la expresión de actitudes y emociones, o resaltar aspectos de la estructura gramatical, casi siempre implican una variación concomitante en otras características prosódicas. David Crystal por ejemplo, dice que 'la entonación no es un sistema único de contornos y niveles, sino el producto de la interacción de características de diferentes sistemas prosódicos: tono, rango de tono, volumen, ritmicidad y tempo en particular'".
¿Alguno de esos no son atributos físicos del sonido generado?
@ Mr. Mindor, realmente depende del marco de la pregunta. ¿Cuánto movimiento de manos y "tecnología alienígena" hay? Incluso con un "software" que es realmente un cerebro inteligente, todavía estás lidiando con la lentitud de las máquinas de la época victoriana. Si todo está realmente construido localmente, no veo ninguna forma de que el habla pueda tener una velocidad normal, y mucho menos tener todos estos matices. Con 44 fonemas en inglés (Ju|'hoan tiene alrededor de 130) y cientos para dar cuenta de todos los idiomas del mundo, la base de datos de grabaciones por sí sola ocuparía demasiado espacio, incluso si pudiera construir el pequeño reproductor y una máquina para moverlo. alrededor.
@Mr.Mindor He editado mi pregunta (justo hacia el final) para dar cuenta de sus comentarios.
Y, realmente, depende de @ALambentEye decidir si mi respuesta se ajusta al marco de la pregunta y es útil. Con suerte, lo es.
Si bien no responde directamente a mi pregunta, sigue siendo una respuesta bien investigada e informativa. Gracias.
Ya veo, estás trabajando en el contexto de una máquina que combinaría bits de grabación para reproducirlos. Una especie de versión mecánica del software en el que has trabajado. Estoy pensando más en una versión artificial de nuestro propio equipo biológico (similar a los dispositivos del mundo real descritos en la respuesta de Elmy, lo que lo acercaría más a un instrumento que se toca mediante teclas y palancas donde el tono se puede modular ajustando la tensión a un membrana vibratoria o longitud efectiva de un tubo, y la cadencia es solo una cuestión de sincronización.
@Mr.Mindor Sí. Pero creo que debe hacerlo si desea cumplir con el requisito del OP de que suene natural (humano). Dicho esto, me refiero a la creación de una boca artificial que articule los sonidos. Es tan largo como algunas respuestas, pero está rodeado de un texto mucho más largo que trata sobre otras cosas.

Va a sonar mucho como un anuncio de tren automatizado.

La razón es que vamos a utilizar los mismos principios. Palabras individuales grabadas en cilindros de cera separados seleccionados y reproducidos por su mecanismo de autómatas en el orden apropiado.

No del todo humano, no del todo inhumano, pero totalmente en consonancia con la tecnología de la época.

Por supuesto, eso le da un vocabulario bastante limitado, pero no debería poder resolver más de unos pocos miles de palabras para poder expresar algo sobre la mayoría de los temas (socialmente aceptables).

Su opción más difícil es que, en lugar de grabar palabras completas, grabe sílabas para construir palabras. Eso podría permitirle un vocabulario más amplio a cambio de un mecanismo más complejo y un discurso un poco más entrecortado.

Dependiendo del nivel de computación que pueda realizar su autómata y el nivel de complejidad que pueda tener su mecanismo, podría hacer una especie de sistema de micro-pin en el que una aguja atraviesa una serie de pequeños pines que se colocan a diferentes alturas, al igual que un disco tiene dientes en las ranuras a nivel microscópico. La resolución de dicho dispositivo sería más baja que un registro real, pero esa podría ser una de las peculiaridades. Sin duda, podrá cambiar la entonación con este método.

Como referencia, eche un vistazo a cómo se configura la rueda de un carillón o la máquina de canicas de Wintergatan. Luego, reduzca la escala lo suficiente como para que, en lugar de simplemente activar una nota, se convierta en una simulación de las crestas en un registro.

Solo para señalar lo obvio... el altavoz moderno se inventó en la era victoriana (década de 1870). La única gran diferencia entre la síntesis de voz de hoy y la de hace 150 años es el control.

Dependiendo de qué tan avanzado sea el "cerebro" de su autómata, sería de donde vendrían las peculiaridades. Si simplemente no tiene el poder de procesamiento para imitar la tasa de hercios de la percepción humana, sería como hablar con Stephen Hawking.

Si asume que el autómata tiene la capacidad de controlar al hablante con la precisión de una computadora moderna, entonces la síntesis de voz debería ser casi perfecta. Hablar con él se sentiría más como hablar con Alexa. No sería cómo habla lo que revelaría su falta de humanidad, sino su elección de palabras e inflexión.

Si la cosa es de intelecto humano o sobrehumano, entonces con los ojos cerrados, sería indistinguible de hablar con una persona, pero la falta de una boca en movimiento puede desconcertar a las personas que no están acostumbradas a interactuar con ella.

Haces un punto interesante cuando se trata de la interacción humana. No había pensado en eso.