En mi mundo hay autómatas semihumanoides mecánicos.
¿Sería posible hacerlos hablar de una manera que suene natural (es decir, humana)? ¿Cómo podría funcionar?
El mecanismo debe ser capaz de (en orden de prioridad):
Tenga en cuenta que no me importaría que el artilugio tenga "peculiaridades", como que la /s/ siempre se pronuncie un poco más bajo que los otros sonidos debido a algún extraño efecto secundario del mecanismo, o que pueda haber un silbido revelador. antes de cada palabra de las bombas despresurizando.
Estas cajas de voz mecánicas pueden construirse con materiales disponibles en la época victoriana tardía, con piezas de precisión (como mecanismos de reloj) disponibles gratuitamente.
Controlar el mecanismo no debería ser motivo de preocupación.
Cuanto más compacto, modular y más ajeno sea el sistema, mejor.
EDITAR:
había investigado la voz humana en Wikipedia y el tweet de los relojes de cuco , pero encontré que la voz humana real era demasiado grande y dispersa para el uso práctico en la maquinaria, particularmente debido a la participación de la lengua (siendo un órgano bastante grande) y es la distancia de los pulmones.
Los relojes de cuco son muy primitivos y no se me ocurrió nada inspirado en ellos.
Me preguntaba si se podría usar algo más parecido a una trompeta, permitiendo enrollar las grandes distancias para conservar el espacio, pero tengo un gran desconocimiento en lo que se refiere a temas de acústica más avanzada.
Este es Thomas Edison con su segundo fonógrafo en 1878.
La era victoriana terminó en 1901, que yo sepa.
Todo lo que necesita es un conjunto de frases pregrabadas y una aguja o cabeza de acceso aleatorio. El Sexy British Accent™ depende de quien lo esté doblando.
Hay un equipo de investigadores japoneses construyendo una boca artificial con el fin de emular el habla humana.
Consiste en una bomba que bombea aire a través de la boca, una membrana vibratoria, un tubo de caucho de silicona con una lengüeta integrada y una cavidad nasal. Personalmente, me resulta difícil entender lo que dice (ya que no hablo japonés), pero puedes escucharlo articular diferentes sillabies.
El equipo japonés aún no ha terminado, la boca carece de la capacidad de cerrar los labios para pronunciar B, P y M y los dientes para pronunciar F y S.
En tu historia, podrías construir una boca artificial con caucho, cuero, hule, papel encerado y lo que consideres apropiado. La construcción de la primera " máquina parlante " de Wolfgang von Kempelen comenzó en 1769 ( véala en acción ), por lo que los materiales necesarios para construir una también están disponibles en su mundo. Y luego está el dispositivo Euphonia de Joseph Faber, del cual no pude encontrar un video.
[D]ieciséis palancas o teclas 'como las de un piano' proyectaron dieciséis sonidos elementales mediante los cuales 'cada palabra en todos los idiomas europeos se puede producir claramente'.
La formación real de palabras es el problema aquí y requiere un poco de movimiento manual.
Me imagino la caja de voz en la "cabeza" del autómata y una caja de cambios similar a una transmisión en la cavidad torácica. Cuerdas conectan la caja de cambios a los mecanismos que deforman la boca. Está lleno de ruedas dentadas que tiran de diferentes cuerdas para deformar la boca de diferentes maneras y producir diferentes sonidos.
La palabra "hola" se formaría activando sucesivamente los engranajes HELO, mientras que la palabra "héroe" activaría los engranajes HEER O.
De hecho, solía ser investigador en un laboratorio universitario que creó el software para sintetizadores de voz en la década de 1980. En ese momento, todos los sintetizadores usaban grabaciones de voces humanas y editaban ejemplos de cada fonema (el sonido que podrías asociar con una letra, pero no son letras). Luego, el software tomaría los sonidos que necesitaba y los uniría. Salida muy entrecortada y horrible.
Los profesores con los que trabajé (era un estudiante universitario que trabajaba a tiempo completo o parcial, según el horario de mi escuela) crearon un sistema completamente nuevo. Hicieron una lista de cada combinación de dos fonemas (por ejemplo, "b-ah" o "sh-ew") y algunos múltiplos comunes (como st-ah) y luego usaron una voz humana grabada para los ejemplos. Mi trabajo consistía en cortar cada pareja en el medio exacto (la segunda mitad de la "b" y la primera mitad de la "ah", por ejemplo). El punto era mantener todas esas transiciones importantes. Tenía tanto los sonidos como una representación gráfica de las grabaciones en una computadora.
Los resultados fueron magníficos en comparación con cualquier cosa anterior. Mucho más realista. Pero todavía no había entonación. Cambiar el tono, el volumen y algunas otras cosas tonales era posible entonces y ahora es aún más fácil. Pero la entonación es DIFÍCIL .
Para crear entonación, necesita reglas extensas sobre qué tonos usar y cuándo. Puede pensar que esto es fácil (al igual que podría pensar que mi otro trabajo, escribir las reglas para texto a voz que traducía palabras escritas en listas de fonemas, era fácil), pero estaría equivocado. Es difícil para los humanos que hablan un segundo idioma hacerlo bien y es increíblemente difícil para las computadoras.
Pero eso fue hace más de 30 años. Todo lo que hacía a mano ahora está parcial o completamente automatizado. Es más fácil ahora que antes. Pero todavía no es fácil. Quiero decir, ¿has escuchado una voz electrónica que entona bien? Siri? ¿Alexa? Si no. En el mejor de los casos, obtiene un tono ascendente para las preguntas.
Tome todo esto en un futuro cercano y, seguro, va a suceder. Las voces electrónicas ya son mucho mejores que en lo que estaba trabajando, y eso estaba a años luz de lo que había. Las voces electrónicas se usan todos los días ahora y solo van a aumentar. Hay empresas enteras (y departamentos de empresas más grandes) trabajando en estos problemas.
Tienes dos diferencias de lo que estaba hablando.
No me queda claro si sus "autómatas semihumanoides mecánicos" son realmente inteligentes. Si no, necesitan ser programados de alguna manera. Incluso si solo se trata de configurar teclas para pronunciar varios fonemas. Todavía necesita tener una forma de que los cerebros de las máquinas, o la programación, se transfieran a las "bocas". Esto es muy difícil para esa época.
Si usa bocas artificiales para articular sonidos , deberá dividir cada fonema en sus partes componentes. Estos son:
Luego, debe bombear aire a través de todo el mecanismo y de alguna manera lograr que todo se coordine. En serio, algo como esto tomaría mucho tiempo para construir. Y eso es solo para la versión que tarda 3 segundos en decir cada palabra.
Si usa una voz electrónica , necesitará tener un inventario almacenado de fonemas (o los pares de fonemas cortados como los que describí anteriormente). Con las computadoras modernas puedes usar sonidos generados electrónicamente, pero es la misma idea básica: crear una cadena de sonidos que se juntan como palabras.
¿Inglés vs no inglés? Pan comido. Eso es solo sobre qué fonemas y/o pares de fonemas tiene en su base de datos.
¿Se puede cambiar el volumen o el tono? Tal vez. Se puede hacer mecánicamente, pero necesita que un humano lo haga, una máquina inteligente o encontrar alguna forma de programarlo.
¿Qué hay de la entonación? No. Jodidamente. Forma. Si solo los rudimentos de la entonación se pueden hacer con la tecnología moderna, no sucederá con la tecnología de la era victoriana.
[La entonación es] extraordinariamente compleja. "Aunque la entonación es principalmente una cuestión de variación del tono, es importante tener en cuenta que las funciones atribuidas a la entonación, como la expresión de actitudes y emociones, o resaltar aspectos de la estructura gramatical, casi siempre implican una variación concomitante en otras características prosódicas. David Crystal por ejemplo, dice que "la entonación no es un sistema único de contornos y niveles, sino el producto de la interacción de características de diferentes sistemas prosódicos: tono, rango de tono, volumen, ritmo y tempo en particular " .
¿Y si controlar la máquina realmente no fuera un problema?
El OP afirma esto, pero realmente depende del marco de la pregunta. ¿Cuánto movimiento de manos y "tecnología alienígena" hay? Incluso con un "software" que es realmente un cerebro inteligente capaz de producir un control perfecto, todavía estás lidiando con la lentitud de las máquinas de la época victoriana. Si todo está realmente construido localmente, no veo ninguna forma de que el habla pueda tener una velocidad normal, y mucho menos tener todos estos matices.
Con 44 fonemas en inglés ( Ju|'hoan tiene alrededor de 130) y cientos para dar cuenta de todos los idiomas del mundo, la base de datos de grabaciones por sí sola ocuparía demasiado espacio, incluso si se hiciera muy pequeña e incluso si pudiera construir el pequeño reproductor. y una máquina para moverlo. Y eso suponiendo que solo grabe fonemas, no las combinaciones editadas que le darán resultados mucho más fluidos y mejores.
Va a sonar mucho como un anuncio de tren automatizado.
La razón es que vamos a utilizar los mismos principios. Palabras individuales grabadas en cilindros de cera separados seleccionados y reproducidos por su mecanismo de autómatas en el orden apropiado.
No del todo humano, no del todo inhumano, pero totalmente en consonancia con la tecnología de la época.
Por supuesto, eso le da un vocabulario bastante limitado, pero no debería poder resolver más de unos pocos miles de palabras para poder expresar algo sobre la mayoría de los temas (socialmente aceptables).
Su opción más difícil es que, en lugar de grabar palabras completas, grabe sílabas para construir palabras. Eso podría permitirle un vocabulario más amplio a cambio de un mecanismo más complejo y un discurso un poco más entrecortado.
Dependiendo del nivel de computación que pueda realizar su autómata y el nivel de complejidad que pueda tener su mecanismo, podría hacer una especie de sistema de micro-pin en el que una aguja atraviesa una serie de pequeños pines que se colocan a diferentes alturas, al igual que un disco tiene dientes en las ranuras a nivel microscópico. La resolución de dicho dispositivo sería más baja que un registro real, pero esa podría ser una de las peculiaridades. Sin duda, podrá cambiar la entonación con este método.
Como referencia, eche un vistazo a cómo se configura la rueda de un carillón o la máquina de canicas de Wintergatan. Luego, reduzca la escala lo suficiente como para que, en lugar de simplemente activar una nota, se convierta en una simulación de las crestas en un registro.
Solo para señalar lo obvio... el altavoz moderno se inventó en la era victoriana (década de 1870). La única gran diferencia entre la síntesis de voz de hoy y la de hace 150 años es el control.
Dependiendo de qué tan avanzado sea el "cerebro" de su autómata, sería de donde vendrían las peculiaridades. Si simplemente no tiene el poder de procesamiento para imitar la tasa de hercios de la percepción humana, sería como hablar con Stephen Hawking.
Si asume que el autómata tiene la capacidad de controlar al hablante con la precisión de una computadora moderna, entonces la síntesis de voz debería ser casi perfecta. Hablar con él se sentiría más como hablar con Alexa. No sería cómo habla lo que revelaría su falta de humanidad, sino su elección de palabras e inflexión.
Si la cosa es de intelecto humano o sobrehumano, entonces con los ojos cerrados, sería indistinguible de hablar con una persona, pero la falta de una boca en movimiento puede desconcertar a las personas que no están acostumbradas a interactuar con ella.
marky
Un ojo Lambent
marky
miguelk
marky
marky
BKlassen
Hagen von Eitzen
usuario91988
dennis williamson
Mazura
dennis williamson
Mazura
John