¿Qué software de síntesis de voz es adecuado para la investigación?

Estoy buscando recomendaciones para el software de síntesis de voz que se puede usar para generar estímulos de audio. Los estímulos de audio que intento generar serán largas secuencias de sílabas aisladas. Por lo tanto, el mejor caso sería algo que pueda leer fácilmente un archivo de texto como: pa/da/ba/ki/tu. Me doy cuenta de que programas como TextEdit en OSX pueden hacer esto, pero no ofrecen mucho control sobre la salida. Me gustaría poder controlar la duración de cada sílaba, el espacio entre sílabas, etc.

Idealmente, el software sería gratuito y tendría un historial de uso para generar estímulos con calidad de investigación.

También preferiría un software que pueda ejecutarse en una Mac basada en Intel, pero las sugerencias para otros sistemas operativos son bienvenidas.

Respuestas (2)

¡Estás buscando a Mbrola ! Es un sintetizador diphone de código abierto basado en texto. Si bien no le permite controlar información sutil como la frecuencia de los formantes, es perfecto para controlar el tono y la duración. La única advertencia es que todavía tengo que hacer que funcione en una Mac basada en Intel, pero eso se debe principalmente a que la GUI de Windows funciona tan bien que nunca podría molestarme en intentar que la versión de OS X funcione.

Cada línea es un sonido, compuesto por cuatro o más comandos de texto separados por espacios en blanco. La primera parte es el segmento, compuesto en X-SAMPA . El segundo elemento es la duración del segmento. En el ejemplo anterior, todas las consonantes tienen 100 ms de longitud y todas las vocales tienen 200 ms. El cuarto elemento es el tono en Hertz. El tercer elemento es el porcentaje de la duración en la que se supone que comienza este tono. Un archivo Mbrola para lo que desea se vería así:

 _ 100 10 200
 p 100 10 200
 A 200 10 200 99 160
 _ 100 10 200
 d 100 10 200
 A 200 10 200 99 160
 _ 100 10 200
 b 100 10 200
 A 200 10 200 99 160
 _ 100 10 200
 k 100 10 200
 i 200 10 200 99 160
 _ 100 10 200
 t 100 10 200
 u 200 10 200 99 160
 _ 100 10 200

El guión bajo es un silencio, y establecemos el tono de referencia en 200 Hz. Cada sílaba comienza a 200 Hz. Al 10 % de la duración de la vocal (20 ms), el tono es de 200 Hz, luego se interpola linealmente hasta 160 Hz al 99 % de la duración, lo que le da un agradable contorno descendente.

Praat es gratuito y ha sido citado en muchas publicaciones. Es el estándar de facto para crear estímulos fonéticos.

Gracias. Parece una opción útil, pero no estoy seguro de que resuelva fácilmente el problema en el que estoy trabajando. Aclaro un poco mi pregunta para especificar con más detalle lo que busco.
@Josh, ¿Algo como esto ? En su defecto, Praat es programable .