¿Existe un servicio de transcripción de máquina en tiempo real (transmisión) que permita incluir scripts como material de capacitación para el reconocedor de voz?

Este es mi caso de uso: tengo guiones para charlas que tienen una precisión del 90-95% de lo que realmente dirá el orador. Estoy buscando un servicio en el que pueda cargar esos guiones y, mientras el orador habla, un servicio de transcripción automática devolverá automáticamente los resultados en tiempo real, utilizando tanto los guiones como el reconocedor integrado para ofrecer resultados de mayor calidad que el reconocedor incorporado solo.

Soy consciente de que con Google Cloud Speech API, puedo obtener resultados de transmisión, y con sugerencias de frases puedo proporcionar algo de contexto en la entrada, pero el límite de tiempo en las sesiones de transmisión (1 minuto) y el requisito de dividir mi entrada en las frases limitadas y limitar el número de frases en general son factores decisivos.

¿Alguna otra idea?

Respuestas (1)