Este es mi caso de uso: tengo guiones para charlas que tienen una precisión del 90-95% de lo que realmente dirá el orador. Estoy buscando un servicio en el que pueda cargar esos guiones y, mientras el orador habla, un servicio de transcripción automática devolverá automáticamente los resultados en tiempo real, utilizando tanto los guiones como el reconocedor integrado para ofrecer resultados de mayor calidad que el reconocedor incorporado solo.
Soy consciente de que con Google Cloud Speech API, puedo obtener resultados de transmisión, y con sugerencias de frases puedo proporcionar algo de contexto en la entrada, pero el límite de tiempo en las sesiones de transmisión (1 minuto) y el requisito de dividir mi entrada en las frases limitadas y limitar el número de frases en general son factores decisivos.
¿Alguna otra idea?
Para el nivel de empresa comercial, verifique: HPE IDOL SpeechServer
Ref:
Guía de administración de HPE IDOL Speech Server 11.4.0 PDF Referencia de
HPE IDOL Speech Server 11.4.0
Para código abierto, creo que CMUSphinx es uno de los mejores:
https://cmusphinx.github.io/
https://github.com/cmusphinx
https://algorithmia.com/algorithms/sphinx/SpeechRecognition
https://sourceforge .net/projects/cmusphinx/