¿Sabes cómo Youtube crea subtítulos "automáticos" basados en el sonido de un video? (sonido a texto)
Tengo un archivo MP4 en mi computadora. ¿Cómo creo subtítulos "automáticos" basados en el sonido del video, de forma gratuita? (Sound-to-text) No quiero escribir los subtítulos a mano, quiero que Sound-to-text los cree automáticamente.
No veo cómo esta página es útil para los subtítulos automáticos.
Como nota final, uso una Mac, versión 10.9.
Este es uno de los sueños de muchas personas y actualmente no hay una solución perfecta disponible públicamente . Sin embargo, todavía se puede hacer con un poco de trabajo desordenado. Un método que funcionará si a) el video está bien para ser público durante unos minutos y b) los subtítulos automáticos de Youtube funcionarán es cargarlo en Youtube , hacer que Youtube tenga subtítulos automáticos y luego usar la aplicación web KeepSubs para descargar el subtítulos, luego elimine el video.
Entonces es una simple cuestión de encontrar el editor de subtítulos con las características que necesita/quiere. AegisSub es un editor/aplicador de subtítulos de alta calidad que debería funcionar para lo que necesita.
Este script de Python 2 usa Google Web Speech API y FFmpeg para generar subtítulos: https://github.com/agermanidis/autosub
También hay otra opción, pero es aún más trabajo para ti.
Eso es usar un motor de voz->texto y un cable de audio de 3,5 mm macho doble para enrutar la salida de su altavoz a la entrada de su micrófono. La calidad se basará en la calidad del motor de texto-voz. El mejor motor que sé que funcionará en Mac es Dragon Dictate (he usado la versión de Windows, Dragon Naturally Speaking, en lugar de la versión para Mac).
Entonces es una simple cuestión de encontrar el editor de subtítulos con las características que necesita/quiere. AegisSub es un editor/aplicador de subtítulos de alta calidad que debería funcionar para lo que necesita.
Luego vienen más obras de nuevo; debe configurar el tiempo (a través del editor de subtítulos) y verificar si hay errores ofc.
En resumen, es una cantidad de trabajo desagradable y no muy automatizada, pero un poco mejor que la entrada manual por lo general: si tiene una calidad de audio deficiente, es posible que pueda tomar menos tiempo simplemente haciéndolo todo manualmente en lugar de editar resultados horriblemente inexactos del motor de voz->texto. .
Gaupol 0.19.2 (Python) usa GStreamer 0.10 (con el complemento PocketSphinx 0.7) para reconocer el habla y crear tiempos automáticos. No he probado versiones más nuevas.
https://wiki.gnome.org/Apps/Gaupol/SpeechRecognition
Estoy usando Linux, pero tal vez también sea posible ejecutarlos en OS X.
unor
Mi nombre
aparente001