¿Cómo detectar y extraer palabras de la transmisión de audio/video en línea en una página web?

Tengo una transmisión/archivo de video (o audio, creo que no es importante) que no contiene subtítulos. Pero tiene un habla inglesa limpia. ¿Es posible detectar y extraer palabras de él? No necesito 100% de precisión.

¿Existen algunos servicios o aplicaciones para este caso? ¿Quizás algunos servicios ofrecen API para esto? Cualquier idea es bienvenida.

Respuestas (3)

Si trabaja regularmente con el "propietario" de la voz, puedo recomendarle Dragon de Nuance, ofrece voz a texto muy precisa con muy pocos errores, pero necesita algo de "calibración" para una voz específica.

Entonces, si puede hacer que su actor / narrador lea el texto de calibración, le resultará fácil hacer transcripciones y subtítulos (aunque los subtítulos requerirán una sincronización manual después). Nuance también ofrece un SDK/API para desarrolladores si lo necesita.

Sin embargo, no te ayudará en el caso de entrevistas con personas aleatorias en la calle.

Una alternativa que no necesita calibración y que además es de uso gratuito es el servicio Google Voice to Text. Hay una buena "API" no oficial para eso en Github .

Le dará resultados utilizables en la mayoría de los casos y es bastante fácil de usar si sabe un poco de programación y puede usar una línea de comandos. Aunque tenga en cuenta que no conozco el estado legal de eso, no estoy seguro de si ese servicio está permitido para uso comercial. Es posible que desee leer los Términos de servicio de Google para eso, lo unificaron hace aproximadamente un año, por lo que también debería aplicarse al servicio de voz a texto. También es un inconveniente, solo acepta fragmentos de 15 segundos, pero si desea automatizar esto de todos modos, puede dividir su archivo de audio con FFmpeg y cargarlos al mismo tiempo.

También existe otra alternativa comercial llamada iSpeech que funciona con un modelo de pago por uso.

También hay un reconocimiento de voz incorporado en Adobe Premiere, que debería ser la forma más fácil de hacer subtítulos, ya que se integra en el flujo de trabajo de video completo y permite un ajuste casi automático del tiempo. Un buen tutorial se puede encontrar aquí .

De verdad gracias por tu respuesta! Es muy útil. Revisé rápidamente los servicios de los que está hablando y creo que podría usar algunos de ellos. Acepté y voté a favor de su respuesta. Pero si recuerdas algo más, házmelo saber, por favor.
Ampliaré la respuesta si encuentro algo nuevo. Es un problema muy común que estoy seguro que mucha gente encontrará al producir videos, especialmente para una audiencia web internacional.

YouTube tiene varias opciones de subtítulos. Hubo un tiempo en que tenían subtítulos gratuitos generados por computadora que luego podía descargar los resultados en un archivo de texto.

Actualmente, YouTube ofrece esta lista de software y servicios de subtítulos .

Si carga contenido sin subtítulos, aún se generarán automáticamente. Puede descargarlos desde la página editar>avanzado en YT. Es una forma gratuita de obtener transcripciones semiexactas de los acometidas.

Usamos un servicio en línea para hacer nuestro subtitulado. No es gratis, pero es bastante barato, considerando la cantidad de trabajo que ahorra; ciertamente es más barato que pagarle al personal de posproducción para que lo haga. Hay muchas empresas que ofrecen este servicio, con variaciones desde completamente impulsado por máquinas hasta completamente transcritas por humanos. Por lo general, desea algún tipo de intervención humana porque las máquinas aún no hacen las cosas al 100%.

Una búsqueda rápida en la web mostrará una larga lista de ellos.