Software para distinguir la música del texto hablado

Mis padres han escrito cuentos en una época en la que las PC no estaban tan presentes. Desafortunadamente, muchos de esos manuscritos escritos a mano parecen haberse perdido. Sin embargo, hay muchos casetes antiguos que pueden contener las historias habladas.

Estamos a punto de deshacernos de los reproductores de casetes y también queremos deshacernos de todos esos casetes viejos, pero me gustaría preservar las historias si es posible.

El etiquetado está lejos de ser perfecto, por lo que probablemente tendría que revisar los ~90 de ellos, grabarlos en mi PC con Audacity y luego encontrar las historias. Por supuesto, también hay mucha música grabada.

Por lo tanto, necesito un software que pueda ayudarme a distinguir el texto hablado de la música en archivos de audio (MP3). Lo ideal sería generar una imagen o similar que clasifique los sonidos. Y debería tener un reproductor integrado para que pueda saltar directamente a las posiciones relevantes.

Ejemplo de clasificación: rojo = música, verde = texto, gris = silencio:

Salida de ejemplo

Lo necesitaría con una interfaz de usuario lista para usar para Windows y debería ser gratis.

Encontré el script Phython smacpy en Github , pero eso requiere entrenar el software. Según tengo entendido, solo puede clasificar archivos completos y no partes dentro de un archivo. pyAudioAnalysis (Github) puede clasificar partes de audio, pero no tiene una interfaz de usuario para facilitar su uso.

No es necesario que la solución esté totalmente automatizada, pero debe dar pistas claras. Por lo que vi en Audacity, me resulta difícil distinguir el texto de la música. Pero si hay un complemento para Audacity, también estaría bien.

Sugeriría primero capturar y hacer una copia de seguridad de los archivos de audio; eso es lo único que debe hacerse lo antes posible porque una vez que se han ido, nunca se pueden recuperar. Entonces, ¿por qué no probar smacpy, es gratis, y primero entrenarlo con media docena de archivos que ha clasificado a mano y luego probarlo con el resto? Si tiene que dejarlo funcionando durante uno o dos días, que así sea.
@SteveBarnes: Ya comencé a grabar. Quizás tengas razón. No confiaría totalmente en el software, así que probaría escuchar algunos de todos modos. Tal vez debería darle una oportunidad.

Respuestas (1)

Si usa Audacity para ver varios aspectos de las grabaciones, es probable que la diferencia entre la música y la palabra hablada sea muy evidente visualmente.

Sin embargo, supongo que el autor de la pregunta quiere una solución automatizada. Examinar cada pista en Audacity probablemente lleve tanto tiempo como escuchar en avance rápido.
Según su frase ("Lo ideal sería que generara una imagen o similar que clasificara los sonidos. Y debería tener un reproductor integrado para que pueda saltar directamente a las posiciones relevantes"), no me parece que necesite una solución totalmente automatizada. .
He actualizado la pregunta. Uso Audacity desde hace mucho tiempo. Tal vez solo necesite decirme a) la configuración a usar yb) cómo identificar la diferencia. No es necesario que sea una solución totalmente automatizada. Creo que es posible abrir 90 archivos en Audacity manualmente, si el resto es sencillo.