Estoy tratando de convertir un archivo de audio a una forma de onda FFMPEG, entrenarlo en HyperGAN y producir un archivo de imagen para convertirlo en un archivo de audio. Lo que estoy preguntando es si hay una manera de convertir una imagen de forma de onda en un archivo de audio sin pérdida de calidad (básicamente, si tuviera que hacer un hash del original y el convertido, sería el mismo hash), y si FFMPEG es la herramienta correcta para usar. Actualmente tengo un script por lotes para revisar todos mis archivos de audio y convertirlos en imágenes (ffmpeg.exe -i %1 -lavfi showwavespic=s=1024x800:colors=0971CE %1.png), pero no puedo convertirlos volver a los archivos de audio, lo que anula el propósito de lo que estoy haciendo.
EDITAR: FFMPEG convierte un archivo de audio de 5 MB en una imagen de 32 kb, por lo que no creo que se vuelva a convertir. ¿Hay alguna forma de hacerlo más detallado?
FFmpeg no puede hacer esto.
Incluso teóricamente, el método parece poco sólido (sin juego de palabras). Los audios normalmente se muestrean a más de 40 K Hz por segundo. La dimensión máxima de la imagen en ffmpeg es 65K. Entonces, incluso con ese tamaño, apenas se pueden representar 1,5 segundos de audio con una resolución de muestreo completa. Una vez que baje y confíe en la interpolación, la calidad de su salida comenzará a degradarse, a medida que su reconstrucción se vuelve más tosca.
Consulte la documentación del filtro de espectrosintetizador. Deberá usar el filtro showspectrum en su lugar. Y tener también vídeo de fase. Usar solo showspectrumpic no es factible ya que reduce drásticamente la resolución de tiempo.
PintsizeSix40
gian
PintsizeSix40