Sincronización de audio y video de diferentes fuentes

Grabamos un video de una charla y su audio en dispositivos separados (videocámara y teléfono). Ambos son relativamente nuevos y, de hecho, la cámara hace buenos videos Full HD. Mi problema es que ambos parecen estar desincronizados cuando se ven desde los programas de edición.

Publico los datos de Mediainfo del video y el audio a continuación. Básicamente, cuando importo tanto el video como el audio a Lightworks (o algún otro software), puedo alinear las formas de onda pero se desvían entre sí. Me he preguntado si esto se debe a las diferentes tasas de bits, pero ajustar la velocidad no parece ayudar. ¿Es este nuestro problema, las limitaciones del programa de edición, el medio, los formatos de archivo...?

Cualquier sugerencia para mejorar nuestro flujo de trabajo sería apreciada. Nuestro equipo de grabación es una Canon Legria R68 y un teléfono móvil Android (Moto G 3ra gen) para el video y audio respectivamente.

Información del video (una parte de dos)
General
Identificación: 0 (0x0)
Formato : BDAV
Formato/Información: Video Blu-ray
Tamaño del archivo: 3,88 GiB
Duración : 37 min 59 s
Modo de tasa de bits general: Variable
Tasa de bits general: 14,6 Mb/s
Tasa de bits total máxima: 18,0 Mb/s

Video
Identificación: 4113 (0x1011)
ID de menú: 1 (0x1)
Formato : AVC
Formato/Información: Códec de video avanzado
Perfil de formato: Alto@L4
Ajustes de formato, CABAC: Sí
Ajustes de formato, ReFrames: 2 fotogramas
Configuración de formato, GOP: M=3, N=12
Identificación del códec: 27
Duración : 37 min 59 s
Modo de tasa de bits: Variable
Tasa de bits: 13,8 Mb/s
Tasa de bits máxima: 16,0 Mb/s
Ancho: 1 920 píxeles
Altura: 1 080 píxeles
Relación de aspecto de la pantalla: 16:9
Velocidad de fotogramas: 25.000 FPS
Espacio de color: YUV
Submuestreo de croma: 4:2:0
Profundidad de bits: 8 bits
Tipo de escaneo: entrelazado
Tipo de escaneo, método de almacenamiento: Campos separados
Orden de escaneo: campo superior primero
Bits/(píxel*marco): 0,266
Tamaño de flujo: 3,66 GiB (94 %)

Audio
Identificación: 4352 (0x1100)
ID de menú: 1 (0x1)
Formato : AC-3
Formato/Información: Codificación de audio 3
Extensión de modo: CM (principal completo)
Ajustes de formato, Endianness: Grande
Identificación del códec: 129
Duración : 37 min 59 s
Modo de tasa de bits: constante
Tasa de bits: 256 kb/s
Canal(es): 2 canales
Posiciones de canal: Delantero: LR
Frecuencia de muestreo: 48,0 kHz
Velocidad de fotogramas: 31.250 FPS (1536 spf)
Profundidad de bits: 16 bits
Modo de compresión: con pérdida
Retraso relativo al video: -80 ms
Tamaño de transmisión: 69,6 MiB (2 %)

----
Información del archivo de audio (es más larga porque cubre toda la sesión)

Formato : MPEG-4
Perfil de formato: 3GPP Comunicado de prensa 4
ID de códec: 3gp4 (isom/3gp4)
Tamaño del archivo: 61,9 MiB
Duración : 1 h 8 min
Modo de tasa de bits general: constante
Tasa de bits general: 126 kb/s
Fecha codificada: UTC 2016-11-10 18:27:57
Fecha de etiquetado: UTC 2016-11-10 18:27:57

Audio
identificación: 1
Formato : AAC
Formato/Información: códec de audio avanzado
Perfil de formato: LC
Identificación del códec: 40
Duración : 1 h 8 min
Modo de tasa de bits: constante
Tasa de bits: 128 kb/s
Canal(es): 1 canal
Posiciones de canal: Frontal: C
Frecuencia de muestreo: 44,1 kHz
Velocidad de fotogramas: 43,066 FPS (1024 spf)
Modo de compresión: con pérdida
Tamaño de transmisión: 61,2 MiB (99 %)
Título: SoundHandle
Idioma: inglés
Fecha codificada: UTC 2016-11-10 18:27:57
Fecha de etiquetado: UTC 2016-11-10 18:27:57

Sus transmisiones de audio tienen diferentes frecuencias de muestreo. Ahora, un buen NLE debería volver a muestrear todo el audio de entrada a la frecuencia de muestreo del proyecto, pero no sé cómo lo maneja Lightworks. Además, ¿hubo interrupciones en la grabación, ya sea en el video o en el audio?

Respuestas (4)

Este es un problema bastante común. El problema NO es la frecuencia de muestreo. Y el problema tampoco es la velocidad de fotogramas. La mayoría del software de edición moderno (o software de manipulación de archivos) es capaz de resolver fácilmente problemas de frecuencia de muestreo o frecuencia de fotogramas. Por ejemplo, claramente no hay una configuración de "velocidad de fotogramas" o incluso "frecuencia de muestreo" en un teléfono inteligente típico.

El problema es que las referencias del reloj interno en los dispositivos de consumo del mercado masivo, como su videocámara y su teléfono, no son lo suficientemente precisas para permanecer en sincronización de labios durante más de unos minutos. Durante la mayor parte de la historia de la filmación de películas y videos, los profesionales conectaron el reloj de la cámara y el reloj de la grabadora de audio con un cable. (Esto se llamaba "genlock".) Y en tiempos más modernos, el equipo profesional usa relojes de referencia internos (o externos) que cuestan más que la videocámara y el teléfono juntos. E incluso entonces están "sincronizados" juntos varias veces al día.

Dependiendo del software de edición que esté utilizando, es muy probable que le resulte mucho más aceptable utilizar la pista de audio como "referencia maestra" y "abrir" el video para que coincida con el audio. Muchas aplicaciones de edición hacen cosas bastante horribles con la pista de audio si intentas alargar o acortar el clip ligeramente.

Pero hacer lo mismo con la pista de video solo dará como resultado un cuadro perdido o duplicado cada pocos segundos, y casi nadie que vea su video lo notará. Pero sin duda se quejarán de un audio pésimo si intentas "ajustar" la duración.

Pero pruébelo usted mismo en su propio software y vea cómo funciona usted mismo. Solo USTED puede hacer ese experimento con SU video y audio y sistema de edición.

Puede que tengas suerte. Comience sincronizando el comienzo del video/audio juntos. Luego vaya al final y arrastre la duración del videoclip para que el audio esté sincronizado al final. Si tiene suerte, el audio estará sincronizado durante toda la grabación. Pero si hubo más deriva durante el clip, es posible que deba dividir el video en secciones y "subir" el video para que coincida con el audio en varios puntos.

Por lo general, usamos "B-roll" (diapositivas de PowerPoint, video de presentación, tomas de la audiencia, etc.) para cubrir los puntos de edición o sincronización. Siempre es bueno obtener algunas tomas de "reacción del público" para cubrir los puntos de edición. Incluso si no filmas el "B-roll" durante la presentación principal.

Gracias, son buenas ideas. De hecho, estamos cambiando a tener dos pistas de video: screencast de presentación y grabación de orador + audiencia. Eso debería ayudar a enmascarar todos esos problemas técnicos... Lástima que los estándares de tiempo/frecuencia sean tan malos en los teléfonos (yo mismo trabajo en física relacionada con la metrología y estoy muy sorprendido de eso, jeje)
No creo que sea porque los relojes internos se desvían. Un teléfono simplemente no podría obtener la ubicación del GPS o conectarse a la red celular si su reloj fuera tan malo. Creo que es porque a menudo graban con velocidad de fotogramas variable.
Hay una gran diferencia entre el tipo de desviación del reloj que causa problemas de sincronización de labios y el tipo que hace que la visualización de la "hora del día" sea incorrecta en la pantalla. Incluso si el teléfono estuviera sincronizado en fase con la referencia de GPS (que no lo está ningún teléfono), la videocámara no está referenciada al GPS y, por lo tanto, habrá una DESVIACIÓN DIFERENCIAL. El GPS NO requiere la estabilidad del reloj local para funcionar. El GPS funciona comparando la señal proveniente de diferentes satélites, no depende de ninguna referencia de reloj local. Ni la videocámara ni el teléfono funcionan a "velocidad de fotogramas variable".

Las frecuencias de muestreo no son el problema: descubrirá que uno de los dispositivos se está ejecutando a una frecuencia de fotogramas no entera. Este es tu problema. Al realizar tomas con varias cámaras, debe asegurarse de que ambos dispositivos funcionen a la misma velocidad de fotogramas o no podrá sincronizarlos en la publicación. Algunos NLE podrán ajustar su metraje no estándar a la velocidad de fotogramas del proyecto, pero observando las velocidades de fotogramas en el OP. estas son velocidades de fotogramas muy poco estándar. Pruebe y ejecute a 25FPS si es posible en todos los dispositivos. Entonces tienes una buena oportunidad de poder editar el metraje.

Por lo general, cuando se graba externamente o con dos cámaras, un badajo es útil. Hace coincidir los picos y luego silencia las otras pistas de audio para que solo tenga una. Ampliaría las pistas de audio y encontraría similitudes.

Si tiene suficiente liquidez para pagar 300, entonces intente https://www.redgiant.com/products/pluraleyes/

Dado que sincronizó el audio manualmente en el frente y se está desviando después de varios minutos, debe apretar una película para que quepa.

  1. Tener un aplauso al comienzo del registro y uno al final del registro
  2. alinear el primer pico en el audio
  3. cuente las muestras/segundos/fotogramas entre el último pico en el primer y el último pico en el segundo audio
  4. calcular la diferencia en porcentaje
  5. apretar clip por ese porcentaje