¿El MIT desarrolló un software que puede recuperar sonidos de videos de objetos que vibran?

El MIT afirma haber inventado una tecnología que, mediante el uso de cámaras de video especiales, puede detectar vibraciones y recuperar los sonidos que se están reproduciendo y que causan esas vibraciones:

Video de YouTube: El micrófono visual: recuperación pasiva del sonido de la discusión de Video Reddit

Esto me pareció realmente incompleto. La mayor preocupación fue la línea sobre las vibraciones que solo se registran como cambios en una "centésima de píxel".

las vibraciones provocadas por la música son tan sutiles que mueven las hojas de las plantas menos de una centésima de píxel.

Si las vibraciones fueran realmente tan pequeñas, no vería ningún cambio en la imagen, porque así es como funcionan los píxeles: son la medida más pequeña registrada.

Además, el canal de YouTube ( Abe Davis's Research ) solo tiene un video subido, no está en el canal del MIT ni nada.

¿Alguna otra evidencia que respalde que esto es real?

people.csail.mit.edu/mrub/VisualMic : también tienen enlaces a sus publicaciones relacionadas (anteriores), lo que demuestra que estas técnicas se han desarrollado progresivamente en los últimos años.
No veo ninguna razón para desconfiar de los investigadores del MIT. Está en la página del MIT: newsoffice.mit.edu/2014/… Esto aún no ha sido revisado por pares, pero antes de que suceda es difícil decir algo más...
La afirmación sobre las vibraciones puede ser una exageración o un error del presentador. También me parece extraño, ya que afirman usar solo una resolución de cámara de 700x700 píxeles.
@Articuno Solo veo informes internos y presentaciones de conferencias, no artículos de revistas.
Supongo que la técnica real se presenta en esta tesis: people.csail.mit.edu/mrub/PhDThesis
@sashkello Y fue aceptado a través de una revisión por pares para su presentación en SIGGRAPH de la próxima semana, una conferencia de visión por computadora muy respetada. Los artículos de esa conferencia se publican luego en una revista, ACM Transactions on Graphics, sin revisión adicional por pares. SIGGRAPH es el lugar más alto de publicación para este campo de investigación.
@Articuno Ah, ya veo, eso no lo sabía. Por lo general, las conferencias no son tan exhaustivas.
@sashkello. Sí, definitivamente no es la norma para la ciencia en general. Pero es el caso de muchos campos de la informática.
No miras un solo píxel. Combina información de muchos píxeles para ver la variación de subpíxeles.
Ars Technica tiene un artículo hoy que explica el documento en términos sencillos (o al menos en términos sencillos)

Respuestas (2)

Este es un trabajo real.

Procedencia

Los autores son Abe Davis (MIT), Michael Rubinstein (MIT, Microsoft), Neal Wadhwa (MIT), Gautham J. Mysore (Adobe), Fredo Durand (MIT) y William T. Freeman (MIT). ( Sitio web del proyecto )

Este trabajo no surgió de la nada. Tres de los autores se superponen con este artículo sobre Eulerian Video Magnification . Ese trabajo anterior fue el foco de una pregunta anterior sobre la detección de la frecuencia cardíaca a partir de pequeños cambios en el video.

El trabajo fue revisado por pares y aceptado en SIGGRAPH 2014 , la conferencia de gráficos por computadora mejor clasificada del mundo .

Plausibilidad

Con respecto al movimiento de subpíxeles, un desplazamiento de un objeto de menos de un píxel afecta la señal que reciben todos los píxeles de la imagen y más notablemente a lo largo del límite. El efecto de una fuente puntual de luz en el mundo sobre los píxeles de una cámara depende de la función de transferencia óptica que describe cómo la luz de ese punto se distribuye entre los píxeles de la cámara. El movimiento de esa fuente puntual de luz afectará la luz recibida en todos los píxeles de la cámara.

Utilizaron una cámara de alta velocidad de cuadro (2200-20000 Hz) para permitir la reconstrucción de las frecuencias relevantes. Cuando utilizaron una cámara con una velocidad de fotogramas más baja (60 Hz), aprovecharon el obturador rodante de la cámara para recopilar la señal a una velocidad efectiva más alta (61920 Hz, pero con muestras faltantes) que la velocidad de fotogramas base.

¿Por qué no vincular el sitio original de los autores? people.csail.mit.edu/mrub/VisualMic

Como ingeniero de DSP de video, puedo dar fe de que definitivamente es posible y práctico registrar el movimiento de una fracción de píxel. Yo mismo he usado una técnica de este tipo (y esta noción general está lejos de ser nueva, aunque su uso para extraer sonido puede serlo).

Considere la imagen de una moneda, digamos, de 80 píxeles de ancho; si se mueve como un todo, digamos, 1/10 de píxel, habrá cambios pequeños pero bien coordinados en la mayoría de sus cientos de píxeles, que pueden analizarse matemáticamente; de hecho, dado un solo cuadro del video, puede analizarlo y predecir que si la moneda se mueve, digamos 0.04 píxeles hacia la izquierda, entonces un píxel en particular se volverá más brillante (o más oscuro) en cierta cantidad. Cualquier predicción individual puede no ser precisa en comparación con el movimiento real, pero promediando cientos de píxeles, puede obtener muy buenos resultados, especialmente en condiciones ideales (cámara fija, iluminación uniforme, buen enfoque...). Entonces, matemáticamente, se comparan las predicciones con los cambios reales para estimar el movimiento.

Esta técnica http://en.wikipedia.org/wiki/Optical_flow es una que se puede usar y es similar en su enfoque a lo que he descrito; aquí hay otro: http://en.wikipedia.org/wiki/Phase_correlation

Una limitación más difícil es que solo tiene cualquier número de 'muestras' de audio por segundo, dependiendo de la velocidad de fotogramas. Para video convencional, este número generalmente está en el rango de 24 a 60, que es demasiado bajo para resolver audio interesante. Las muestras de música en la página web http://people.csail.mit.edu/mrub/VisualMic/ son todas notas muy bajas; sin embargo, se proporciona una frecuencia de muestreo de 2200 Hz. Para las aplicaciones en las que desea comprender el habla, querrá tener al menos 1000-2000 muestras por segundo y hasta 4000 u 8000 si desea poder identificar al hablante por el sonido de su voz. Consulte este http://en.wikipedia.org/wiki/Voice_frequency-- pero tenga en cuenta que el procesamiento telefónico estándar utiliza un muestreo de 8 kHz y es claramente más que adecuado para un habla clara de incluso voces más agudas con la capacidad de reconocer al hablante; frecuencias de muestreo más bajas aún pueden producir un habla inteligible.

El documento también analiza cómo aprovechar el efecto de "obturador rodante" en una cámara de video para obtener información de audio más continua.