El MIT afirma haber inventado una tecnología que, mediante el uso de cámaras de video especiales, puede detectar vibraciones y recuperar los sonidos que se están reproduciendo y que causan esas vibraciones:
Video de YouTube: El micrófono visual: recuperación pasiva del sonido de la discusión de Video Reddit
Esto me pareció realmente incompleto. La mayor preocupación fue la línea sobre las vibraciones que solo se registran como cambios en una "centésima de píxel".
las vibraciones provocadas por la música son tan sutiles que mueven las hojas de las plantas menos de una centésima de píxel.
Si las vibraciones fueran realmente tan pequeñas, no vería ningún cambio en la imagen, porque así es como funcionan los píxeles: son la medida más pequeña registrada.
Además, el canal de YouTube ( Abe Davis's Research ) solo tiene un video subido, no está en el canal del MIT ni nada.
¿Alguna otra evidencia que respalde que esto es real?
Este es un trabajo real.
Los autores son Abe Davis (MIT), Michael Rubinstein (MIT, Microsoft), Neal Wadhwa (MIT), Gautham J. Mysore (Adobe), Fredo Durand (MIT) y William T. Freeman (MIT). ( Sitio web del proyecto )
Este trabajo no surgió de la nada. Tres de los autores se superponen con este artículo sobre Eulerian Video Magnification . Ese trabajo anterior fue el foco de una pregunta anterior sobre la detección de la frecuencia cardíaca a partir de pequeños cambios en el video.
El trabajo fue revisado por pares y aceptado en SIGGRAPH 2014 , la conferencia de gráficos por computadora mejor clasificada del mundo .
Con respecto al movimiento de subpíxeles, un desplazamiento de un objeto de menos de un píxel afecta la señal que reciben todos los píxeles de la imagen y más notablemente a lo largo del límite. El efecto de una fuente puntual de luz en el mundo sobre los píxeles de una cámara depende de la función de transferencia óptica que describe cómo la luz de ese punto se distribuye entre los píxeles de la cámara. El movimiento de esa fuente puntual de luz afectará la luz recibida en todos los píxeles de la cámara.
Utilizaron una cámara de alta velocidad de cuadro (2200-20000 Hz) para permitir la reconstrucción de las frecuencias relevantes. Cuando utilizaron una cámara con una velocidad de fotogramas más baja (60 Hz), aprovecharon el obturador rodante de la cámara para recopilar la señal a una velocidad efectiva más alta (61920 Hz, pero con muestras faltantes) que la velocidad de fotogramas base.
Como ingeniero de DSP de video, puedo dar fe de que definitivamente es posible y práctico registrar el movimiento de una fracción de píxel. Yo mismo he usado una técnica de este tipo (y esta noción general está lejos de ser nueva, aunque su uso para extraer sonido puede serlo).
Considere la imagen de una moneda, digamos, de 80 píxeles de ancho; si se mueve como un todo, digamos, 1/10 de píxel, habrá cambios pequeños pero bien coordinados en la mayoría de sus cientos de píxeles, que pueden analizarse matemáticamente; de hecho, dado un solo cuadro del video, puede analizarlo y predecir que si la moneda se mueve, digamos 0.04 píxeles hacia la izquierda, entonces un píxel en particular se volverá más brillante (o más oscuro) en cierta cantidad. Cualquier predicción individual puede no ser precisa en comparación con el movimiento real, pero promediando cientos de píxeles, puede obtener muy buenos resultados, especialmente en condiciones ideales (cámara fija, iluminación uniforme, buen enfoque...). Entonces, matemáticamente, se comparan las predicciones con los cambios reales para estimar el movimiento.
Esta técnica http://en.wikipedia.org/wiki/Optical_flow es una que se puede usar y es similar en su enfoque a lo que he descrito; aquí hay otro: http://en.wikipedia.org/wiki/Phase_correlation
Una limitación más difícil es que solo tiene cualquier número de 'muestras' de audio por segundo, dependiendo de la velocidad de fotogramas. Para video convencional, este número generalmente está en el rango de 24 a 60, que es demasiado bajo para resolver audio interesante. Las muestras de música en la página web http://people.csail.mit.edu/mrub/VisualMic/ son todas notas muy bajas; sin embargo, se proporciona una frecuencia de muestreo de 2200 Hz. Para las aplicaciones en las que desea comprender el habla, querrá tener al menos 1000-2000 muestras por segundo y hasta 4000 u 8000 si desea poder identificar al hablante por el sonido de su voz. Consulte este http://en.wikipedia.org/wiki/Voice_frequency-- pero tenga en cuenta que el procesamiento telefónico estándar utiliza un muestreo de 8 kHz y es claramente más que adecuado para un habla clara de incluso voces más agudas con la capacidad de reconocer al hablante; frecuencias de muestreo más bajas aún pueden producir un habla inteligible.
El documento también analiza cómo aprovechar el efecto de "obturador rodante" en una cámara de video para obtener información de audio más continua.
juan lyon
sashkello
sashkello
sashkello
sashkello
usuario5582
sashkello
usuario5582
mike dunlavey
Bobson