¿Recoger audio usando video de alta velocidad?

En la película Eagle Eye , ARIIA (una supercomputadora/IA de recopilación de inteligencia) capta audio mediante la grabación de video de las vibraciones en una taza de café. ¿Qué tan cerca está esto de la realidad?

Lo he visto hecho con láser en una ventana y, en teoría, me imagino que podría captar audio de 5 kHz grabando las vibraciones con una cámara de alta resolución de alta velocidad de 10,000 fps.

¿Se ha hecho? ¿Cómo es la calidad? ¿Cuáles son las limitaciones teóricas? ¿Cuáles son las limitaciones prácticas?

Pasé un minuto tratando de averiguar qué diablos era una cámara "contratada" , luego me di cuenta de que querías decir "alta resolución".
Si puede acercarse lo suficiente como para grabar en video una taza de café en alta resolución, ¿no sería más fácil usar solo un micrófono?
@hdhondt: Si no recuerdo mal, en la película la gente entró en una habitación sellada acústicamente para tener una conversación privada sobre el cierre de ARIIA. La IA espió la taza para determinar qué se decía.
¿Estás diciendo que la IA podía ver pero no oír? ¿Supongo que le dieron órdenes en lenguaje de señas? No vi la película, así que me cuesta entrar en la mentalidad que la hace lógica ;-)
Votar para mantener abierto: creo que hay un componente físico en esta pregunta además de la ingeniería: el sonido engendra el comportamiento dinámico del café, que luego se puede rastrear observando el cambio en la superficie del café con el tiempo. Entonces, la respuesta es sí, en principio podría hacerse bastante aparte de la tecnología particular necesaria para hacerlo. También existe la cuestión de qué tan fuerte es el efecto, nuevamente una cuestión de física pura.
@hdhondt: La IA podría entender comandos de entrada verbales, visuales y de computadora. Los diseñadores sabían esto y crearon una habitación adyacente que no tenía cámaras ni micrófonos para que la IA no pudiera espiar en esa habitación. Sin embargo, había una ventana y uno de los personajes dejó un café en la mesa y la IA observó las vibraciones y recreó la conversación.
@Kyle Gracias por eso, tendré que ver la película.

Respuestas (2)

En las noticias de hoy, los investigadores del MIT hicieron exactamente eso usando una cámara de alta velocidad con una velocidad de fotogramas de entre 2 kHz y 6 kHz. Usaron un filtrado avanzado para detectar el movimiento microscópico de los objetos, pero para conocer los detalles tendremos que esperar hasta que publiquen su artículo.

Al leer el artículo de noticias y mirar el video, también usaron cámaras normales, donde la electrónica lee una línea de escaneo a la vez. Esto les da frecuencias más altas que la velocidad de fotogramas real. Y de repente hizo que los ARIIA que recogían audio de una superficie de café usando una cámara de vigilancia pasaran de la fantasía de Hollywood a lo plausible.
¿Por qué una cámara de alta velocidad? ¿No pueden obtener la misma información de un fotosensor de una sola celda y un telescopio?
@endolith No, necesitan la resolución de cámara más alta posible para resolver pequeños movimientos. Incluso entonces, dicen que el movimiento es solo alrededor de 1/100 de un píxel, por lo que no podrían decir nada de un solo píxel. Pero toma un millón de píxeles y luego puedes deducir algo de los cambios sincrónicos en las intensidades de los píxeles.

En principio, ahora hay una razón por la que esto no se puede hacer. Sin embargo, hay muchas dificultades prácticas.

  1. Necesitaría una cámara de alta velocidad que grabe a unos 50 000 fps para capturar toda la banda de audio que los humanos pueden escuchar. Estas cosas no son baratas y generalmente no pueden grabar por más de unas pocas decenas de segundos a velocidades tan altas. Por el contrario, los vibrómetros láser son relativamente baratos y fáciles de construir.

  2. La superficie que observará debe tener grandes cambios de contraste debido a las ondas de presión incidentes. Su ejemplo de la taza de café probablemente no funcionaría (a menos que los sonidos fueran increíblemente fuertes), tendría que ser algo más sensible a los cambios de presión, como los diafragmas que se usan para los altavoces , con la luz reflejándose en él de la manera correcta.

  3. El sistema mecánico que estaba respondiendo a la onda de presión tendría que estar libre de resonancias mecánicas en la banda de audio, o las resonancias mecánicas tendrían que calibrarse.

Considerándolo todo, diría que esta es una mala manera de intentar grabar sonido, pero no es una completa imposibilidad. No conozco ningún caso en el que se haya hecho en el pasado.

Sin embargo, existe este dispositivo que utiliza la radio en lugar de la luz.
No necesita capturar sonido de 25 kHz si solo está interesado en el habla. 2kHz estaría bien.
@gigacyan Muy cierto.