Mejora de la resolución de imagen CSI: ¿Qué tan real es?

Así que vi el siguiente clip de YouTube de 1 minuto de duración de CSI Nueva York . En el clip, utilizando lo que parece ser la grabación de una cámara de banco estándar, hacen un zoom de al menos 100 y ven la imagen del culpable en el reflejo del ojo de la niña.

Ahora, pensé que esto era completamente ridículo, tanto que pensé que en realidad era muy divertido.

Sin embargo, mi amigo argumentó que existen muy buenos trucos para mejorar la imagen, como la "súper resolución", un procedimiento en el que varios cuadros de un video producen una imagen de resolución única mucho más alta. Él pensó que el programa tuerce un poco la verdad, pero ¿cuánto?

Honestamente, en realidad no sé nada sobre estas cosas, así que mi pregunta es:

¿Qué tan buena es la mejora moderna de la resolución de imágenes? Además, ¿qué tan lejos están los programas de televisión de CSI?

Gracias,

Observación: Esto se publica de forma cruzada en el sitio de Skeptics. Me dijeron que podría recibir mejores respuestas aquí.

Casi escupo mi café cuando ella asintió con tanta seriedad y dijo "imágenes de la córnea". Todo el tono de esa escena es evidentemente ridículo: si esto fuera posible a este nivel, sería rutinario y obvio, no un giro de trama inteligente e increíble como parece presentarse en ese clip.
LOL, casi tan real como las imágenes satelitales a pedido con acercamientos en películas de acción.
@Jakub: claro, pero pueden hacerlo con aviones/drones; ). ¡No todo es mito!
@Bob no en la medida en que se hace en las películas, donde pueden identificar personas específicas en un solo cuadro de película desde el espacio (o desde un avión que vuela a 10 km de altura). De un dron que volaba a unos cientos de pies de altura, utilizando una imagen fija, tal vez con un poco de suerte.
Creo que te sorprenderías. No es que sea un experto, pero supuestamente el SR-71 puede detectar líneas de estacionamiento desde 25 km. De acuerdo, probablemente no obtendrá una cara , pero podría identificarlos usando otros datos de inteligencia, como su séquito/vehículos en.wikipedia.org/wiki/Reconnaissance_aircraft
Resolución de 6" de un fotograma de película del tamaño de un bloc de notas, sí, no de 0,01" de resolución de un fotograma del tamaño de un sello postal :)
@Bob: me refería a imágenes satelitales que son completamente diferentes de las imágenes aéreas. Estoy hablando de películas en las que la cámara se acerca desde el espacio a la cara de una persona. Esto es ampliamente utilizado pero imposible. Las mejores imágenes satelitales de hoy vienen con una resolución de 40 cm; 1 píxel = 40x40 cm. Trabajo con imágenes aéreas de 20 cm, que son algunas de las mejores imágenes no militares que se pueden obtener y, aunque se pueden distinguir personas y automóviles, no se pueden leer matrículas, etc. (ambos tipos de imágenes también tienen ángulos tales que se pueden solo analice las características de arriba hacia abajo)
Como dijo Nelson Mandela... Siempre parece imposible hasta que se hace.
Uh... en lo del satélite espía, está lejos de ser imposible. Podemos hacer zoom en tu cara lo suficientemente bien como para identificarte, desde el espacio. Esto se hace con telescopios giroestabilizados en el satélite, no mejorando una imagen de baja resolución. Hemos podido leer su reloj desde el espacio desde la década de 1970. Este nivel de detalle no está disponible para los civiles.
El cristal de una SR-71 o U2 es considerablemente mejor que el de una cámara de seguridad típica.

Respuestas (5)

Respuesta corta: puede obtener muy buenos resultados, pero solo bajo ciertas condiciones y absolutamente ni siquiera cerca de lo que se muestra en el videoclip vinculado.

Mi empresa, Amped Software , desarrolla software de procesamiento de imágenes y videos para aplicaciones forenses y de inteligencia, por lo que básicamente somos la contraparte del mundo real del software CSI.

Con referencia al problema general de la mejora de la calidad, puedo decirles que para nuestro mercado es un gran problema estar a la altura de las expectativas creadas por las series de televisión y las películas de Hollywood. Puede ver en nuestra página de muestras que, a veces, los resultados que podemos obtener son realmente sorprendentes, pero es importante comprender que solo podemos obtenerlos bajo algunas condiciones: si hay información que está cubierta por perturbaciones, pero está ahí , somos capaces de recuperarlo. Si no hay información, no podemos ni debemos recrearla. En esta aplicación en particular es fundamental no solo obtener los resultados desde un punto de vista visual, sino también seguir un flujo de trabajo científico que debe ser aceptado por el tribunal .

El año pasado presenté una investigación describiendo problemas y resultados en casi 200 casos en los que he trabajado y el resultado final fue el siguiente:

  • en más del 50% de los casos no hay nada que hacer (por ejemplo recuperar una matrícula de 5x2 píxeles es completamente imposible con cualquier software del mundo);
  • en alrededor del 30% de los casos podemos conseguir algún pequeño resultado (por ejemplo restaurar alguna letra de una matrícula o mejorar el aspecto general de un rostro);
  • en el 10% de los casos obtienes buenos resultados (obtienes la mayor parte de la matrícula, por ejemplo).

Tenga en cuenta que todos estos casos tenían graves problemas de calidad. Si su calidad era buena, no nos pedían que trabajáramos en ellos.

Por lo que respecta específicamente a la mejora de la resolución :

  • cuando hace zoom en una imagen, está interpolando los píxeles que faltan: a partir de una sola imagen, puede mejorar visualmente la apariencia de la imagen, pero no agregará ningún detalle real ;
  • Las técnicas de superresolución pueden dar buenos resultados bajo ciertas condiciones: debe tener suficientes cuadros, desplazados por una cantidad no entera de píxeles y preferiblemente con pocos artefactos de compresión. En el mejor de los casos, puede esperar buenos resultados con un zoom de 2x y 3x.

Lo que se muestra en el video clip puede ser posible solo si el video original ha sido filmado a varios megapíxeles y luego tendrá la resolución para acercar mucho el zoom (más o menos como lo hace en Google Maps). Por supuesto, en ese punto aún habría otros problemas, como el enfoque correcto, condiciones de poca luz, el hecho de que la perspectiva del ojo es diferente a la del sujeto completo en el video, solo por mencionar algunos.

No puedes hacer algo de la nada, tienes que tener (o adivinar) cierta información para poder mejorar una imagen de alguna manera. Por ejemplo, si conoce las propiedades de la función de desenfoque (y no hay ruido de imagen), entonces puede desenfocar una foto. Sin embargo, rara vez conoce la función de desenfoque y el ruido siempre está presente, por lo que limita severamente lo que puede recuperar (Adobe demostró recientemente un filtro de desenfoque, pero su demostración fue con desenfoque sintético).

En resumen, CSI es casi pura ficción: las ganancias que son posibles en la vida real son marginales, nada como el aumento de 5 veces en la resolución que se presenta en la televisión.

Control de cordura: si pudieran hacer todo eso, la gente no estaría pagando decenas de miles por cámaras Hasselblad de más de 40 MP, ¡sería más barato simplemente duplicar el software!

editar: de alguna manera no noté que la pregunta original mencionaba la súper resolución del video. La superresolución de imágenes múltiples es posible en realidad, pero solo hasta las limitaciones del sensor. Funciona mediante el uso de un conjunto de imágenes con desplazamientos de subpíxeles. Esto brinda información de los valores entre píxeles, lo que le permite crear una imagen de mayor resolución. La superresolución del video funciona porque un sujeto en movimiento crea el mismo tipo de cambios; sin embargo, la apariencia de los objetos no debe cambiar mucho entre fotogramas. En el mejor de los casos, la técnica solo le brinda los resultados de un sensor de mayor resolución, no puede superar los límites de la potencia de resolución de la lente, que sería bastante limitada con las lentes con especificaciones de CCTV.

Aquí hay un ejemplo de superresolución en buenas condiciones:


(fuente: wikimedia.org )

imagen de photoacute.com

una mejora en la resolución, sí, pero aún lejos del nivel de rendimiento de CSI.

Para hacer referencia a mi comentario anterior, las últimas Hasselblads en realidad implementan la súper resolución de cambio de sensor, bajo el nombre de "captura de tomas múltiples", por lo que aún no puede vencer a los fabricantes de formato medio en su propio juego usando un software inteligente...

Parece que tiene un par de oraciones rotas: "... poder de resolución de la lente, ¿cuál sería?" y "?? una mejora en la resolución, eso sí,..."
@jrista Gracias, arreglé el primero, se supone que el segundo es la continuación de la oración sobre la imagen.

Así que esto es lo que tengo hasta ahora:

El área del ojo donde ven la pelota de baloncesto es de aproximadamente 1 milímetro cuadrado. Con base en la altura de la niña, podemos estimar con confianza que debería ser como máximo 1 millonésima del número total de píxeles en la pantalla. (El ancho y la altura de la imagen, aunque no están bien definidos para las fotografías, ya que algo puede estar más cerca, parecen aproximadamente 3 x 3 metros, lo que significaría 10 millones de milímetros cuadrados. Sin embargo, el ojo podría estar más cerca de la lente real de la cámara, por lo que Estoy estimando aproximadamente y dividiendo por $ 10 $).

Si la grabación fuera de calidad HD, aún sería de solo 2 megapíxeles, por lo que donde vemos la pelota de baloncesto debería tener el tamaño de un solo píxel.

Creo que el razonamiento sin duda muestra que no es cierto, pero todavía me pregunto, ¿cuáles son los límites superiores en la mejora de la imagen?

mi estimación es que inventar más del 50% de los píxeles creará una fantasía total, y mucho antes de que su imagen se vuelva tan mala que sea inútil para identificar personas o elementos específicos, excepto por su forma general.

Hay algún software disponible comercialmente, con Super Resolución. No he probado ninguno de estos yo mismo, pero el material publicitario es bastante bueno. El software está destinado a la vigilancia, la seguridad y las fuerzas armadas, pero supongo que algunas unidades forenses tendrán acceso a este material.

Dos ejemplos son: Ikena de MotionDSP y TacitView de 2d3

Cabe señalar que la superresolución requiere múltiples imágenes de origen para alimentar al algoritmo con más datos de los que tendría de otra manera. Esto funciona con video, ya que está capturando continuamente una secuencia de fotogramas en curso, donde cada fotograma subsiguiente suele ser en su mayoría similar al anterior. Además, cuanto mayor sea la resolución de la fuente, más alimento tendrá que masticar el algoritmo. Tal mejora de imagen no sería realmente posible con una sola imagen estática, o imágenes de una cámara de baja resolución y baja velocidad de fotogramas como parecía indicar el video de YouTube.
Eso es cierto, y el formulario de respuesta @Matt-Grum explica esto con un poco más de detalle. También hay buena información en Wikipedia sobre imágenes Super Resolutino y Speckle (también conocidas como video astronomía). Ambos trabajan en series de imágenes, pero utilizan diferentes técnicas para crear el producto final.
Interesante, no había oído hablar del término imagen moteada antes, aunque sí había oído hablar de "apilamiento", como se le conoce comúnmente en los grupos de astrofotografía.

La mejora de imágenes/videos al nivel sugerido en los programas de TV simplemente no es posible, y en realidad está limitada por el dispositivo de captura de imágenes. Esa es la tecnología que necesitaría evolucionar primero.

Es imposible obtener información de una colección de 10 píxeles en un objeto reconocible. A nivel de píxeles, esa es la cantidad final de información proporcionada en la imagen. Solo tienes 100 bloques de color en ese zoom finito. Puede aumentar un área de 10x10 píxeles a 100x100 píxeles a través de la interpolación, pero la información en los 10x10 píxeles es todo lo que hay que seguir, y la interpolación se basa en conjeturas informadas basadas en esos 10x10 píxeles del software. El resultado sería un desenfoque de 100 x 100 píxeles. Alternativamente, tome una imagen de 2000x2000 píxeles e interpólela hasta 4000x4000 píxeles, y algunos desenfoques no tan claros en la imagen original pueden verse más claros que los posibles objetos en la imagen más grande simplemente a través de la pareidolia, pero incluso entonces eso es una suposición. La imagen interpolada daría la "ilusión" de más detalle,

La mejora de la imagen se basa únicamente en la cantidad máxima de información capturada a través de la fuente de imagen original, y el zoom en píxeles es todo lo que hay. Algunas cámaras pueden tomar imágenes de muy buena resolución, pero ningún software puede resaltar detalles que no estén registrados en la imagen original.

Ahora, para volver a los programas de CSI, la mayoría de ellos toman el metraje estándar de la cámara de vigilancia, que para empezar no tiene una resolución particularmente alta de todos modos en la vida real, así que cuando veo este tipo de mejora en los programas, simplemente me hace reír. - ya que es imposible incluso con la forma más avanzada de software de edición de imágenes (y PhotoShop está realmente en el extremo superior de la escala avanzada). La mejora de la imagen y el zoom dependen 100 % de la información capturada por el dispositivo de imágenes, por lo que una cámara de vigilancia capaz de capturar, por ejemplo, un reflejo del rostro de una persona en el costado de la córnea del ojo de alguien, tendría que ser súper poderosa y sería escandalosamente costosa. . El material de archivo debería tener una definición de píxeles por cuadro escandalosamente alta (digamos 100 megapíxeles o aproximadamente 9,5 terabytes para almacenar 1 segundo de material de archivo), lo que aumentaría el tamaño del archivo del metraje hasta el punto de que cada cámara de vigilancia necesitaría una pequeña granja de servidores para almacenar 24 horas de metraje. Muy caro. La tecnología de mejora resultante se basaría en dispositivos de captura de imágenes capaces de hacer este nivel de captura detallada de video e imágenes primero, para almacenar los datos de manera conveniente y llegar a un punto en el que esto sea económico de implementar en las ciudades. El tamaño del archivo sería tan enorme en el metraje de video (recuerde alrededor de 9,5 terabytes por segundo) que el software capaz de hacer esto necesitaría una supercomputadora extremadamente poderosa (según los estándares actuales) para funcionar. Con la tecnología aumentando a la velocidad que lo hace, esto puede ser posible en algún momento en el futuro, probablemente durante nuestra vida. Solo así podrían hacerlo, pero las imágenes no se verían realzadas, solo estarían haciendo zoom en imágenes súper detalladas. Lo sé porque trabajo en imágenes digitales para vivir a tiempo completo.