¿Por qué las cámaras no captan el rango dinámico como lo hacen nuestros ojos?

Cuando estoy sentado en una habitación sin luces y miro por la ventana, puedo ver fácilmente el interior de la habitación incluso si me enfoco en un árbol afuera.

¿Por qué una cámara no puede capturar una imagen similar a lo que ven mis ojos? Creo que las cámaras más nuevas deberían poder capturar este rango dinámico fácilmente. No creo que la visualización sea un problema si se captura tanto rango dinámico, porque se puede normalizar. En una cámara digital, tengo que configurar la exposición que solo capturará la escena exterior o la escena interior correctamente.

¿Es esto solo un problema con las cámaras digitales o es lo mismo con las cámaras de película?

Ya se discutió una pregunta similar aquí ¿Cómo capturar la escena exactamente como mis ojos pueden ver? . No hablo de resolución, enfoque o detalle. Me interesa la exposición o rango dinámico similar a cuando fijamos nuestros ojos en una sola escena.

No veo por qué dices "una cámara más nueva debería poder capturar este rango dinámico fácilmente". Se basan en una tecnología completamente diferente a la nuestra, así que realmente no veo por qué esperas que tengan características similares.
Entonces, ¿es todo el rango dinámico lo que crea la mayor parte del problema?
Estoy pensando en un experimento, hacer la escena en un papel con una lente y luego capturarla con la cámara. Debería normalizar el rango dinámico.
Visita jvsc.jst.go.jp/find/mindlab/english/index.html para ver de forma interactiva cómo te engaña el cerebro ;)
Las cámaras pueden . La película tiene un "hombro" que es similar al ojo. Digital puede tener sensores grandes/pequeños emparejados para capturar un rango dinámico mejorado. El software puede combinar esto y producir una pantalla, incluso en los monitores actuales, que refleje lo que su cerebro registraría si viera la imagen directamente.
@Stormenet: ¡Ese es un enlace increíble!

Respuestas (9)

La razón por la que puede ver un rango dinámico tan grande no es que el ojo, como dispositivo óptico, pueda capturar tal rango; la razón es que su cerebro puede combinar información de montones y montones de "exposiciones" de los ojos y crea un panorama HDR de la escena frente a ti.

El ojo es bastante pobre desde el punto de vista de la calidad de la imagen, pero tiene una "velocidad de fotogramas" muy alta y puede cambiar la sensibilidad, la dirección y el enfoque muy rápidamente.

El cerebro toma todas esas imágenes del ojo y crea la imagen que crees que ves; esto incluye detalles de imágenes con diferente sensibilidad e incluso detalles que están completamente inventados en función de lo que esperabas ver. (Esta es una de las razones por las que existen ilusiones ópticas: se puede engañar al cerebro para que "vea" cosas que en realidad no existen).

Entonces, puede ver con su cámara como con su ojo, simplemente tome muchas exposiciones en diferentes configuraciones, luego cargue todo en Photoshop, cree un panorama HDR y use "relleno consciente del contenido" para llenar los espacios.

Por cierto, ¿por qué las cámaras "deberían" poder capturar ese rango pero los monitores no deberían poder reproducirlo? Si existiera una tecnología que no existe, los monitores deberían poder reproducir cualquier cosa que podamos ver (y yo debería poder tomarme unas vacaciones en un hotel de baja gravedad en la luna)

¡Me ganaste por unos 4 minutos con una respuesta casi idéntica!

Es posible que tenga una ligera ventaja en el rango dinámico del sensor sobre una cámara, pero la mayor parte de lo que marca la diferencia es tener un sofisticado sistema de exposición automática, movimientos sacádicos , procesamiento HDR y un sistema de reconocimiento de escena que persiste a través de múltiples exposiciones . El cerebro humano es al menos tan importante para el sistema visual como lo es el ojo .

Ante una escena con un rango dinámico muy alto, el sistema visual humano tarda un tiempo en adaptarse. Eso no es porque tengamos que ajustar una configuración de rango dinámico, sino porque necesitamos analizar las partes muy brillantes y muy oscuras de la escena por separado, y luego unir las partes importantes de la imagen. Una gran cantidad de lo que "vemos" en realidad depende de que ya sepamos lo que hay allí; podemos usar muy pocas indicaciones de detalles reales para llenar los espacios en blanco (y cuando no tenemos suficiente información real, podemos interpolar, pero no siempre correctamente ).

Lograr que una cámara, cualquier cámara, funcione a ese nivel significará diseñar un sistema que "sabe" lo que está mirando. Ya podemos hacer la versión "tonta" de eso usando varias técnicas HDR (en su ejemplo específico, generalmente mediante un simple enmascaramiento donde la puerta se cortaría de la exposición a la oscuridad y se insertaría una versión de la exposición brillante en su lugar). Los procesos automatizados actuales se basan completamente en el brillo (ya que no pueden analizar el significado o la importancia) y tienden a producir artefactos obvios .. Y si alguna vez ha visto una imagen sin procesar combinada con HDR de 32 bits que aún no ha sido mapeada (que es esencialmente el tipo de cosa que obtendría únicamente al aumentar el rango dinámico del sensor), probablemente lo habrá notado. que la imagen es muy "plana" y carece de contraste tanto local como global. Es saber cuál es la escena lo que nos permite hacer el mapeo, para decidir dónde el contraste es localmente importante. Hasta que la cámara pueda tomar el mismo tipo de decisiones, no podrá producir una imagen que se parezca en nada a lo que ve su cerebro.

Tiene que ver con la forma en que el cerebro interpreta la información proporcionada por los ojos (o dicho de otro modo, es el software, no el hardware).

Solo vemos color y detalle dentro de un campo muy estrecho en el centro de nuestra visión. Para construir la imagen detallada y colorida que percibimos, el cerebro mueve este punto central sin que lo sepamos.

No soy neurobiólogo, pero es lógico que, a medida que el cerebro crea esta imagen más amplia a partir de muchas instantáneas diminutas, también normaliza el brillo, lo que produce una imagen que parece tener aproximadamente el mismo brillo en todas partes, a pesar de que algunas áreas son mucho más grandes. más brillante en la realidad. Básicamente, la capacidad de ver cosas oscuras y brillantes al mismo tiempo es una ilusión.

No hay ninguna razón por la que este comportamiento no pueda ser imitado por las cámaras digitales, ni hay ninguna razón por la que no podamos hacer sensores capaces de un rango dinámico mucho mayor en una sola exposición. De hecho, Fuji fabricó un sensor con fotositos de sensibilidad extra baja para capturar detalles extra destacados.

El problema se reduce a la incapacidad de mostrar imágenes de alto rango dinámico. Para mostrar tales imágenes en un monitor estándar de bajo rango dinámico, debe realizar un procesamiento especial llamado mapeo de tonos, que tiene sus propias desventajas. Para la mayoría de los consumidores, las cámaras de alto rango dinámico simplemente serían más complicadas.

Resumen:

  • Dios hizo nuestros ojos.

  • Hacemos cámaras.

  • Todavía no hemos alcanzado a Dios.

  • PERO la mejor cámara disponible está a la altura de los requisitos que usted describe.

  • Hay formas de lograr lo que quieres. Simplemente ha decidido definirlos como algo que no desea. Esa es tu decisión.

El nivel de luz en una habitación oscura con una ventana abierta a una escena exterior puede ser tan bajo como 0,1 lux (0,1 lúmenes por metro cuadrado). El nivel de luz de la escena exterior puede oscilar entre 10 y miles de lux en la situación que describa.

A 100 lux externos y 0,1 lux internos, la relación es de 1000:1 o poco menos de 10 bits de rango dinámico. Muchas cámaras modernas podrían diferenciar las diferencias tonales en ambos extremos de este rango si se establece correctamente. Si el nivel de luz del árbol estuviera saturando el sensor, tendría alrededor de 4 bits de nivel disponibles dentro de la habitación = 16 niveles de iluminación. por lo que podría ver cierto grado de detalle con el nivel más brillante EXCEPTO QUE el nivel de luz es tan bajo que los ojos tendrían problemas con él.

Si el nivel de luz del árbol fuera de 1000 lux (= 1% de la luz solar total), necesitaría alrededor de 13 bits de rango dinámico. Las mejores cámaras de fotograma completo de 35 mm disponibles se encargarían de esto. El ajuste de la cámara tendría que ser perfecto y tendrías información de tono cero dentro de la habitación. Este nivel de iluminación externa es más alto de lo que obtendría en una situación diferente a la de la noche con iluminación artificial.

Muchas DSLR modernas de gama media a alta tienen un procesamiento HDR incorporado que permite obtener rangos dinámicos mucho mayores al combinar múltiples imágenes. Incluso una foto HDR de 2 imágenes se acomodaría fácilmente a su escena. Mi Sony A77 ofrece hasta +/- 6 EV 3 fotogramas HDR. Eso le dará más de 20 bits de rango dinámico, lo que permitirá variaciones tonales muy adecuadas en los extremos superior e inferior de su ejemplo.

Alternativamente, se podría decir que la evolución ha tenido una ventaja inicial de quinientos millones de años sobre nuestros ingenieros, y no sería razonable esperar que la alcancemos dentro de un tiempo :)
Eso es un toque teológico...
No creo que esto responda la pregunta, solo dice "porque los ojos son mejores". Bueno. ¿Cómo logran eso?
Nuestros ingenieros han logrado diseñar un ojo que tiene una frecuencia de actualización más alta, una resolución mucho más alta, puede ver en infrarrojo y ultravioleta y no tiene puntos ciegos. Esta pregunta muestra que el ojo en realidad tiene aproximadamente la mitad del DR estático de las cámaras modernas. Mi teléfono también tiene HDR automatizado. Creo que acabamos de alcanzarnos.
@ naught101 - "atrapado" es una medida matizada con bastante delicadeza :-). El ojo per se es algo inferior en varios aspectos a lo mejor que podemos manejar. Pero todavía logra algunas hazañas prodigiosas. ¡por ejemplo, el ojo adaptado a la oscuridad puede detectar un solo fotón! Pero, lo que hace que la vida sea terriblemente difícil para los pretendientes es que el ojo es solo parte de un sistema integrado de múltiples órganos, y el cerebro recibe algunos golpes, hasta ahora.
@mattdm: en realidad dice "Nuestros ojos son tan buenos como la cámara en la situación descrita".
@RowlandShaw: solo si desea que sea así. Otros ofrecieron su propia traducción apropiada de esa visión del mundo. Una declaración como esa puede ser una metáfora de lo que quieras que sea (Cthulu, FSM, Ever-looshin, ...) o no.

¿Es solo el problema de las cámaras digitales o es lo mismo para las cámaras de película?

Ninguna de las respuestas ha tocado esto todavía, al menos directamente ... sí, también es un problema con la película. La famosa película de transparencias en color Fuji Velvia, por ejemplo, tiene un rango dinámico verdaderamente podrido (¡un gran color, sin embargo!). Las películas de transparencias en general sufren de esto. Por otro lado, las películas negativas pueden tener un rango dinámico muy bueno, casi tan bueno como el de las mejores cámaras digitales actuales. Sin embargo, se maneja de manera un poco diferente: mientras que lo digital tiene una respuesta lineal a la luz, la película tiende a tener una curva de contraste marcada en "S" incorporada. Los negros y casi negros, y los blancos y casi blancos, se amontonan más que los tonos medios.

Tenga en cuenta que, dado que las fotos de película generalmente terminarán impresas en tinta sobre un fondo de papel blanco, ¡hay un límite no demasiado generoso en cuanto a la cantidad de rango dinámico que se desea que capture en primer lugar! Capturar, digamos, un rango dinámico de treinta paradas y luego enviarlo a un... ¿cuál es el DR aproximado de una impresión fotográfica de todos modos? ¿Cinco paradas? ¿Seis? ...el medio de salida se vería... extraño, por decir lo menos. Sospecho que es este factor más que cualquier obstáculo insuperable con la química lo que ha limitado el rango dinámico de la película fotográfica. No es tanto que no podamos hacerlo, es más que activamente no queremos hacerlo.

Suficiente material para llenar un libro, pero la esencia simple es que los ojos humanos ven el brillo logarítmicamente mientras que las cámaras "ven" el brillo linealmente.

Entonces, si asume una condición en la que el brillo va de 1 a 10000 (número elegido al azar), en base logarítmica 10, el ojo humano vería el brillo de 0 a 5 mientras que la cámara, linealmente, lo ve de 1 a 10000. un sensor que puede cubrir un rango tan grande es difícil ya que el ruido interfiere con las mediciones bajas y el desbordamiento interfiere con las mediciones de mayor brillo. Habiendo dicho eso, creo que hay una cámara RED que puede grabar 18 paradas de rango dinámico, aunque no estoy seguro de si es solo un prototipo o un modelo de producción.

Por cierto, la diferencia logarítmica frente a lineal también es la razón por la que el brillo se duplica o se reduce a la mitad por diferencia de una parada.

Pero esto es suficiente para un tema de investigación, así que esto es solo un breve consejo.

Este efecto logarítmico en el ojo humano aplana el rango dinámico y el cerebro se enfrenta a eso porque solo lo ha estado haciendo así durante toda su vida. Si la cámara también aplanara el rango dinámico, cuando vea el resultado, obtendría un aplanamiento doble y su cerebro solo está acostumbrado a un aplanamiento simple. Si tuviera que ver el mundo con un dispositivo que hiciera esto, y continuara viéndolo durante días, se acostumbraría a él con normalidad. Retire el dispositivo después de eso y el mundo se vería duro y demasiado contrastado.
@Skaperen No creo que necesariamente llame a un logaritmo que aplana el rango dinámico. Si escala el brillo de forma logarítmica y lineal en una comparación lado a lado, el logarítmico puede parecer más plano, PERO la pregunta es ¿cuántos lugares decimales vemos? Técnicamente, ambas imágenes aún contendrían la misma información solo en diferentes escalas, y la escala no cambia la información contenida siempre que no incurra en errores de redondeo.

El ojo no capta el rango dinámico. Comprime el rango dinámico y luego el "procesamiento posterior" en el cerebro crea la ilusión del rango dinámico. Un rango dinámico comprimido es la razón por la que puede ver las sombras y las áreas iluminadas al mismo tiempo. La "ganancia", por así decirlo, aumenta automáticamente en las partes de la retina que detectan las sombras, haciéndolas más brillantes, y se reduce donde la retina ve áreas iluminadas. El cerebro aún sabe que está mirando una sombra, por lo que crea la sensación de que allí está oscuro. Se está produciendo una especie de expansión sobre los datos comprimidos, por así decirlo, por lo que no se da cuenta de que el rango dinámico se ha comprimido.

Los sensores de las cámaras digitales podrían superar fácilmente a la retina en el rango dinámico bruto. El problema es que no controlas la exposición por área. Las cámaras tienen configuraciones de ganancia (generalmente presentadas en la terminología cinematográfica como configuraciones ISO) que son globales.

Lo que hace el ojo, por así decirlo, es algo así como usar "ISO 100" para un área brillante e "ISO 800" para un área oscura al mismo tiempo.

Si la cámara pudiera ajustar la ganancia para áreas específicas de píxeles en función del brillo, eso sería sin duda útil, pero sabemos al aplicar tales efectos de nivelación de ganancia en el posprocesamiento que el cerebro no se deja engañar por ellos. No parece natural. Parece natural solo cuando tu propio ojo lo hace en coordinación con tu propio cerebro.

Esta es una pregunta interesante si le da la oportunidad en lugar de mencionar las razones obvias por las que las cámaras ya se fabrican de la forma en que se fabrican.

Consideremos la opción más cercana. El mapeo de tonos es un método en el que se aplica un filtro de paso bajo a los valores de los exponentes de la imagen RGBe. Eso juega un papel importante en cómo los ojos ven algo. Pero consideremos que nuestros ojos están absorbiendo largas corrientes de imágenes. Funcionan mucho más como cámaras de video que como cámaras fotográficas.

El mapeo de tonos podría mejorarse mucho si se construyera como un sombreador GLSL que se ejecutara en tiempo real con una cámara de video especializada que pudiera capturar un flujo constante de imágenes HDR.

En un ejemplo mucho más simplificado, las fotos "HDR" del iPhone son combinaciones de una imagen de baja y alta exposición impulsada a través de un proceso de mapeo de tonos que funciona bastante bien si no lo ha probado. Muchas otras cámaras de consumo hacen cosas similares.

También está el tema fascinante de cómo la intuición/intención/libre albedrío juega con la forma en que se calibran sus ojos a lo largo del flujo del tiempo. Si estás mirando una pared oscura y piensas en girar la cabeza hacia una ventana que está muy iluminada, tu cerebro puede decirle a tus ojos que sigan adelante y empezar a cerrar las pupilas. Una cámara con exposición automática puede hacer lo mismo, pero solo después de que entra demasiada luz. Las personas que trabajan en el cine dedican mucho tiempo a lograr que la sincronización de la configuración de las cámaras fluya sin problemas para que se sientan naturales en una toma complicada. (o iluminar una escena de tal manera que la configuración de las cámaras no tenga que ajustarse) Pero, de nuevo, la única razón por la que ese tipo de cosas funcionan es porque el director sabe lo que le va a pasar a la cámara antes de que suceda.

El mayor problema sería reproducir la imagen capturada.

No está fuera del ámbito de la tecnología crear un sensor de imagen y una configuración que capture una gama extremadamente amplia de niveles de brillo en una sola imagen. Al final, es solo una cuestión de conteo de fotones, que es una tecnología que escala a los niveles necesarios. Las cámaras actuales utilizan principalmente la configuración de exposición para modular la cantidad de brillo que ve el sensor, aunque una mayor parte de este trabajo podría realizarse en el sensor, lo que tal vez resulte en un mayor ruido de error, pero sin duda podría obtener un rango más amplio de un fotosensor que lo que está disponible actualmente en el mercado.

Pero el problema es este: una vez que tienes esa imagen, ¿qué haces con ella? Incluso las pantallas de gama alta todavía usan color de 24 bits, lo que significa que solo se permiten 256 tonos por canal de color. Las impresoras actuales son igualmente limitadas, si no más. Por lo tanto, no se podría hacer nada con una imagen de este tipo sin un procesamiento primero para reducir el rango a lo que producen las cámaras existentes.

Probablemente haya visto este problema antes: la mayoría de los formatos RAW actuales ya almacenan una gama más amplia de la que se puede reproducir, y la gama de colores ya tiene que comprimirse o recortarse antes de que pueda ver la imagen. Agregar aún más rango a la salida RAW sería más de lo mismo. La cámara probablemente sería dramáticamente más costosa, pero las imágenes no serían significativamente mejores porque todavía tiene que reducir el rango a color de 24 bits antes de poder mirarla.

Aún así, tal vez con el software adecuado y el tipo de usuario adecuado, puede obtener algo maravilloso de él. Probablemente no sería muy diferente a la fotografía HDR actual, pero no tendría que tomar varias imágenes.

El problema no son los bits por color: eso define la cantidad de tonos distintos, pero no dice nada sobre el rango general.
@mattdm verdadero; pero el rango general es una función del dispositivo de salida independiente de los datos de la imagen en sí. El brillo y la relación de contraste en mi pantalla son una función de, y solo conocida por mi pantalla, y no están influenciados por la cámara que usé para tomar la foto. De nuevo, los dispositivos de salida son el factor limitante, no las cámaras. Sin embargo, los bits por color influyen en el rango en el sentido de que aumentar su rango sin aumentar la cantidad de niveles dentro del rango solo le brinda una imagen más brillante/oscura sin permitirle ver nada más dentro de ella.