¿Cuáles son las dificultades técnicas para construir un sensor con un alto rango dinámico como el ojo humano?

¿Por qué todavía no tenemos sensores de alto rango dinámico que tengan la exposición correcta en cada parte de una imagen?

En realidad, después de responder, vi que esto ya se había discutido aquí . Si eso no responde todo para usted, considere ampliar su pregunta con más detalles.
Una cámara BlackMagic (video full HD) tiene un EV de 14, las cámaras de video profesionales modernas (4K) tienen 18 EV. Así que tenemos estos sensores...

Respuestas (4)

Ya hay cámaras con DR más grandes que el ojo humano, tanto al instante como en general. El rango dinámico del ojo humano no es tan grande como la mayoría de la gente tiende a pensar que es. Según recuerdo, está entre 12 y 16 EV, que está a la vuelta del nivel de una DSLR moderna.

La principal diferencia es que tenemos un control de apertura extremadamente natural que se ajustará a diferentes partes de la imagen. Efectivamente, nuestros cerebros apilan imágenes automáticamente. Cuando miramos la parte brillante de una escena, nuestras pupilas se contraen y vemos el detalle de la parte brillante. Si cambiamos el foco a la parte más oscura, nuestras pupilas se abren rápidamente y vemos el detalle de la parte oscura. Nuestro cerebro sabe cómo se veía la parte anterior y, por lo tanto, no notamos el cambio en nuestra visión periférica, pero en realidad ya no estamos viendo tantos detalles donde ya no estamos enfocados.

Del mismo modo, incluso para el rango general de la visión humana, hay cámaras especializadas que pueden oscurecerse mucho más que nosotros y aún así ver, particularmente en color, actualmente son demasiado caras para producirlas para el público en general, ya que requieren materiales y construcción de muy alta calidad para obtener el piso de ruido súper bajo. También hay sensores capaces de mirar objetos muy brillantes que serían dolorosos de mirar para las personas.

AJ, DSLR no tiene el mismo rango dinámico que el ojo. para DSLR es 2 en potencia de 14, para ojo humano es 10 en potencia de 14
@RomeoNinov: no para DR instantáneo, solo aparente. ¿Tiene una fuente para su reclamo? Mi fuente está aquí "si tuviéramos que considerar el rango dinámico instantáneo de nuestro ojo (donde la apertura de nuestra pupila no cambia), entonces las cámaras funcionan mucho mejor. Esto sería similar a mirar una región dentro de una escena, dejar que nuestros ojos se ajusten y sin mirar a ningún otro lugar. En ese caso, la mayoría estima que nuestros ojos pueden ver entre 10 y 14 f-stops de rango dinámico".
@RomeoNinov: un recurso ligeramente mejor . Por lo tanto, vale la pena señalar que a nuestros ojos les va mejor donde las cámaras funcionan mal, pero a nuestros ojos les va peor donde las cámaras funcionan mejor. En las sombras, tenemos 20 EV mientras que las cámaras tienen EV reducidos. En brillo tenemos alrededor de 10 EV, pero las cámaras tienen sus 12 a 14 EV completos. El 10 ^ 14 es el rango total que podemos ver cuando nuestros ojos se ajustan, no lo que vemos en un momento dado. Y en ese sentido, las cámaras tampoco están limitadas a 2^14.
sí, las cámaras están limitadas a la profundidad de bits de su imagen sin procesar. No puede obtener más bits o más información de la imagen. Estoy de acuerdo en que la imagen que el cerebro "ve" no proviene de una sola instantánea del ojo, además, usamos dos ojos, que agregan mucha información adicional a la imagen en el cerebro. Y en el recurso que menciona en el segundo comentario, ve el rango dinámico del ojo que se muestra en potencia de 10. Lo que solo confirma mis palabras. Incluso si DR es solo 12 EV, es 10 ^ 12, que es un millón de millones, en comparación con 2 ^ 14, que es 16384
@AJHenderson: si los números registrados por una cámara varían linealmente con el nivel de luz, la profundidad de bits y el rango dinámico coincidirán. El procesamiento de imágenes a menudo requiere el uso de una representación numérica lineal; mientras que una especificación de almacenamiento de imágenes podría usar algo como la codificación u-law para lograr un rango dinámico de aproximadamente 4000: 1 con un formato de 8 bits, no conozco ninguno que lo haga.
@AJHenderson: el rango dinámico útil está limitado por el tamaño del paso entre los dos valores más bajos. Si los valores numéricos varían linealmente según el nivel de luz, los tamaños de paso deben ser uniformes en todo el rango. Desde un punto de vista práctico, la diferencia entre, por ejemplo, el 0,3 % y el 0,4 % de la intensidad máxima puede ser mucho más significativa que la diferencia entre el 90 % y el 95 %, pero una escala lineal que pudiera distinguir entre el 0,3 % y el 0,5 % tendría que tener 49 valores intermedios entre 90% y 95%. Usar una escala no lineal evitaría ese problema, pero...
@AJHenderson: Usar una profundidad de bits alta no implica que uno tenga un rango dinámico útil grande, pero si uno muestrea linealmente una señal con 8 bits cada uno para rojo, verde y azul, la diferencia perceptible más pequeña entre los brillos de píxeles será 1/ 255 del brillo máximo. La conversión de datos a un formato no lineal de 8 bits no implicaría una gran pérdida de rango dinámico, pero es más difícil trabajar con datos no lineales.
@supercat: está bien, veo lo que dices. Incluso si el sensor pudiera leer más bajo, en realidad no puede describir lo que está viendo lo suficientemente bien. Eso último hizo más claro lo que estabas diciendo. Por lo tanto, el DR significativo es la siguiente medida más baja hasta la siguiente más alta. Potencialmente, podría sentir más allá de eso, pero no tendría la capacidad de almacenar información significativa para ello.
@RomeoNinov: ¿dónde ves 10 ^ 14? Veo 10 ^ 9, que es el rango estático general, no el rango que se puede ver en un momento dado.
@AJHenderson: diría que para un sensor sin ruido, el rango dinámico significativo se extiende desde el valor más bajo que se distingue del mínimo del sensor, hasta el más grande que se distingue del máximo del sensor. En muchos casos, esos valores estarán media unidad más allá de los valores nominales para las lecturas segunda más baja y más alta. Un sensor con ruido de forma adecuada puede extender su rango dinámico a frecuencias espaciales más bajas más allá de eso, a expensas de reducir el rango dinámico a frecuencias espaciales más altas.
Pero incluso un sensor severamente limitado a, digamos, un DR de seis paradas en cualquier momento puede usarse para medir detalles desde valores muy oscuros a muy brillantes en cuadros sucesivos alterando la Tv y Av. En términos de apertura, eso es lo que hace el sistema ojo/cerebro.

Ver es un proceso activo.

Un gran problema es que mirar con los ojos es muy diferente a capturar una imagen: una imagen debe incluir toda la información que el observador puede ver, pero la visión normal es un proceso activo que implica el movimiento de los ojos, el reenfoque y la dilatación de las pupilas según a los objetos que estamos mirando. Por lo tanto, si desea capturar "lo que ve el ojo", necesita, en esencia, capturar el punto de vista con todos los ajustes que el ojo pueda usar.

Su pregunta es sobre el rango dinámico, pero aparece el mismo problema con el detalle visual y el enfoque. Una imagen 'equivalente a la vida' necesita muchos, muchos más píxeles de los que su ojo puede capturar, ya que la resolución del ojo es muy desigual y mientras mira solo un pequeño punto con su retina media de alta resolución, una imagen necesita más detalles disponibles ya que moverá los ojos. Las películas deben elegir un solo enfoque, mientras que un ser humano puede ver una "imagen única" con más profundidad al volver a enfocar rápidamente los ojos y/o moverlos para obtener una visión binocular adecuada en diferentes rangos previstos (por ejemplo, mirando la superficie de una ventana o a través de ella). ), etc.

Parte de la solución es exactamente eso: usar una sola cámara varias veces rápidamente (o varias cámaras) para capturar una variedad de imágenes en diferentes configuraciones y fusionarlas después, HDR es el ejemplo más evidente: tal como lo hace nuestro ojo, mira activamente en varios lugares diferentes con diferentes "configuraciones", y solo después su cerebro fusiona todo en una imagen o película coherente. Las "imágenes" reales tomadas por nuestros ojos ya son peores que las buenas cámaras, simplemente la combinación mental de ellas es agradable.

+1 por su punto sobre el enfoque en las películas. Esto también está relacionado con una de las principales razones por las que muchas personas tienen dolores de cabeza al ver películas en 3D. El ojo debe enfocarse físicamente en la pantalla, pero la imagen estereoscópica engaña al cerebro para que piense que algunas partes de la pantalla están más cerca o más lejos de lo que realmente están, lo que provoca fatiga visual cuando intenta mirarlas directamente. Los estudios intentan minimizar esto mostrando el punto focal de la escena en el mismo lugar tanto en la imagen izquierda como en la derecha. Entonces, si te gusta mirar los detalles de fondo, ¡no olvides el ibuprofeno!
El hecho de que ver sea un proceso activo es una de las razones por las que los artistas realmente buenos pueden producir pinturas que se ven mejor que una simple fotografía. Una fotografía simple capturará todo en la escena con las mismas características de punto de vista, enfoque, exposición y balance de blancos, mientras que los ojos de alguien que realmente estaba viendo la escena pueden ajustarse constantemente mientras miran diferentes partes. Un pintor, a diferencia de una cámara, puede producir una imagen en la que cada parte de la escena se ve como si fuera una persona que estaba realmente en ese lugar, mirándola.

Su imagen mental es el producto no solo de la retina, sino de su interacción con todos los demás componentes involucrados en la visión, incluida la pupila y, por supuesto, su cerebro. Lo que puede parecerle una 'imagen única' es, de hecho, el resultado de ajustes de alta velocidad y procesamiento de información, y no una sola instantánea.

Puede encontrar más información sobre este tema aquí .

Es completamente posible hacer un sensor de luz con propiedades logarítmicas; dicho sensor tendría un rango dinámico increíble a expensas de una resolución limitada para una exposición particular. Obtener ambos requiere un ADC de alta resolución. Para la tomografía computarizada, normalmente se usa 24 bits lineales, y luego se toma el logaritmo después del ajuste de compensación para crear la imagen de la tomografía computarizada.

Un sensor que controle la exposición (tiempo de integración, piense en la velocidad de obturación) puede funcionar mejor, y si permite cambios en la eficiencia de recolección de luz (piense en el número f), obtendrá una flexibilidad aún mayor.

El rango dinámico final generalmente está limitado por el ruido de lectura (cuando lee la carga acumulada habrá algún error) en comparación con la señal más grande que puede admitir la electrónica. Como dije, 24 bits son comunes en imágenes médicas y eso es mejor que 1 parte en 10 millones. Ese es un rango dinámico mucho más alto que el de la retina para una exposición dada. Pero no se usa comúnmente en cámaras convencionales porque el ojo no puede apreciar esos detalles en la imagen, y la resolución se logra a expensas de la velocidad.