¿Qué métricas de calidad de imagen/cámara/lente son relevantes para resolver sujetos humanos?

Estoy intentando recopilar datos con fines históricos creativos. Sin embargo, soy un científico informático, no un físico o un fotógrafo, y parece haber un montón de consideraciones.

El entorno es el piso inferior de una zona de carga del aeropuerto con poca luz. Necesito poder reconocer ("resolver") a una persona a una distancia de 30 a 40 m en un cuadro de al menos 30x60 píxeles con un aumento de 1x. Idealmente, la profundidad de enfoque será de unos 20 ma 60 m.

Con estas calificaciones en mente, ¿en qué métricas debo estar interesado al comprar una cámara y/o lente?

Además de la profundidad de campo, la resolución y la iluminación, ¿hay alguna consideración que pueda agregar, o que debería considerar, que me estoy perdiendo por completo?

Hola Scott, Bienvenido a intercambio de pila de fotografía. Eliminé las referencias del video para cumplir con el tema de la fotografía, que aún le brindará lo que necesita saber sobre el tema.
Voy a votar para cerrar esta pregunta como fuera de tema porque se trata de usar una cámara para realizar mediciones con un propósito que no sea producir imágenes con fines creativos o históricos.
@MichaelClark, la página de ayuda no establece explícitamente que solo se permiten motivos creativos o históricos. En cualquier caso, los motivos son absolutamente irrelevantes para la pregunta, así que inventaré algo para que te sientas mejor :).
@Scott También hay una gran cantidad de metapreguntas /respuestas que ilustran el deseo general de la comunidad sobre este punto.
¡Hola Scott! Usted notó en meta que está interesado en el aspecto fotográfico aquí, aunque con fines científicos y no "creativos o históricos". El problema no son los motivos , sino de qué se trata la pregunta en sí. Suele ocurrir que estos terminan siendo problemas "XY", donde la fotografía no es realmente parte de la respuesta. Pero veamos qué podemos hacer aquí. :) Tengo un par de preguntas inmediatas...
Normalmente nos preocupamos por el tamaño y los detalles en un tamaño de visualización particular, no por el tamaño de un objeto en píxeles. La resolución del sistema incluye factores como la nitidez de la lente, las aberraciones, el enfoque, la profundidad de campo, el ruido y el tamaño de píxel del sensor. En algunas condiciones, se podría "resolver" que una persona tiene solo 20 píxeles de alto pero es perfectamente reconocible como una forma humana en una inspección cercana; en otros, una persona podría estar representada por algo de 3000 píxeles de alto que parece una mancha indiscriminada de cerca, pero parece una figura a una distancia de visualización mayor. ¿Qué necesitas realmente?
También dices "idealmente con una profundidad de enfoque de 20 ma 60 m más o menos". ¿Quiere decir que necesita tener un punto focal fijo que abarque toda esta profundidad de campo, o necesita poder enfocar en este rango?
Finalmente, su pregunta originalmente hacía referencia al video. Tenga en cuenta que la mayoría de las cámaras de consumo capturan video con una resolución mucho más baja que las imágenes fijas, y lo hacen de diferentes maneras (a menudo omitiendo por completo filas de píxeles). Y la compresión cuadro a cuadro también puede dificultar su análisis. ¿Está planeando realmente hacer una serie de fotografías fijas o capturar videos?
@mattdm, este es un buen punto. No necesito nada en sí. Estoy interesado en obtener una forma razonablemente humana de un ser humano, a 40 m. Según mi experiencia, un ser humano en al menos un cuadro de 30x60 es bastante reconocible y, dado que no estoy familiarizado con todas las métricas disponibles, tengo que trabajar con píxeles. Como señala, si mi imagen es borrosa, entonces el ser humano será irreconocible en cualquier cuadro de tamaño, por lo que existen otras métricas importantes.
OTOH, también me gustaría capturar el área circundante, por lo que no es suficiente simplemente colocar una lente x20. Para una imagen de 1MP, capturar a un humano a 40m en un cuadro de 30x60 implica un zoom de ~1x... creo. :)
¿ Cuánto del área circundante? Como señala la respuesta de twalberg, esa es probablemente una preocupación mucho mayor que hacer que la gente sea lo suficientemente grande.
En cualquier caso, como estamos de acuerdo, "qué tan borroso" es una métrica interesante para esto. ¿Cuál es el término técnico para esto y qué cantidad de "qué tan borroso" podría ser bueno para resolver un humano de 30x60?
Por "profundidad de enfoque de 20 m a 60 m", quiero decir, para una sola imagen, me gustaría que las cosas entre 20 m y 60 m no fueran demasiado borrosas, en nuestra métrica de "qué tan borrosa". :)
"¿Cuánto del área circundante?" Cuando originalmente hice mi pregunta, no estaba considerando la posibilidad de una gran ampliación. Editaré para mejorar.
"resolución mucho, mucho más baja que las imágenes fijas"... ¿se aplica esto a métricas además de 'resolución' en términos de MP? Si decido tomar un video en lugar de imágenes fijas, ¿podría aumentar también el "qué tan borroso"?
Sí, por dos motivos: en primer lugar, la forma en que las cámaras reducen la resolución suele ser descartando líneas completas del sensor, por lo que la pérdida real de datos es mayor que la de la reducción de resolución. Segundo, compresión de video.
@mattdm, hemos logrado a través de muchas discusiones obtener una "métrica en la que debería estar interesado"... a saber, "ampliación". Si alguien escribiera el término "aumento" como respuesta, lo votaría a favor. :) Posiblemente esto ilustre lo que me interesa. Probablemente pueda investigar cuánto aumento necesito por mi cuenta. Sin embargo, ni siquiera sé qué métricas analizar.
Aparte de todo lo demás, las "métricas de calidad de imagen para la investigación" realmente no describen la pregunta. ¿Podría editar el título para ser más específico?
hola Scott, por favor no consideres que las reglas son formalidades aquí. Lo que está preguntando es un problema de ingeniería subespecificado, y la configuración de la cámara será su menor preocupación (créame). Le sugiero que consulte los artículos científicos sobre el reconocimiento de objetos, como punto de partida.
@aaaaaa Estoy familiarizado con la literatura sobre detección de objetos. "La configuración de la cámara será su menor preocupación", sé que esto no es cierto, ya que he tenido un éxito muy variable en imágenes con diferentes resoluciones.
entonces debe proporcionar "creo que XYZ debido a WQE. ¿Es razonable?"

Respuestas (2)

Comenzando con una altura de imagen deseada de 60 píxeles en un sensor, debemos comenzar con un sensor en particular en mente: usando mi 7D Mark II como ejemplo, el sensor tiene 15 mm de altura y produce una imagen de 3648 píxeles de alto, eso es 243.2 píxeles /mm, lo que significa que su imagen de 60 píxeles cubre alrededor de 0,25 mm en el sensor, o alrededor del 1,67 % de la altura total de la imagen. Eso significa que, para que, digamos, un ser humano de 1,8 m de altura a 30-40 m se asigne a esa altura en el sensor, el campo de visión vertical total será de unos 108 m, lo que a una distancia de 30 m implica un ángulo de visión de unos 74,5 grados (o 69,7 grados a 40 m de distancia). Eso es el equivalente a una lente de 10 mm para una distancia de 30 m, o una lente de 11 mm para una distancia de 40 m. Esas son lentes muy gran angular. Entonces, la conclusión es que va a tener dificultades para obtener las imágenes de las personas quepequeña a esa distancia. Una lente más normal , digamos de 24-50 mm, dará una imagen más grande de la persona de lo que estabas pidiendo. Si eso es un problema, siempre puede reducir la escala de la imagen en el procesamiento posterior, o usar un modo de resolución más baja de la cámara, o algo así.

En cuanto a la profundidad de campo (hay muchas calculadoras en línea o aplicaciones móviles para esto), para obtener una profundidad de campo de 20 m a 30 m con una lente de 50 mm se requiere aproximadamente f/1.4; a 40m solo requiere f/1.0. Una profundidad de campo de 60 m sería f/2.8 o f/1.8, respectivamente. Por lo tanto, incluso los lentes f/4-5.6 relativamente lentos le darán mucha profundidad de campo.

Disculpas. Por cuadro de 30x60, quiero decir al menos 30x60, porque de lo contrario, nuestro software no detectará a los humanos. Editaré mi pregunta para reflejar esto. Esto sugiere, creo, que su 7D Mark II tendría un humano de 30x60 a una distancia mucho mayor. ¿Quizás 80m más o menos?
Además, de su respuesta parece que la apertura es lo que me proporciona la profundidad de campo. Sin embargo, la apertura también se relaciona con mi problema de iluminación. ¿Es correcto que el contraste y la profundidad de campo sean una compensación? ¿Cuál es la relación aquí?
@Scott La profundidad de campo está determinada por 1) apertura, 2) distancia al sujeto, 3) distancia focal de la lente y 4) presentación final de la imagen (es decir, vista en una pantalla desde medio metro de distancia, o impresa en una pared y vista desde 50 metros, o...). El contraste es más una función de tener suficiente iluminación y del ruido introducido por ISO (amplificación del sensor), suponiendo que la escena tenga suficiente contraste para empezar.
@twalberg DoF está determinado por dos cosas: apertura y aumento. La ampliación total es el resultado de la distancia focal + la distancia del sujeto + el tamaño del sensor + la relación de ampliación necesaria para mostrar en un tamaño específico + la distancia de visualización. Todo eso determina el tamaño angular visto por el espectador.
Tenga en cuenta que la profundidad de campo es algo perceptivo: la lente solo puede enfocar en un plano. Hay un cierto umbral donde todo está enfocado en la medida de la resolución de los sistemas, y otro umbral donde todo está "lo suficientemente enfocado" para un observador dado en condiciones particulares.
@mattdm La forma del campo de enfoque para cualquier cosa que no sea una cámara estenopeica o una lente teórica con grosor cero no es un plano, es un campo de enfoque. Es decir, a menos que uno considere una porción de la superficie interna de una esfera como un "plano".

Me gustaría centrarme en sus problemas de profundidad de campo y cómo se relaciona con ISO. Si solo le preocupa una "profundidad", per se, o la distancia de la cámara, esto no será un problema. La razón de esto es que no importa qué tan borroso sea (o no lo sea) el fondo, el sujeto siempre estará enfocado. Sin embargo, si también está interesado en capturar sujetos más cerca que esa distancia, querrá asegurarse de no tener un número f / stop demasiado bajo (una apertura demasiado amplia). Si está utilizando un sensor pequeño o una lente gran angular, esto no debería ser un problema si mantiene el número por encima de f/1.4 más o menos. Sin embargo, si elige usar un teleobjetivo para ampliar más, podría tener problemas con una profundidad de campo más estrecha.

Sin embargo, asumo que, dado que está recopilando estas fotos con fines científicos/históricos/datos, estará menos preocupado por tener el efecto bokeh de "fondo borroso" y más preocupado por tener todo lo más nítido posible. Aquí es donde entra en juego el ISO. Para lograr una mayor profundidad de campo, con más enfoque, tendrá que usar una apertura más pequeña (número f/stop más alto). Eso significa que hay un orificio más pequeño en la lente para que entre la luz, y necesitará más amplificación digital o ISO. Las cámaras más nuevas generalmente funcionan mejor con ISO que las más antiguas, ya que esta tecnología ha mejorado drásticamente en los últimos años. Una búsqueda rápida en Google con cualquier nombre de DSLR y "rendimiento ISO" le dará información sobre cómo funciona esa cámara cuando tiene que amplificar la señal.

Dicho esto, para sus propósitos, una Nikon D3100 usada con una lente barata probablemente haría el trabajo. (No estoy familiarizado con Canon, así que no puedo hablar con su alineación).

Finalmente, sin embargo, una distancia de 90 a 120 pies no es escandalosa de ninguna manera. No sé exactamente a qué te refieres con "luz tenue", y no sé qué tan reconocible necesitas que sea la gente, pero si no está completamente oscuro, y no necesitas hacer reconocimiento facial, casi cualquier Las DSLR modernas podrían conseguirle lo que necesita allí. Su próxima consideración podría ser el punto de precio (y si puede usar el mismo sensor para video, aunque eso está fuera de tema aquí).

Teniendo en cuenta el precio: mira las cámaras de los teléfonos. Por ejemplo, se puede tener un iPhone SE usado al momento de escribir en eBay por alrededor de $ 80, y parece funcionar bastante bien en otros lugares que no sean completamente negros. Una ventaja aquí es que el tamaño del sensor es tan pequeño que no necesita preocuparse por la profundidad de campo. Para cualquier apertura que el iPhone pueda hacer, todo lo que supere los 6 pies estará enfocado.

Así que en resumen:

  1. Compruebe la resolución . Por debajo de unos 10 MP no estarás contento. 12 MP es mejor. Para cualquiera de estos, solo asegúrese de obtener un campo de visión ajustado de 35 mm de alrededor de 24 mm o más. Esta sigue siendo una lente muy ancha. 20MP o más es un poco excesivo para sus requisitos, pero si elige ese camino, puede elegir 10 mm más o menos (aunque estos generalmente son lentes especiales por los que paga más, son muy anchos).

  2. ¿Qué profundidad de campo necesita y, por lo tanto, qué apertura e ISO debería buscar? Si opta por una DSLR, solo obtenga su lente barata común y corriente, y estará listo. Apertura bastante pequeña (f/4 o superior) y un buen campo de visión para lo que estás haciendo (24-55 mm debería ser lo correcto). No te preocupes por esto para las cámaras de los teléfonos.

  3. Mira opciones baratas . Para lo que estás haciendo no necesitas una cámara de $30000. Ni siquiera necesitas una cámara de $3000. Puede que ni siquiera necesites una cámara de $300. Dependiendo de si necesita hacer reconocimiento facial y qué tan oscuro es exactamente, algo tan barato como un viejo iPhone podría hacer el trabajo perfectamente. (Bonificación: capacidades de video).