¿Cómo estructura el cerebro los datos visuales en 3D?

Adobe Illustrator ha tardado más de cinco minutos (y contando) en renderizar una imagen 2D vectorial rotada 18° en 3D en mi computadora. Y, sin embargo, yo y casi cualquier otra persona podemos visualizar fácilmente que el sujeto gira casi instantáneamente y, con poco esfuerzo, rotar el objeto continuamente en tiempo real en el ojo de la mente.

flamenco giratorio

No estoy preguntando cómo almacena el cerebro las representaciones de los objetos, ya que eso es claramente un tema de debate. Pero, ¿cómo estructura el cerebro su representación interna de datos visuales en 3D?

Es casi seguro que no está en algún formato basado en píxeles, como se puede mostrar simplemente visualizando un objeto de algún tipo, y luego haciendo zoom mentalmente en algún detalle y notando que la imagen conserva su nitidez. Probablemente tampoco es descomponer objetos en formas geométricas, porque al menos yo personalmente no visualizo a mis amigos como figuras de palitos. Podría ser un formato vectorial , pero entonces debería ser más fácil visualizar formas complejas que son matemáticamente simples, como esta:

Forma compleja pero matemáticamente simple

Entonces parecería que el cerebro usa algún otro formato. Según el mejor conocimiento de la cognición moderna, ¿cómo funciona esto?

Nuestra imagen visual es en 2D, similar a una cámara normal, pero hay muchos factores que nos permiten interpretar el mundo como 3D. Estos son, entre otros, el tamaño del objeto (los objetos más lejanos suelen ser más pequeños), el orden del objeto (algún objeto está detrás de otro) y el movimiento relativo (los objetos más cercanos se mueven más rápido en el panel 2D que los objetos más lejanos). Dadas nuestras muchas áreas visuales especializadas (V1-V6, etc.), esto en la mayoría de los casos sucede inconscientemente. PD: El hecho de que no uses figuras de palitos conscientemente, no significa que tu cerebro no lo haga.
@RobinKramer Realmente no estoy preguntando sobre la visión, la pregunta es sobre cómo el cerebro almacena datos visuales. Imagina a tu mejor amigo. Probablemente puedas darle vueltas, levantar o bajar los brazos, las piernas y la cabeza, y de otro modo construir películas en tu cabeza con esta persona. Ese tipo de comprensión de los objetos 3D es difícil de lograr para las computadoras y, sin embargo, nosotros (y probablemente al menos algunos mamíferos) podemos hacerlo de forma natural, sin esfuerzo y de manera efectiva al instante. Sin necesidad de entrar en el proceso electroquímico mediante el cual se almacenan los objetos (a menos que realmente lo desee), ¿en qué "formato" se encuentran estos datos?
El hecho de que piense que está simulando mentalmente un objeto 3D no significa que el objeto sea realmente 3D en su cabeza. Eso requeriría una gran cantidad de información perceptual. Por lo general, la mayoría de la información almacenada se basa en preceptos globales y preceptos locales que permiten una identificación más específica. (sesgo perceptivo global) Entonces, dado que la información visual que está manipulando no es accesible estructuralmente (como en el dibujo), está manipulando los preceptos que ha almacenado previamente (según sea necesario para identificar el objeto)
@Dog, la noción de que los datos visuales son mentalmente 2D pero interpretados usando reglas acostumbradas a 3D parecería contrario a la experiencia simple. Es muy fácil imaginar un objeto y describir su forma en tres dimensiones, pero describir su forma en dos dimensiones desde cualquier ángulo en particular es difícil (piense en un automóvil, fácil de visualizar en tres dimensiones, difícil de delinear en dos). tendría que decir que no estoy de acuerdo
La respuesta final para esto sería que se almacena como una estructura de red ponderada (altamente compleja). Lo siento si esta respuesta es decepcionante, pero esa es realmente la respuesta. Puedo explicar más sobre cómo el cerebro procesa las imágenes, desde la retina, a través de la detección de funciones y la retroalimentación de arriba hacia abajo, pero no estoy seguro de que esto responda a su pregunta.
¡Buena pregunta! Creo que la especulación y el misterio de cómo hacemos esto es un buen ejemplo de por qué la visión/imágenes humanas es un problema tan difícil para la ciencia cognitiva. Un par de puntos: (1) La introspección no es una gran evidencia de cómo sucede esto en el cerebro. No se siente basado en píxeles/formas, pero estos mecanismos probablemente no estén abiertos a la introspección consciente. (2) El tipo de "formato"/representación es una cuestión clave en los modelos de reconocimiento de objetos, por lo que le gustaría ver el trabajo de Tarr y Biederman y el debate entre los modelos "dependientes de la vista" y "independientes de la vista".
En realidad, deberías preguntarte si existe alguna evidencia empírica de que las personas pueden rotar las cosas sin problemas, como sugieres. Hay algunos artículos clásicos sobre la "rotación mental" que le gustaría consultar para esto. Dudo que seamos tan buenos como crees (no tengo ni idea de cómo es la nuca de mi amigo).

Respuestas (1)

Esta pregunta no puede responderse en la forma en que la formulaste tanto por los límites de las teorías y metodologías neurocientíficas actuales a la hora de determinar las estructuras de representaciones neuronales complejas (aunque hemos avanzado en algunos casos, como las células de lugar y celdas de cuadrícula), y porque las representaciones neuronales no son realmente análogas a nuestros conceptos coloquiales de asignaciones simples de números a imágenes (por ejemplo, píxeles, vectores, ondículas, etc. bases para la representación de imágenes digitales).

Le animaría a pensar, no sólo en términos de estos formatos de representación privilegiados por las arquitecturas informáticas de estilo Von Neumann (es decir, computadoras normales) con procesamiento separado y sistemas de memoria digital, sino en términos de una computadora neuronal con computación y memoria distribuidas. Los neurocientíficos suelen pensar que la representación neuronal en la percepción visual ocurre en una serie de etapas de mayor abstracción. En la retina , la imagen se representa aproximadamente en términos de lo que podría pensarse como píxeles, pero en realidad es solo un conjunto de fotosensores y neuronas conectadas que se activan debido a que la luz golpea la retina en diferentes lugares a diferentes frecuencias y amplitudes. En V1 o corteza visual primaria, la representación es en términos de lo que se puede considerar como "detectores de borde". En V2, las celdas se ajustan para una variedad de propiedades un poco más complejas, como la orientación, la frecuencia espacial, el color y la disparidad binocular (una información importante para la percepción 3D). A medida que avanza por V3, V4, V5 , y V6, las representaciones se vuelven cada vez más complejas hasta que contienen información sobre la estructura del propio concepto subyacente.

La tridimensionalidad no aparece hasta que la información visual de ambos ojos se combina con información de arriba hacia abajo sobre cómo tienden a ser las cosas en el mundo (que también proviene de otros sentidos y experiencias) para inferir la forma probable de el objeto. No está claro si hay algún lugar en el cerebro donde una imagen se represente explícitamente como un modelo 3D de un objeto visual. Es más probable que los datos de percepción sin procesar, como colores y patrones, se representen en un área y se asocien con la representación estructural más centrada en el objeto en otra área y esta asociación provoque la coactivación de todas las neuronas relevantes para la percepción del objeto en es una forma tridimensional.

También podemos pensar en esto en términos de la teoría contemporánea de la percepción enactiva, que establece que el cerebro representa la información en términos de contingencias de estado-acción-observación. En esta teoría, no hay ninguna "imagen" presente en absoluto, sino solo un conjunto de activaciones neuronales que se correlacionan con la experiencia previa (donde las correlaciones se almacenan en términos de vínculos asociativos entre neuronas que crean un camino de activación causal a lo largo del cual viaja la "información" ) y relaciones entre acciones potenciales (ya sea acciones motoras de bajo nivel de la retina u otros músculos,

Si desea leer más, estas fuentes deberían ser un buen comienzo: memoria neuronal distribuida , representación neuronal distribuida de un proceso de orden superior , percepción como asociaciones entre acciones y observaciones

También hay algunas fuentes que ofrecen evidencia experimental directa sobre su pregunta, pero no brindan una introducción conceptual a la computación y representación neuronal. Consulte "Cálculos neuronales subyacentes a la percepción de profundidad" , Percepción de profundidad binocular y la corteza cerebral como punto de partida.

Su pregunta también hace referencia a la rotación de un objeto "en el ojo de la mente". También hay un gran cuerpo de investigación sobre este fenómeno, que se llama "rotación mental". El artículo de wikipedia es un buen lugar para comenzar, pero hay mucho más que decir sobre este interesante fenómeno, ¡así que no dude en hacer una pregunta relacionada si tiene curiosidad!

Esta es una respuesta fantástica, y me gusta especialmente la interpretación de la percepción enactiva, que implicaría, por ejemplo, que los datos visuales adjuntos a un ser humano son una combinación de datos 2D, datos 3D e información general sobre las formas de los humanos en general, que se puede usar para construir un modelo mental aproximado (y bastante preciso) de estructuras que no se almacenan en su totalidad en imágenes 3D como uno pensaría ingenuamente. Los enlaces también son bastante excelentes. ¡Siéntase libre de agregar más!
¡Gracias! Agradezco los comentarios y me complace poder contribuir a sus pensamientos sobre esto. Es posible que esté escribiendo una entrada de blog de este tipo en un futuro próximo. Te vincularé si y cuando lo haga.
Parece que todavía estoy esperando que la ciencia se ponga al día :) ¿Alguna vez escribiste esa publicación de blog?