Vía y arquitectura de la corriente ventral propuesta por el grupo de Poggio

Por favor, ¿me puede dar una explicación muy breve sobre todas las funciones en la arquitectura de flujo ventral resumidas en esta figura?ingrese la descripción de la imagen aquí

Esta figura es de Serre et al.'s Una teoría cuantitativa del reconocimiento visual inmediato . Prog Brain Res. 2007.

Leí varios artículos sobre este modelo, pero todavía no entiendo el objetivo básico, especialmente detrás de las dos operaciones (operaciones de tipo gaussiano y de tipo máximo). Así que, por favor, alguien me puede explicar en detalle la vía de la corriente ventral ( de V1-V2-V4-IT-PFC) incluidas las dos operaciones en este modelo.

Por ejemplo: no entiendo cómo se construyen las celdas en S1...

El título es engañoso. Este es solo UN modelo del procesamiento de flujo ventral entre muchas posibilidades. ¿Puedes ser más en cuanto a qué referencias lees? Parece una arquitectura de aprendizaje profundo convolucional, pero necesita contarnos más.
Gracias por su respuesta. ¿Puedes decirme en detalle qué sucede en esta imagen? (en S1, C1, etc.) . Gracias de antemano.
La imagen no dice mucho. Parece que está alternando la búsqueda de características lineales locales y luego agregando las mismas características en el espacio. Debe indicarnos dónde obtuvo la imagen, y si también pudiera escribir las ecuaciones que ayudarían. ¡No hay suficiente información de la imagen!
edité mi foto... solo necesito el concepto
donde conseguiste la foto
en mi pregunta de arriba
Creo que @Memming te pide que le des crédito a la fuente de la imagen, ¿de dónde descargaste esto?
Hice ediciones a su pregunta para incluir referencias adecuadas. Espero que estés de acuerdo con mis cambios.

Respuestas (1)

Esta es una arquitectura típica de computación propuesta como modelo para el flujo ventral de procesamiento visual en primates . Tiene una larga historia (p. ej., Neocognitoron de Fukushima fue en 1980 ) y sigue siendo ampliamente aceptado en el aprendizaje automático (p. ej., aprendizaje profundo ) y la neurociencia.

neocognitrón

Está motivado por la organización de células simples V1 y células complejas. Las células simples en V1 pueden considerarse aproximadamente como detectores de bordes en una ubicación retiniana específica. Es por eso que en la figura que cita, se representan como un círculo con una barra (un campo receptivo de dibujos animados). Las celdas simples solo pueden detectar cosas muy localmente, lo que significa que si el borde aparece en una ubicación diferente en su campo de visión, no responderá.

Matemáticamente, puede pensar en un filtro espacial que detecta un borde (por ejemplo, un parche de Gabor orientado) multiplicado por su imagen retinal y sumado. Por ejemplo, el filtro a continuación detectará coincidencias con una barra de 45 grados alineada en el área de colores vivos, pero tendrá menos actividad si la barra se desplaza fuera de la posición específica.

parche de Gabor orientado

Las celdas complejas en V1 , por otro lado, siguen siendo un detector de bordes, pero tienen cierta invariancia de ubicación. En otras palabras, cuando el borde se desplaza ligeramente, la respuesta de las celdas complejas no parece cambiar. Se cree que esto se debe a que las células complejas extraen de múltiples células simples con la misma orientación. Esto es lo que ve en su figura, donde una sola celda compleja extrae información de celdas simples con la misma orientación pero en diferentes ubicaciones.

Matemáticamente, una operación soft-max o una operación max sobre las salidas de celda simples puede conducir a un buen modelo de celda complejo. Pero, no se limita a tales operaciones. De hecho, los modelos cuadráticos u otros modelos no lineales también se utilizan ampliamente en la neurociencia computacional.

La jerarquía completa para la corriente ventral se obtiene simplemente extendiendo repetidamente usando la analogía de célula simple-célula compleja. Para cada pila, la capa de celda simple extrae alguna característica local (al calcular la salida de la celda compleja de la capa anterior), y la capa de celda compleja la hace invariable en el espacio. Desde los bordes en V1, uno puede obtener esquinas en la siguiente capa, luego contornos complejos y todo el camino hasta los objetos. Al menos así es como va la historia.

No sé cómo agradecerte esta respuesta. Realmente lo aprecio mucho... Pero todavía no entiendo algunos detalles, les diré mi opinión en el segundo comentario.
Sé que en el área v1 tenemos celdas simples y complejas. cada celda simple recibe algunas entradas del Núcleo Geniculado Lateral (LGN). Estas entradas se combinan con una sintonía en forma de campana (sintonización tipo gaussiana) con la orientación preferida. Y todos sabemos que cada celda simple puede responder a una barra orientada específica (en el caso de una sintonía tipo gaussiana, ¿la respuesta de la celda debe ser óptima? porque estamos haciendo una sintonía con la orientación preferida del campo receptivo de la célula ?).
Sin embargo, si consideramos esa imagen, ¿puede explicarme en detalle qué sucede para obtener las celdas simples sintonizadas en v1? En otras palabras, y en el caso de la imagen considerada, ¿a qué nos referimos con las entradas de una celda tan simple? ¿Hay una segmentación de la imagen antes de la operación de sintonización? no entendí el fenómeno... hay una convolución de la imagen con un filtro específico para obtener la imagen en forma de barras?? por favor necesito su apreciada ayuda :) y muchas gracias Estimado.
@Liszt De nada. La curva de ajuste de orientación se puede considerar como una consecuencia del modelo LN. Si pregunta esto en una pregunta separada, podría escribirle las ecuaciones.
@Liszt De hecho, la curva de sintonización tendría una forma de coseno, no exactamente gaussiana o von Meises ... pero se ven muy similares. Esto viene de la relación entre el producto escalar y el coseno.
para el primer paso (sintonizar las celdas simples en v1), me puede dar un ejemplo que pueda incluir en detalles y paso a paso el funcionamiento de este ajuste para obtener las celdas simples (la capa S1). Así que por favor me puedes dar este ejemplo en una imagen específica que tu elijas... Agradeceré mucho tu respuesta!! :) en caso afirmativo, ponga su ejemplo en una segunda respuesta :) no necesita hacer cálculos, solo puede darme un breve ejemplo (esquema de dibujos animados).
@Liszt, le sugiero que haga una pregunta completamente separada. Cada pregunta debe tener una sola pregunta. Así es como funciona SE. :)
ahh lo siento, entonces puedo hacer otra pregunta en este sitio, y ¿pueden responderme (para darme un ejemplo)? :) :)
@Liszt Sí, responderé tu pregunta. (a menos que alguien más lo haga) :P
Estimado Memming, ¿puede explicarme cómo se calcula la distancia euclidiana en la capa S2 entre un parche X de tamaño nxn (pero contiene nxnx4 unidades C1) y un prototipo almacenado? ¿Cómo el resultado debe ser una imagen S2? por favor necesito su ayuda :) gracias