Estoy atascado tratando de aprender a usar el procesamiento de video como se explica en los documentos vinculados en el área de detección del comportamiento humano o vigilancia del tráfico (cualquier tipo de actividad de monitoreo). En particular, no sé cómo formular el problema utilizando los modelos disponibles.
Encontré dos artículos (Haag & Nagel (2000; Artículo 1) y Arens, Gerber y Nagel (2008; Artículo 2)) que ilustran, con un ejemplo, el uso del lenguaje natural para monitorear el tráfico mediante el uso de secuencias de imágenes de videos. mi pregunta son
Haag, M. y Nagel, H.-H. (2000) " Reconocimiento incremental de situaciones de tránsito a partir de secuencias de imágenes de video ". Computación de imagen y visión 18 (2): 137-153.
Arens, M., Gerber, R. y Nagel H.-H. (2008) " Representaciones conceptuales entre señales de video y descripciones en lenguaje natural ". Computación de imagen y visión 26: 53–66.
Creo que entendiste mal, en muchos sentidos, lo que hicieron Haag & Nagel (2000; lo que llamas Paper 1) y cómo Arens, Gerber & Nagel (2008; Paper 2) lo ampliaron. La Fig. 1 de AGN08 es un buen resumen de HN00. Lo que hizo HN00 fue construir un sistema que pudiera ver un video de una intersección, detectar autos y traducir el comportamiento del auto a un marco conceptual. Como inspiración para su sistema, usaron su idea de cómo los humanos representan la tarea:
Parece que intervienen cinco niveles de representación: (i) una representación de la geometría de los desarrollos espaciotemporales en la escena del tráfico rodado, que comprende tanto una 2D en el plano de la imagen como una 3D relacionada con la escena representada, (ii) una representación de maniobras de conducción estrechamente acopladas a situaciones particulares de tránsito, (iii) una representación conceptual de cuerpos visibles, sus atributos y sus movimientos elementales, (iv) representaciones conceptuales genéricas de configuraciones de cuerpos espaciotemporales y sus desarrollos temporales esperados, y (v) una o más versiones de una representación en lenguaje natural de desarrollos centrados en el punto actual en el tiempo.
En otras palabras, el objetivo de HN00 era mirar una imagen 2D de una intersección, a partir de ella construir una representación 2D/3D de la escena. En esa escena identifique y etiquete objetos y descríbalos en un lenguaje conceptual llamado SIT++. Una vez en esa representación conceptual (como árboles de situación), podrían realizar inferencias lógicas (utilizando Lógica de cuerno temporal métrica difusa) sobre su representación para decidir qué intentan hacer los agentes que identificaron.
Tenga en cuenta que HN00 no involucró procesamiento de lenguaje natural (NLP) en absoluto. Aunque tuvieron que usar mucho reconocimiento de patrones y varios algoritmos de aprendizaje automático que serían familiares para los practicantes de PNL. Sin embargo, su dominio fue transformar una escena visual en una representación interna conceptual (no lenguaje natural).
¿Cómo se extendió AGN08 más allá de esto? Cambiaron lo que querían hacer. Su tarea no era simplemente ver una escena y transformarla en una representación interna, sino generar esa representación interna en una descripción de lenguaje natural . Por lo tanto, estaban agregando un sistema de generación de lenguaje natural a HN00. Obviamente, generar lenguaje natural a partir de una representación interna es una parte importante de la PNL.
En el proceso de agregar esta funcionalidad, AGN08 tuvo que extender la representación interna de varias formas. Esto se debió al hecho de que se requería más información interna para generar una buena salida de lenguaje natural y porque querían lidiar con escenas más complejas que HN00. El documento se centra en este aspecto de la obra (ampliando la representación interna) y solo toca tangencialmente la producción en lenguaje natural. Entran en detalles de la salida del lenguaje natural en:
R. Gerber, Naturlichsprachliche Beschreibung von Straßenverkehrsszenen durch Bildfolgenauswertung. Disertación, Fakultat fur Informatik der Universitat Karlsruhe (TH), Karlsruhe, enero de 2000
Desafortunadamente, no estoy dispuesto a aprender alemán y leer una tesis completa para darle una respuesta más completa sobre los detalles. Antes de que intentes hacerlo tú mismo (espero que ya sepas alemán) o busques documentos más recientes, te recomiendo que aprendas algunos conceptos básicos de PNL. Una buena fuente es la siguiente pregunta:
Buscando una buena referencia para principiantes para aprender lingüística computacional
Artem Kaznatchev
Vielle
Vielle
nrz
Artem Kaznatchev
Artem Kaznatchev