Uso del procesamiento del lenguaje natural para la supervisión del tráfico a partir de vídeo

Estoy atascado tratando de aprender a usar el procesamiento de video como se explica en los documentos vinculados en el área de detección del comportamiento humano o vigilancia del tráfico (cualquier tipo de actividad de monitoreo). En particular, no sé cómo formular el problema utilizando los modelos disponibles.

Encontré dos artículos (Haag & Nagel (2000; Artículo 1) y Arens, Gerber y Nagel (2008; Artículo 2)) que ilustran, con un ejemplo, el uso del lenguaje natural para monitorear el tráfico mediante el uso de secuencias de imágenes de videos. mi pregunta son

  1. ¿Bajo qué supuestos se generan las acciones? ¿Cuál es la ventaja de la PNL aquí o en cualquier aplicación aparte del hecho de que da una representación jerárquica de la información/conocimiento?
  2. ¿Cómo se generan las acciones y los gráficos (etiquetados como árboles de gráficos de situación por el autor) (bajo qué suposiciones) en la figura 2 del documento 1 y la figura 1 del documento 2?
  3. ¿Se ha generado la Tabla 5 del documento 1: Reconocimiento incremental de situaciones de tránsito a partir de secuencias de imágenes de video y tablas posteriores utilizando algunas herramientas de programación?

Referencias

Haag, M. y Nagel, H.-H. (2000) " Reconocimiento incremental de situaciones de tránsito a partir de secuencias de imágenes de video ". Computación de imagen y visión 18 (2): 137-153.

Arens, M., Gerber, R. y Nagel H.-H. (2008) " Representaciones conceptuales entre señales de video y descripciones en lenguaje natural ". Computación de imagen y visión 26: 53–66.

No puedo entender lo que estás preguntando. Además, si no sabe qué "cosas" está haciendo, ¿cómo puede solicitar herramientas de código abierto para hacerlo? Averigua lo que quieres hacer y cómo expresarlo de forma precisa y precisa en forma de una pregunta, luego, en función de lo que aprendas en tu búsqueda inicial, haz preguntas específicas bien enfocadas. En este punto, tengo que votar para cerrar como "no es una pregunta real".
Su pregunta es confusa debido a una gramática sucia, así como a la falta de enfoque. Creo que primero deberías tratar de separar esto en dos preguntas. Uno sobre la clasificación visual (quizás quieras ver la traducción del lenguaje de señas, el reconocimiento visual de gestos, etc.). Después de que encuentre algo más interesante en lo que quiera enfocarse, será más fácil preguntar acerca de las herramientas de código abierto para ello.
Por ejemplo, trabaje en el reconocimiento de gestos sciencedirect.com/science/article/pii/S0262885606002897
Edité la pregunta para mejorar la gramática y el formato para que OP pudiera editarla y hacerla más precisa. En realidad, hay dos preguntas, en ambas el alcance de la cognición robótica deseada es demasiado amplio. En mi humilde opinión, un alcance más limitado de la cognición del robot sería un punto de partida más fructífero para un asunto tan difícil.
OP, creo que deberías familiarizarte con los conceptos básicos de la PNL. Para algunos recursos introductorios, vea esta pregunta y respuestas en ling.SE
Además, la Figura 1 del Documento 2 es solo un resumen (en forma de figura) de las ideas clave del Documento 1. No estoy seguro de lo que está preguntando.

Respuestas (1)

Creo que entendiste mal, en muchos sentidos, lo que hicieron Haag & Nagel (2000; lo que llamas Paper 1) y cómo Arens, Gerber & Nagel (2008; Paper 2) lo ampliaron. La Fig. 1 de AGN08 es un buen resumen de HN00. Lo que hizo HN00 fue construir un sistema que pudiera ver un video de una intersección, detectar autos y traducir el comportamiento del auto a un marco conceptual. Como inspiración para su sistema, usaron su idea de cómo los humanos representan la tarea:

Parece que intervienen cinco niveles de representación: (i) una representación de la geometría de los desarrollos espaciotemporales en la escena del tráfico rodado, que comprende tanto una 2D en el plano de la imagen como una 3D relacionada con la escena representada, (ii) una representación de maniobras de conducción estrechamente acopladas a situaciones particulares de tránsito, (iii) una representación conceptual de cuerpos visibles, sus atributos y sus movimientos elementales, (iv) representaciones conceptuales genéricas de configuraciones de cuerpos espaciotemporales y sus desarrollos temporales esperados, y (v) una o más versiones de una representación en lenguaje natural de desarrollos centrados en el punto actual en el tiempo.

En otras palabras, el objetivo de HN00 era mirar una imagen 2D de una intersección, a partir de ella construir una representación 2D/3D de la escena. En esa escena identifique y etiquete objetos y descríbalos en un lenguaje conceptual llamado SIT++. Una vez en esa representación conceptual (como árboles de situación), podrían realizar inferencias lógicas (utilizando Lógica de cuerno temporal métrica difusa) sobre su representación para decidir qué intentan hacer los agentes que identificaron.

Tenga en cuenta que HN00 no involucró procesamiento de lenguaje natural (NLP) en absoluto. Aunque tuvieron que usar mucho reconocimiento de patrones y varios algoritmos de aprendizaje automático que serían familiares para los practicantes de PNL. Sin embargo, su dominio fue transformar una escena visual en una representación interna conceptual (no lenguaje natural).

¿Cómo se extendió AGN08 más allá de esto? Cambiaron lo que querían hacer. Su tarea no era simplemente ver una escena y transformarla en una representación interna, sino generar esa representación interna en una descripción de lenguaje natural . Por lo tanto, estaban agregando un sistema de generación de lenguaje natural a HN00. Obviamente, generar lenguaje natural a partir de una representación interna es una parte importante de la PNL.

En el proceso de agregar esta funcionalidad, AGN08 tuvo que extender la representación interna de varias formas. Esto se debió al hecho de que se requería más información interna para generar una buena salida de lenguaje natural y porque querían lidiar con escenas más complejas que HN00. El documento se centra en este aspecto de la obra (ampliando la representación interna) y solo toca tangencialmente la producción en lenguaje natural. Entran en detalles de la salida del lenguaje natural en:

R. Gerber, Naturlichsprachliche Beschreibung von Straßenverkehrsszenen durch Bildfolgenauswertung. Disertación, Fakultat fur Informatik der Universitat Karlsruhe (TH), Karlsruhe, enero de 2000

Desafortunadamente, no estoy dispuesto a aprender alemán y leer una tesis completa para darle una respuesta más completa sobre los detalles. Antes de que intentes hacerlo tú mismo (espero que ya sepas alemán) o busques documentos más recientes, te recomiendo que aprendas algunos conceptos básicos de PNL. Una buena fuente es la siguiente pregunta:

Buscando una buena referencia para principiantes para aprender lingüística computacional

Gracias por tomarse la molestia de explicar con tanto detalle. Como supongo, estos documentos son difíciles de implementar para mi tarea y no están relacionados con lo que me interesa. el punto de partida y los pasos en la construcción de un sistema de vigilancia para el diagnóstico situacional basado en el lenguaje natural.