SGTA: Scene-Graph Based Multi-Modal Traffic Agent for Video Understanding

📄 arXiv: 2604.03697 📥 PDF

作者: Xingcheng Zhou, Mingyu Liu, Walter Zimmer, Jiajie Zhang, Alois Knoll

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出基于场景图的多模态交通Agent(SGTA)用于交通视频理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交通视频理解 场景图 多模态推理 ReAct框架 智能交通 视频问答 可解释性

📋 核心要点

  1. 现有交通视频理解方法缺乏结构化表示和可解释性,难以处理复杂推理。
  2. SGTA利用场景图构建结构化表示,结合多模态推理和ReAct框架实现可解释决策。
  3. 实验表明,SGTA在交通视频问答任务上表现出竞争力,并提供透明的推理过程。

📝 摘要(中文)

本文提出了一种基于场景图的多模态交通Agent(SGTA),它是一个用于交通视频理解的模块化框架,结合了结构化的场景图和多模态推理。SGTA通过检测、跟踪和车道提取,从路边视频构建交通场景图,然后利用工具对符号图查询和视觉输入进行推理。SGTA采用ReAct来处理来自大型语言模型的交错推理轨迹以及工具调用,从而为复杂的视频问题实现可解释的决策。在选定的TUMTraffic VideoQA数据集样本上的实验表明,SGTA在多种问题类型上实现了具有竞争力的准确性,同时提供了透明的推理步骤。这些结果突出了将结构化场景表示与多模态Agent集成用于交通视频理解的潜力。

🔬 方法详解

问题定义:现有交通视频理解方法通常难以处理复杂的推理任务,缺乏对场景的结构化表示,并且决策过程缺乏可解释性。这些方法难以有效地利用视频中的多模态信息(例如,视觉信息和语义信息),从而限制了其在实际应用中的潜力。

核心思路:SGTA的核心思路是利用场景图来构建交通场景的结构化表示,并结合多模态推理来理解视频内容。通过将视频中的对象、关系和属性编码到场景图中,SGTA可以更好地捕捉场景的语义信息。同时,利用大型语言模型和工具调用,SGTA可以进行复杂的推理,并提供可解释的决策过程。

技术框架:SGTA的整体框架包括以下几个主要模块:1) 场景图构建:利用检测、跟踪和车道提取等技术,从路边视频中构建交通场景图。2) 多模态推理:利用大型语言模型和工具调用,对场景图和视觉输入进行推理。3) ReAct框架:采用ReAct框架来处理来自大型语言模型的交错推理轨迹以及工具调用,从而实现可解释的决策。

关键创新:SGTA的关键创新在于将结构化的场景图表示与多模态Agent相结合,用于交通视频理解。这种方法可以有效地利用视频中的多模态信息,并提供可解释的决策过程。此外,SGTA采用ReAct框架来处理推理轨迹,进一步提高了决策的可解释性。

关键设计:在场景图构建方面,SGTA采用了现有的检测、跟踪和车道提取算法。在多模态推理方面,SGTA使用了预训练的大型语言模型,并设计了一系列工具来处理场景图查询和视觉输入。ReAct框架用于控制推理过程,并生成可解释的推理步骤。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SGTA在TUMTraffic VideoQA数据集上进行了实验,结果表明SGTA在多种问题类型上实现了具有竞争力的准确性,同时提供了透明的推理步骤。虽然论文中没有给出具体的性能数据和提升幅度,但强调了SGTA在可解释性方面的优势。具体性能提升数据未知。

🎯 应用场景

SGTA可应用于智能交通监控、自动驾驶、交通事件检测与预警等领域。通过理解交通视频内容,SGTA可以辅助交通管理部门进行决策,提高交通效率和安全性。未来,SGTA可以扩展到更复杂的交通场景,并与其他交通系统集成,实现更智能化的交通管理。

📄 摘要(原文)

We present Scene-Graph Based Multi-Modal Traffic Agent (SGTA), a modular framework for traffic video understanding that combines structured scene graphs with multi-modal reasoning. It constructs a traffic scene graph from roadside videos using detection, tracking, and lane extraction, followed by tool-based reasoning over both symbolic graph queries and visual inputs. SGTA adopts ReAct to process interleaved reasoning traces from large language models with tool invocations, enabling interpretable decision-making for complex video questions. Experiments on selected TUMTraffic VideoQA dataset sample demonstrate that SGTA achieves competitive accuracy across multiple question types while providing transparent reasoning steps. These results highlight the potential of integrating structured scene representations with multi-modal agents for traffic video understanding.