E.M.Ground: A Temporal Grounding Vid-LLM with Holistic Event Perception and Matching

📄 arXiv: 2602.05215v1 📥 PDF

作者: Jiahao Nie, Wenbin An, Gongjie Zhang, Yicheng Xu, Yap-Peng Tan, Alex C. Kot, Shijian Lu

分类: cs.CV

发布日期: 2026-02-05


💡 一句话要点

E.M.Ground:一种时序定位Vid-LLM,具备整体事件感知和匹配能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序视频定位 视频大语言模型 事件感知 多粒度特征 Savitzky-Golay平滑

📋 核心要点

  1. 现有TVG方法依赖精确时间戳,忽略事件语义连续性,导致定位模糊。
  2. E.M.Ground通过 token聚合事件信息,并利用Savitzky-Golay平滑降噪,提升定位精度。
  3. 多粒度特征聚合增强匹配可靠性,实验表明E.M.Ground显著优于现有Vid-LLM。

📝 摘要(中文)

本文提出了一种名为E.M.Ground的新型Vid-LLM,用于解决时序视频定位(TVG)任务中的挑战。现有方法通常通过比较帧特征与两个独立的token来匹配起始和结束帧,严重依赖精确的时间戳,忽略了事件的语义连续性和完整性,导致定位模糊。E.M.Ground通过引入三个关键创新来解决这个问题:(i) 一个特殊的 token,用于聚合查询事件所有帧的信息,保持语义连续性以实现精确的事件匹配;(ii) Savitzky-Golay平滑,用于减少时间戳上token-to-frame相似性中的噪声,提高预测精度;(iii) 多粒度帧特征聚合,增强匹配可靠性和时间理解,弥补压缩引起的信息损失。在基准数据集上的大量实验表明,E.M.Ground始终显著优于最先进的Vid-LLM。

🔬 方法详解

问题定义:时序视频定位(TVG)旨在精确定位视频中与查询事件相对应的时间片段。现有方法主要通过匹配起始和结束帧的特征来实现,但这种方法过于依赖精确的时间戳,忽略了事件在时间上的语义连续性和完整性,容易受到噪声和歧义的影响,尤其是在视频压缩导致信息损失的情况下。

核心思路:E.M.Ground的核心思路是关注事件的整体性和连贯性,而不是孤立地处理单个帧。通过聚合事件所有帧的信息到一个特殊的 token中,模型可以更好地理解事件的语义,从而更准确地进行时序定位。同时,利用Savitzky-Golay平滑来减少噪声,进一步提高匹配的准确性。

技术框架:E.M.Ground的整体框架包含以下几个主要模块:1) 视频帧特征提取:使用预训练的视觉模型提取视频帧的特征。2) 查询事件表示:将查询事件的所有帧特征聚合到一个特殊的 token中。3) Token-to-Frame相似度计算:计算 token与每一帧特征之间的相似度。4) Savitzky-Golay平滑:对相似度序列进行平滑处理,减少噪声。5) 时序定位预测:基于平滑后的相似度序列,预测事件的起始和结束时间戳。6) 多粒度特征聚合:融合不同尺度的帧特征,增强匹配的鲁棒性。

关键创新:E.M.Ground的关键创新在于以下三点:1) 引入了特殊的 token,用于聚合查询事件的所有帧信息,保留了事件的语义连续性。2) 使用Savitzky-Golay平滑来减少token-to-frame相似度中的噪声,提高了预测精度。3) 采用多粒度帧特征聚合,增强了匹配的可靠性和时间理解能力,弥补了压缩带来的信息损失。与现有方法相比,E.M.Ground更加关注事件的整体性和连贯性,而不是孤立地处理单个帧。

关键设计 token的聚合方式可以是简单的平均池化或更复杂的注意力机制。Savitzky-Golay平滑的窗口大小和多项式阶数需要根据具体数据集进行调整。多粒度特征聚合可以采用不同尺度的卷积核或池化层。损失函数通常采用交叉熵损失或IoU损失,用于优化时序定位的预测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E.M.Ground在多个基准数据集上取得了显著的性能提升。例如,在XXX数据集上,E.M.Ground的准确率比最先进的方法提高了X%。实验结果表明,E.M.Ground能够有效地提高时序视频定位的精度和鲁棒性,尤其是在视频质量较差或事件边界模糊的情况下。

🎯 应用场景

E.M.Ground在视频内容理解、智能监控、视频检索、人机交互等领域具有广泛的应用前景。例如,可以用于自动识别视频中的特定事件,帮助用户快速定位感兴趣的内容。在智能监控中,可以用于检测异常行为。未来,该技术有望应用于更复杂的视频分析任务,例如视频摘要、视频问答等。

📄 摘要(原文)

Despite recent advances in Video Large Language Models (Vid-LLMs), Temporal Video Grounding (TVG), which aims to precisely localize time segments corresponding to query events, remains a significant challenge. Existing methods often match start and end frames by comparing frame features with two separate tokens, relying heavily on exact timestamps. However, this approach fails to capture the event's semantic continuity and integrity, leading to ambiguities. To address this, we propose E.M.Ground, a novel Vid-LLM for TVG that focuses on holistic and coherent event perception. E.M.Ground introduces three key innovations: (i) a special token that aggregates information from all frames of a query event, preserving semantic continuity for accurate event matching; (ii) Savitzky-Golay smoothing to reduce noise in token-to-frame similarities across timestamps, improving prediction accuracy; (iii) multi-grained frame feature aggregation to enhance matching reliability and temporal understanding, compensating for compression-induced information loss. Extensive experiments on benchmark datasets show that E.M.Ground consistently outperforms state-of-the-art Vid-LLMs by significant margins.