VISTA: Technical Report for the Ego4D Short-Term Object Interaction Anticipation at EgoVis 2026

📄 arXiv: 2605.20901v1 📥 PDF

作者: Qiaohui Chu, Haoyu Zhang, Yisen Feng, Meng Liu, Weili Guan, Dongmei Jiang, Liqiang Nie

分类: cs.CV, cs.AI

发布日期: 2026-05-20

备注: The champion solution for the Ego4D Short-Term Object Interaction Anticipation Challenge at the CVPR EgoVis Workshop 2026

🔗 代码/项目: GITHUB


💡 一句话要点

VISTA:用于Ego4D短时物体交互预测的V-JEPA集成时序预测器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 短时交互预测 自我中心视频 时空信息融合 物体检测 时序建模

📋 核心要点

  1. 现有方法难以有效融合时空信息进行短时物体交互预测,限制了预测精度。
  2. VISTA通过集成V-JEPA和StillFast,有效结合了时序上下文和空间物体检测。
  3. VISTA在EgoVis 2026 Ego4D STA挑战赛中获得第一名,验证了其有效性。

📝 摘要(中文)

我们提出了VISTA,一个V-JEPA集成的StillFast时序预测器,用于EgoVis 2026的Ego4D短时物体交互预测(STA)挑战赛。给定一个以自我为中心的视频时间戳,该任务要求预测下一次人与物体的交互,包括未来活动物体的边界框、名词类别、动词类别、接触时间以及置信度得分。VISTA遵循StillFast风格的设计,将以物体为中心的空间检测与短时程时间上下文相结合。具体来说,一个COCO预训练的Faster R-CNN ResNet-50 FPN检测器从最后观察到的高分辨率帧中生成物体提议,而一个冻结的V-JEPA 2.1时间分支从观察到的视频中提取片段级别的以自我为中心的上下文。时间表示通过特征调制和ROI级别的上下文融合注入到检测路径中。然后,融合的提议特征被传递到多头STA预测器,用于框细化、名词分类、动词分类、接触时间回归和交互置信度估计。对于最终提交,我们进一步集成互补预测以提高鲁棒性。在官方挑战服务器上的实验结果表明,VISTA在EgoVis 2026 Ego4D STA挑战赛中获得第一名。我们的代码将在https://github.com/CorrineQiu/VISTA上发布。

🔬 方法详解

问题定义:论文旨在解决Ego4D短时物体交互预测(STA)问题,即给定一段以自我为中心的视频,预测接下来发生的物体交互,包括交互物体的边界框、类别、交互动作以及交互发生的时间。现有方法通常难以有效地融合时空信息,导致预测精度不高。

核心思路:论文的核心思路是将以物体为中心的空间检测与短时程时间上下文相结合。通过Faster R-CNN提取物体提议,利用V-JEPA提取视频的时序上下文信息,然后将两者融合,从而实现更准确的交互预测。这种设计能够充分利用视频中的空间和时间信息,提高预测的准确性和鲁棒性。

技术框架:VISTA的整体架构包括以下几个主要模块:1) Faster R-CNN物体检测器:用于从关键帧中提取物体提议;2) V-JEPA 2.1时序分支:用于提取视频片段级别的时序上下文信息;3) 特征融合模块:将物体提议特征和时序上下文信息进行融合;4) 多头STA预测器:用于预测物体边界框、名词类别、动词类别、接触时间和交互置信度。整个流程首先进行物体检测和时序特征提取,然后通过特征融合将两者结合,最后利用多头预测器进行交互预测。

关键创新:VISTA的关键创新在于将V-JEPA模型集成到StillFast框架中,从而有效地利用了视频的时序上下文信息。与传统的StillFast方法相比,VISTA能够更好地理解视频中的动作和意图,从而提高交互预测的准确性。此外,通过特征调制和ROI级别的上下文融合,VISTA能够更有效地将时序信息注入到空间检测路径中。

关键设计:在技术细节方面,VISTA使用COCO预训练的Faster R-CNN ResNet-50 FPN作为物体检测器。V-JEPA 2.1时序分支被冻结,以减少训练成本。特征融合采用特征调制和ROI级别的上下文融合。多头STA预测器包括框细化、名词分类、动词分类、接触时间回归和交互置信度估计等多个分支。最终预测结果通过集成多个互补预测来提高鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VISTA在EgoVis 2026 Ego4D STA挑战赛中取得了第一名的成绩,证明了其在短时物体交互预测方面的优越性能。通过集成V-JEPA和StillFast,VISTA能够有效地融合时空信息,提高预测的准确性和鲁棒性。实验结果表明,VISTA在多个指标上都优于其他参赛队伍。

🎯 应用场景

该研究成果可应用于智能辅助系统、机器人交互、自动驾驶等领域。例如,在智能助手中,可以预测用户的下一步操作,提前准备相关信息或服务;在机器人交互中,可以使机器人更好地理解人类的意图,从而进行更自然的交互;在自动驾驶中,可以预测行人或车辆的下一步动作,提高驾驶安全性。

📄 摘要(原文)

We propose VISTA, a V-JEPA Integrated StillFast Temporal Anticipator for the Ego4D Short-Term Object Interaction Anticipation (STA) Challenge at EgoVis 2026. Given an egocentric video timestamp, the task requires anticipating the next human-object interaction, including the future active object's bounding box, noun category, verb category, time-to-contact, and confidence score. VISTA follows a StillFast-style design that combines object-centric spatial detection with short-horizon temporal context. Specifically, a COCO-pretrained Faster R-CNN ResNet-50 FPN detector generates object proposals from the last observed high-resolution frame, while a frozen V-JEPA 2.1 temporal branch extracts clip-level egocentric context from the observed video. The temporal representation is injected into the detection pathway through feature modulation and ROI-level context fusion. The fused proposal features are then passed to multi-head STA predictors for box refinement, noun classification, verb classification, time-to-contact regression, and interaction confidence estimation. For the final submission, we further ensemble complementary predictions to improve robustness. Experimental results on the official challenge server show that VISTA achieves first place in the EgoVis 2026 Ego4D STA Challenge. Our code will be released at https://github.com/CorrineQiu/VISTA.