JFAA: Technical Report for the EPIC-KITCHENS-100 Action Anticipation Challenge at EgoVis 2026

📄 arXiv: 2605.20904v1 📥 PDF

作者: Qiaohui Chu, Haoyu Zhang, Yisen Feng, Meng Liu, Weili Guan, Dongmei Jiang, Liqiang Nie

分类: cs.CV

发布日期: 2026-05-20

备注: The champion solution for the EPIC-KITCHENS-100 Action Anticipation Challenge at the CVPR EgoVis Workshop 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于JEPA的JFAA方法,在EgoVis 2026的EK-100动作预测挑战赛中获得第一名

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动作预测 视频理解 自我中心视觉 JEPA 表征学习

📋 核心要点

  1. 现有动作预测方法在捕捉长期依赖和未来不确定性方面存在不足,限制了预测精度。
  2. JFAA利用V-JEPA的表征学习能力,通过冻结的编码器和预测器提取上下文特征和未来潜在tokens。
  3. JFAA采用场感知集成策略,融合不同epoch的预测结果,提升模型鲁棒性和预测准确性。

📝 摘要(中文)

我们提出了JFAA,一种基于JEPA的未来动作预测方法,用于EPIC-KITCHENS-100 (EK-100)动作预测任务。受到V-JEPA 2.1的表征学习和未来预测能力的启发,JFAA使用一个冻结的编码器和预测器来提取观察到的上下文特征和近未来潜在tokens。然后,训练一个轻量级的注意力探针,使用单独的任务查询来预测动词、名词和动作logits。为了提高鲁棒性,我们进一步构建了一个基于epoch级别预测的场感知集成,允许每个输出字段从其最可靠的候选者中受益。在官方挑战赛服务器上的实验结果表明,JFAA在EgoVis 2026 EK-100动作预测挑战赛中获得第一名。我们的代码将在https://github.com/CorrineQiu/JFAA上发布。

🔬 方法详解

问题定义:论文旨在解决EPIC-KITCHENS-100 (EK-100)数据集上的动作预测问题。现有方法难以有效捕捉视频中的长期依赖关系,并且对未来动作的不确定性建模不足,导致预测精度不高。

核心思路:论文的核心思路是利用V-JEPA 2.1的表征学习能力,通过预训练的编码器和预测器提取视频上下文特征和未来潜在表示。这种方法能够更好地捕捉视频中的时序信息,并对未来动作进行更准确的预测。同时,采用场感知集成策略,融合不同epoch的预测结果,进一步提升模型的鲁棒性和泛化能力。

技术框架:JFAA方法主要包含三个模块:1) 冻结的编码器和预测器:用于提取观察到的上下文特征和近未来潜在tokens。2) 轻量级注意力探针:用于预测动词、名词和动作logits,每个任务使用单独的查询。3) 场感知集成:用于融合不同epoch的预测结果,提高鲁棒性。整体流程是,首先使用预训练的V-JEPA模型提取视频特征,然后使用注意力探针预测动作类别,最后使用场感知集成策略融合预测结果。

关键创新:JFAA的关键创新在于将V-JEPA模型应用于动作预测任务,并结合场感知集成策略。与传统方法相比,JFAA能够更好地利用预训练模型的表征能力,并有效融合不同来源的信息,从而提高预测精度。此外,轻量级注意力探针的设计降低了计算复杂度,使得模型更易于训练和部署。

关键设计:JFAA的关键设计包括:1) 使用冻结的V-JEPA编码器和预测器,避免了从头训练的成本,并充分利用了预训练模型的知识。2) 设计了轻量级注意力探针,降低了计算复杂度,并提高了预测效率。3) 采用了场感知集成策略,根据不同字段的可靠性,动态调整融合权重,提高了模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JFAA在EgoVis 2026 EK-100动作预测挑战赛中取得了第一名的成绩,验证了该方法的有效性。实验结果表明,JFAA能够显著提高动作预测的准确率,尤其是在处理复杂场景和长期依赖关系时,表现出更强的优势。该方法为未来的动作预测研究提供了新的思路和方法。

🎯 应用场景

该研究成果可应用于智能家居、机器人辅助、视频监控等领域。例如,在智能厨房中,该方法可以预测用户的下一步操作,从而提前准备食材或调整烹饪设备。在机器人辅助领域,该方法可以帮助机器人理解人类意图,并提供更智能的辅助服务。在视频监控领域,该方法可以预测潜在的危险行为,从而提高安全预警能力。

📄 摘要(原文)

We propose JFAA, a JEPA-based Future Action Anticipation method for the EPIC-KITCHENS-100 (EK-100) Action Anticipation task. Inspired by the representation learning and future prediction ability of V-JEPA 2.1, JFAA uses a frozen encoder and predictor to extract observed context features and near-future latent tokens. A lightweight attentive probe is then trained to predict verb, noun, and action logits with separate task queries. To improve robustness, we further build a field-aware ensemble over selected epoch-level predictions, allowing each output field to benefit from its most reliable candidates. Experimental results on the official challenge server show that JFAA achieves first place in the EgoVis 2026 EK-100 Action Anticipation Challenge. Our code will be released at https://github.com/CorrineQiu/JFAA.