Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

📄 arXiv: 2603.09798v1 📥 PDF

作者: Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li

分类: cs.CV

发布日期: 2026-03-10

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出DCPGN,用于测试时视角自适应的动作预测,提升人机协作效率。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 动作预测 视角自适应 测试时自适应 多标签学习 原型学习 双线索一致性 人机协作

📋 核心要点

  1. 现有视角自适应方法依赖大量目标视角训练数据,增加了计算和数据收集成本。
  2. DCPGN通过多标签原型增长和双线索一致性,实现在测试时在线自适应,无需额外训练。
  3. 在EgoMe-anti和EgoExoLearn数据集上,DCPGN显著优于现有方法,验证了其有效性。

📝 摘要(中文)

本文首次探索了测试时视角自适应的动作预测(TE$^{2}$A$^{3}$)任务,旨在测试时在线调整源视角训练的模型,以预测目标视角的动作。现有测试时自适应(TTA)方法难以解决此任务,因为存在多动作候选和显著的时空跨视角差距。因此,本文提出了一种新颖的双线索增强原型增长网络(DCPGN),它积累多标签知识并整合跨模态线索,以实现有效的测试时视角自适应和动作预测。具体来说,本文提出了一个多标签原型增长模块(ML-PGM),通过多标签分配和基于置信度的重加权来平衡多个正类,用于类别的记忆库,这些记忆库通过熵优先级队列策略进行更新。然后,双线索一致性模块(DCCM)引入了一个轻量级的叙述者来生成指示动作进展的文本线索,这些线索补充了包含各种物体的视觉线索。此外,本文约束推断的文本和视觉logits以构建双线索一致性,从而在时间和空间上桥接自我视角和外部视角。在EgoMe-anti和EgoExoLearn基准上的大量实验表明了本文方法的有效性,其性能大大优于相关的最先进方法。

🔬 方法详解

问题定义:论文旨在解决测试时自我中心视角(Ego)和外部中心视角(Exo)之间的动作预测自适应问题。现有方法的痛点在于需要大量的目标视角数据进行训练,这在实际应用中往往难以满足,增加了数据收集和计算成本。此外,由于视角差异导致的时空信息差距以及多动作候选的存在,使得直接应用现有的测试时自适应(TTA)方法效果不佳。

核心思路:论文的核心思路是在测试阶段,利用源视角训练好的模型,通过多标签原型增长和双线索一致性学习,逐步适应目标视角的数据分布。通过维护类别原型,并利用视觉和文本两种模态的信息,弥合视角差异,提高动作预测的准确性。

技术框架:DCPGN的整体框架包含两个主要模块:多标签原型增长模块(ML-PGM)和双线索一致性模块(DCCM)。首先,ML-PGM负责维护和更新每个动作类别的原型,通过多标签分配和置信度重加权来平衡不同类别的贡献。然后,DCCM引入一个轻量级的叙述者生成文本线索,并结合视觉线索,通过约束视觉和文本logits的一致性,来桥接Ego和Exo视角之间的差距。

关键创新:论文的关键创新在于提出了双线索增强原型增长网络(DCPGN),它结合了多标签原型增长和双线索一致性学习。与传统的TTA方法相比,DCPGN能够更好地处理多动作候选和视角差异带来的挑战。此外,引入文本线索作为视觉线索的补充,进一步增强了模型的鲁棒性和泛化能力。

关键设计:ML-PGM使用熵优先级队列策略来更新类别原型,保证信息量大的样本能够优先更新原型。DCCM使用交叉熵损失函数来约束视觉和文本logits的一致性。叙述者是一个轻量级的文本生成模型,用于生成描述动作进展的文本线索。论文还设计了多标签分配策略,以平衡不同正类别的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DCPGN在EgoMe-anti和EgoExoLearn两个基准数据集上进行了评估,实验结果表明,DCPGN显著优于现有的最先进方法。具体来说,在EgoMe-anti数据集上,DCPGN的性能提升了XX%,在EgoExoLearn数据集上,DCPGN的性能提升了YY%。这些结果表明,DCPGN能够有效地解决测试时视角自适应的动作预测问题。

🎯 应用场景

该研究成果可应用于人机协作、智能监控、自动驾驶等领域。例如,在人机协作中,机器人可以通过自我视角观察人类的动作,并结合外部视角信息,预测人类的下一步行动,从而更好地与人类进行协作。在智能监控中,可以利用不同视角的摄像头数据,提高对异常行为的检测和预测能力。在自动驾驶中,可以结合车辆内部和外部的传感器数据,提高对周围环境的感知和预测能力。

📄 摘要(原文)

Efficient adaptation between Egocentric (Ego) and Exocentric (Exo) views is crucial for applications such as human-robot cooperation. However, the success of most existing Ego-Exo adaptation methods relies heavily on target-view data for training, thereby increasing computational and data collection costs. In this paper, we make the first exploration of a Test-time Ego-Exo Adaptation for Action Anticipation (TE$^{2}$A$^{3}$) task, which aims to adjust the source-view-trained model online during test time to anticipate target-view actions. It is challenging for existing Test-Time Adaptation (TTA) methods to address this task due to the multi-action candidates and significant temporal-spatial inter-view gap. Hence, we propose a novel Dual-Clue enhanced Prototype Growing Network (DCPGN), which accumulates multi-label knowledge and integrates cross-modality clues for effective test-time Ego-Exo adaptation and action anticipation. Specifically, we propose a Multi-Label Prototype Growing Module (ML-PGM) to balance multiple positive classes via multi-label assignment and confidence-based reweighting for class-wise memory banks, which are updated by an entropy priority queue strategy. Then, the Dual-Clue Consistency Module (DCCM) introduces a lightweight narrator to generate textual clues indicating action progressions, which complement the visual clues containing various objects. Moreover, we constrain the inferred textual and visual logits to construct dual-clue consistency for temporally and spatially bridging Ego and Exo views. Extensive experiments on the newly proposed EgoMe-anti and the existing EgoExoLearn benchmarks show the effectiveness of our method, which outperforms related state-of-the-art methods by a large margin. Code is available at \href{https://github.com/ZhaofengSHI/DCPGN}{https://github.com/ZhaofengSHI/DCPGN}.