Polyphony: Diffusion-based Dual-Hand Action Segmentation with Alternating Vision Transformer and Semantic Conditioning
作者: Hao Zheng, Hu Wang, Tiantian Zheng, Prajjwal Bhattarai, Tuka Alhanai
分类: cs.CV
发布日期: 2026-05-29
备注: CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
Polyphony:提出基于扩散模型的双手动Action分割方法,显著提升性能。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 双手动Action分割 扩散模型 Vision Transformer 语义特征条件化 交替训练 人机交互 视频理解
📋 核心要点
- 双手动Action分割面临手间依赖、视觉不对称、表征冲突和语义模糊等多重挑战,现有方法难以有效应对。
- Polyphony通过交替训练的Transformer、语义特征条件化和扩散模型分割,实现双手动作的准确分割和性能平衡。
- 实验表明,Polyphony在多个数据集上显著超越现有方法,尤其在双手动数据集上提升高达16.8个百分点。
📝 摘要(中文)
双手动Action分割旨在从无分割视频中密集预测双手动作,对于理解复杂的双手活动至关重要。然而,该任务面临着复杂的手间依赖关系、双手之间的视觉不对称性、主导手垄断梯度导致的表征冲突以及细粒度动作中的语义模糊性等挑战。我们提出了Polyphony,一种三阶段方法来解决这些挑战:(1)交替双手动Vision Transformer,通过在左右手小批量之间交替训练,确保来自双手的平衡梯度贡献,同时共享时空编码器;(2)语义特征条件化,将视觉特征与结构化的组合动作描述对齐,以增强语义相似动作的区分度;(3)基于扩散的分割,利用跨手特征融合进行手间协调,并采用自适应损失权重来平衡性能。Polyphony在双手动数据集(HA-ViD、ATTACH)上取得了最先进的结果,提升高达16.8个百分点,并且在单流Breakfast数据集上达到了82.5%的性能,优于使用12倍更大骨干网络的先前最佳方法。值得注意的是,我们具有单个共享骨干网络的统一模型超越了需要单独的每手模型的基线。
🔬 方法详解
问题定义:双手动Action分割旨在从视频中准确识别并分割出每只手的动作。现有方法通常难以处理双手之间的复杂依赖关系,并且容易受到视觉不对称性和梯度垄断的影响,导致性能下降。此外,细粒度动作的语义模糊性也增加了分割的难度。
核心思路:Polyphony的核心思路是通过交替训练来平衡双手特征的学习,利用语义信息增强动作的区分度,并使用扩散模型来建模手间依赖关系和优化分割结果。这种设计旨在克服现有方法在处理双手动Action分割时遇到的挑战。
技术框架:Polyphony包含三个主要阶段:(1)交替双手动Vision Transformer:使用共享的时空编码器,但分别对左右手进行交替训练,以平衡梯度贡献。(2)语义特征条件化:将视觉特征与结构化的动作描述对齐,增强语义相似动作的区分度。(3)基于扩散的分割:利用跨手特征融合进行手间协调,并采用自适应损失权重来平衡性能。
关键创新:Polyphony的关键创新在于:(1)交替训练策略,有效解决了梯度垄断问题,平衡了双手特征的学习。(2)语义特征条件化,利用外部知识增强了动作的区分度。(3)基于扩散的分割,能够更好地建模手间依赖关系,并优化分割结果。与现有方法相比,Polyphony更有效地利用了双手之间的互补信息,并减少了视觉不对称性和语义模糊性的影响。
关键设计:交替训练中,左右手小批量交替进行,确保每只手都有足够的梯度更新机会。语义特征条件化模块使用预训练的语言模型来提取动作描述的语义信息,并将其融入视觉特征中。扩散模型采用交叉注意力机制来融合跨手特征,并使用自适应损失权重来平衡不同动作类别的性能。
🖼️ 关键图片
📊 实验亮点
Polyphony在HA-ViD和ATTACH双手动数据集上取得了SOTA结果,性能提升高达16.8个百分点。在单流Breakfast数据集上,Polyphony的性能达到82.5%,优于使用12倍更大骨干网络的现有最佳方法。值得注意的是,Polyphony使用单个共享骨干网络的统一模型超越了需要单独的每手模型的基线,证明了其高效性和泛化能力。
🎯 应用场景
Polyphony在机器人辅助手术、虚拟现实交互、手语识别等领域具有广泛的应用前景。通过准确分割双手动作,可以提升机器人操作的精确性和安全性,改善人机交互的自然性和流畅性,并促进手语翻译的自动化和智能化。该研究的成果有助于推动人机协作和智能辅助技术的发展。
📄 摘要(原文)
Dual-hand action segmentation, densely predicting actions for both hands from untrimmed videos, is essential for understanding complex bimanual activities. However, it poses several unique challenges: complex inter-hand dependencies, visual asymmetry between hands, representation conflicts where the dominant hand monopolizes gradients, and semantic ambiguity in fine-grained actions. We propose Polyphony, a three-stage method to address these challenges through: (1) an Alternating Dual-Hand Vision Transformer that alternates training between left- and right-hand mini-batches to ensure balanced gradient contributions from both hands while sharing a spatio-temporal encoder; (2) Semantic Feature Conditioning that aligns visual features with structured, compositional action descriptions to enhance discrimination of semantically similar actions; and (3) Diffusion-Based Segmentation with cross-hand feature fusion for inter-hand coordination and adaptive loss weighting for balancing performance. Polyphony achieves state-of-the-art on both dual-hand datasets (HA-ViD, ATTACH) with improvements up to 16.8 points, and on the single-stream Breakfast dataset (82.5%), outperforming the prior best method that uses a 12x larger backbone. Notably, our unified model with a single shared backbone surpasses baselines requiring separate per-hand models. Code is at https://github.com/x-labs-xyz/Polyphony-Dual-hand-Action-Segmentation.