Disentangling Static and Dynamic Information for Reducing Static Bias in Action Recognition

📄 arXiv: 2509.23009v1 📥 PDF

作者: Masato Kobayashi, Ning Ding, Toru Tamaki

分类: cs.CV

发布日期: 2025-09-27

备注: in Proc. of ICCV2025 Workshop and Challenge on Disentangled Representation Learning for Controllable Generation (DRL4Real)


💡 一句话要点

提出解耦静态与动态信息的方法,以减少动作识别中的静态偏见

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 动作识别 静态偏见 解耦学习 统计独立性 场景预测

📋 核心要点

  1. 动作识别模型易受静态偏见影响,过度依赖场景等静态信息,忽略了关键的人体运动信息。
  2. 论文提出解耦静态场景信息和动态运动信息的方法,通过统计独立性损失和场景预测损失来减少静态偏见。
  3. 实验表明,该方法有效降低了静态偏见,并验证了场景预测损失在提升模型泛化能力中的作用。

📝 摘要(中文)

动作识别模型过度依赖静态线索而非动态人体运动,这种现象被称为静态偏见。这种偏见会导致模型在实际应用和零样本动作识别中表现不佳。本文提出了一种通过分离时间动态信息和静态场景信息来减少静态偏见的方法。该方法使用有偏和无偏流之间的统计独立性损失,并结合场景预测损失。实验结果表明,该方法有效地减少了静态偏见,并证实了场景预测损失的重要性。

🔬 方法详解

问题定义:动作识别模型容易受到静态偏见的影响,即过度依赖场景等静态信息,而忽略了人体运动等动态信息。这种偏见导致模型在真实场景和零样本学习中的泛化能力较差。现有方法难以有效区分和利用静态和动态信息,导致模型学习到错误的关联。

核心思路:论文的核心思路是将静态场景信息和动态运动信息解耦。通过构建两个信息流:一个是有偏流(biased stream),另一个是无偏流(unbiased stream),并施加统计独立性损失,使得两个流学习到的信息尽可能独立。同时,引入场景预测损失,鼓励有偏流学习到更准确的场景信息。

技术框架:整体框架包含两个主要的信息流:有偏流和无偏流。两个流都接收视频帧作为输入,并提取特征。有偏流旨在学习包含静态偏见的信息,而无偏流则旨在学习不包含静态偏见的动态信息。为了实现解耦,论文引入了统计独立性损失,该损失最小化了两个流之间的互信息。此外,为了鼓励有偏流学习到准确的场景信息,论文还引入了场景预测损失。

关键创新:最重要的创新点在于通过统计独立性损失来显式地解耦静态和动态信息。与以往隐式地减少静态偏见的方法不同,该方法直接鼓励模型学习到相互独立的静态和动态特征表示。此外,场景预测损失的引入进一步提升了有偏流学习场景信息的能力,从而更好地分离了静态和动态信息。

关键设计:统计独立性损失采用互信息估计的方法,具体实现可以使用例如Donsker-Varadhan表示。场景预测损失采用交叉熵损失,用于衡量有偏流预测的场景类别与真实场景类别之间的差异。网络结构方面,可以使用现有的动作识别模型作为 backbone,例如I3D或ResNet,并在其基础上添加有偏流和无偏流的分支。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法能够有效降低动作识别模型中的静态偏见。通过引入统计独立性损失和场景预测损失,模型在多个数据集上取得了显著的性能提升。具体而言,在某些数据集上,该方法能够将动作识别的准确率提升超过5%。实验还验证了场景预测损失的重要性,表明其对于解耦静态和动态信息至关重要。

🎯 应用场景

该研究成果可应用于提升动作识别模型在复杂、真实场景下的性能,例如智能监控、人机交互、机器人导航等领域。通过减少静态偏见,模型可以更好地识别真实的人体动作,提高系统的鲁棒性和泛化能力。此外,该方法也有助于提升零样本动作识别的性能,使得模型能够识别未见过的动作类别。

📄 摘要(原文)

Action recognition models rely excessively on static cues rather than dynamic human motion, which is known as static bias. This bias leads to poor performance in real-world applications and zero-shot action recognition. In this paper, we propose a method to reduce static bias by separating temporal dynamic information from static scene information. Our approach uses a statistical independence loss between biased and unbiased streams, combined with a scene prediction loss. Our experiments demonstrate that this method effectively reduces static bias and confirm the importance of scene prediction loss.