Understanding Human Actions through the Lens of Executable Models

📄 arXiv: 2604.18064v1 📥 PDF

作者: Rimvydas Rubavicius, Manisha Dubey, N. Siddharth, Subramanian Ramamoorthy

分类: cs.AI

发布日期: 2026-04-20

备注: 16 pages, 3 figures, 2 tables


💡 一句话要点

提出EXACT领域特定语言,用于理解和建模人类动作序列

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人类动作理解 领域特定语言 神经符号模型 动作分割 异常检测

📋 核心要点

  1. 现有动作识别方法缺乏对动作结构和执行方式的建模,限制了对动作质量和差异的评估。
  2. 提出EXACT领域特定语言,将人类动作表示为可执行的运动程序,并利用神经符号模型进行组合建模。
  3. 实验表明,该方法在动作分割和异常检测任务中,提高了数据效率,并能捕捉动作间的直观关系。

📝 摘要(中文)

以人为中心的系统需要理解物理世界中人类的动作。时间上扩展的动作序列是有意图和结构化的,但现有的动作识别方法通常不试图捕捉其结构,特别是动作的执行方式。然而,这对于评估动作执行的质量以及与其他动作的差异至关重要。为了捕捉动作的内部机制,我们引入了一种领域特定语言EXACT,它将人类运动表示为欠指定的运动程序,解释为使用前向-后向表示进行零样本策略推断的奖励生成函数。通过利用EXACT运动程序的组合性质,我们将单个策略组合成一个可执行的神经符号模型,该模型使用程序结构进行组合建模。我们通过分析运动捕捉数据来理解人类动作,评估了所提出的管道在创建可执行动作模型方面的效用,用于人类动作分割和动作异常检测任务。我们的结果表明,与单片的、特定于任务的方法相比,使用可执行动作模型提高了数据效率,并捕捉了动作之间直观的关系。

🔬 方法详解

问题定义:现有的人类动作理解方法,特别是动作识别,通常忽略了动作序列的内在结构和执行方式。这导致难以评估动作执行的质量,也难以区分相似但执行方式不同的动作。因此,需要一种能够捕捉动作内部机制和结构的方法。

核心思路:论文的核心思路是将人类动作建模为可执行的程序。通过定义一种领域特定语言(DSL),即EXACT,将动作表示为欠指定的运动程序。这些程序可以被解释为奖励函数,用于进行策略推断。通过组合这些程序,可以构建更复杂的动作模型。

技术框架:整体框架包括以下几个主要阶段:1) 使用EXACT DSL对人类动作进行建模,生成运动程序。2) 将运动程序解释为奖励函数,并使用前向-后向算法进行零样本策略推断,得到相应的策略。3) 利用神经符号模型,将单个策略组合成更复杂的动作模型,利用程序结构进行组合建模。4) 将构建的可执行动作模型应用于动作分割和异常检测等任务。

关键创新:该方法最重要的创新在于引入了EXACT领域特定语言,将人类动作建模为可执行的程序。这种方法能够显式地捕捉动作的结构和执行方式,从而更好地理解和建模人类动作。与传统的单片模型相比,该方法具有更好的可解释性和泛化能力。

关键设计:EXACT DSL的设计允许对动作进行欠指定,从而能够处理动作执行中的不确定性。使用前向-后向算法进行策略推断,可以有效地利用运动程序的结构信息。神经符号模型的组合方式,允许将简单的动作策略组合成复杂的动作模型。具体的参数设置、损失函数和网络结构等细节在论文中可能未详细描述,属于未知信息。

📊 实验亮点

实验结果表明,与传统的单片模型相比,使用EXACT构建的可执行动作模型在动作分割和异常检测任务中表现更好。该方法提高了数据效率,能够在少量数据的情况下学习到有效的动作模型。此外,该方法还能够捕捉动作之间直观的关系,例如,能够识别出不同执行方式的相同动作。

🎯 应用场景

该研究成果可应用于人机协作、机器人辅助康复、智能监控等领域。通过理解人类动作的结构和执行方式,可以使机器人更好地与人类进行交互,提供更智能化的服务。例如,在康复训练中,可以利用该方法评估患者的动作质量,并提供个性化的训练方案。在智能监控中,可以检测异常动作,及时发现潜在的安全风险。

📄 摘要(原文)

Human-centred systems require an understanding of human actions in the physical world. Temporally extended sequences of actions are intentional and structured, yet existing methods for recognising what actions are performed often do not attempt to capture their structure, particularly how the actions are executed. This, however, is crucial for assessing the quality of the action's execution and its differences from other actions. To capture the internal mechanics of actions, we introduce a domain-specific language EXACT that represents human motions as underspecified motion programs, interpreted as reward-generating functions for zero-shot policy inference using forward-backwards representations. By leveraging the compositional nature of EXACT motion programs, we combine individual policies into an executable neuro-symbolic model that uses program structure for compositional modelling. We evaluate the utility of the proposed pipeline for creating executable action models by analysing motion-capture data to understand human actions, for the tasks of human action segmentation and action anomaly detection. Our results show that the use of executable action models improves data efficiency and captures intuitive relationships between actions compared with monolithic, task-specific approaches.