Neurosymbolic Framework for Concept-Driven Logical Reasoning in Skeleton-Based Human Action Recognition

📄 arXiv: 2605.07140v1 📥 PDF

作者: Talha Ilyas, Deval Mehta, Zongyuan Ge

分类: cs.CV, cs.AI

发布日期: 2026-05-08

备注: Accepted In Proceedings of the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于神经符号框架的骨架动作识别方法,实现概念驱动的逻辑推理与可解释性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 神经符号学习 骨架动作识别 可解释人工智能 一阶逻辑推理 时空特征解耦 多模态对齐

📋 核心要点

  1. 现有基于骨架的动作识别模型多为黑盒,缺乏对动作语义的逻辑解释能力,难以满足高可靠性场景需求。
  2. 提出神经符号框架,将动作识别转化为时空运动概念的一阶逻辑推理,通过解耦姿态与动力学特征实现可解释性。
  3. 在主流数据集上达到竞争性识别精度,并成功通过LLM对齐建立了感知与逻辑推理间的共享语义空间。

📝 摘要(中文)

基于骨架的人体动作识别(HAR)虽已取得显著的经验性能,但大多数现有模型仍是难以解释的“黑盒”。本文提出了一种神经符号化HAR框架,将动作识别重构为基于运动基元的概念驱动一阶逻辑推理。该框架通过将一阶逻辑谓词锚定在可学习的时空运动概念上,架起了表征学习与符号推理之间的桥梁。具体而言,我们利用标准的时空骨架编码器提取潜在运动表征,并通过显式分离姿态中心和动力学中心抽象的时空概念解码器,将其映射为可解释的概念谓词。这些谓词通过可微的一阶逻辑层进行组合,使模型能够学习支配动作语义的人类可读逻辑规则。为了赋予学习到的概念以语义结构,我们将骨架表征与大语言模型(LLM)导出的原子运动基元描述对齐,建立了感知与推理的共享概念空间。在NTU RGB+D 60/120和NW-UCLA上的实验表明,该方法在保持竞争性识别性能的同时,提供了基于逻辑结构的显式可解释性。

🔬 方法详解

问题定义:现有骨架动作识别方法主要依赖深度神经网络的黑盒映射,缺乏对动作构成逻辑的显式建模,导致模型决策过程不可解释,难以在医疗、安防等对透明度要求高的领域落地。

核心思路:引入神经符号学习范式,将动作识别过程拆解为“感知(特征提取)”与“推理(逻辑组合)”两个阶段。通过将骨架特征映射为可解释的逻辑谓词,利用可微逻辑层模拟人类对动作的逻辑判断过程。

技术框架:系统包含三个核心模块:1. 时空骨架编码器,用于提取原始运动特征;2. 时空概念解码器,将特征解耦为姿态中心和动力学中心的概念谓词;3. 可微一阶逻辑层,基于谓词进行逻辑规则推理,最终输出动作分类结果。

关键创新:核心创新在于将LLM的先验知识引入骨架表征学习,通过对齐原子运动基元,使模型学习到的概念具备人类可理解的语义,而非仅是抽象的特征向量。

关键设计:采用显式的解耦机制分离姿态与动力学抽象;利用可微逻辑算子(如AND, OR, NOT)构建推理网络,确保整个过程端到端可导,并支持通过逻辑规则反向解释动作分类依据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在NTU RGB+D 60/120及NW-UCLA数据集上,该方法在保持与主流深度学习模型相当的识别准确率的同时,显著提升了模型的可解释性。实验证明,通过逻辑规则约束,模型能够准确识别动作的关键运动基元,验证了神经符号范式在复杂时空动作理解中的有效性。

🎯 应用场景

该研究在需要高透明度的领域具有重要价值,如医疗康复评估(分析患者动作是否符合标准)、人机协作(理解工人的操作意图以保障安全)以及体育竞技分析(通过逻辑规则拆解运动员的技术动作细节)。

📄 摘要(原文)

Skeleton-based human activity recognition has achieved strong empirical performance, yet most existing models remain black boxes and difficult to interpret. In this work, we introduce a neurosymbolic formulation of skeleton-based HAR that reframes action recognition as concept-driven first-order logical reasoning over motion primitives. Our framework bridges representation learning and symbolic inference by grounding first-order logic predicates in learnable spatial and temporal motion concepts. Specifically, we employ a standard spatio-temporal skeleton encoder to extract latent motion representations, which are then mapped to interpretable concept predicates via a spatio-temporal concept decoder that explicitly separates pose-centric and dynamics-centric abstractions. These concept predicates are composed through differentiable first-order logic layers, enabling the model to learn human-readable logical rules that govern action semantics. To impose semantic structure on the learned concepts, we align skeleton representations with LLM-derived descriptions of atomic motion primitives, establishing a shared conceptual space for perception and reasoning. Extensive experiments on NTU RGB+D 60/120 and NW-UCLA demonstrate that our approach achieves competitive recognition performance while providing explicit, interpretable explanations grounded in logical structure. Our results highlight neurosymbolic reasoning as an effective paradigm for interpretable spatio-temporal action understanding. Code: https://github.com/Mr-TalhaIlyas/REASON