Neurosymbolic Framework for Concept-Driven Logical Reasoning in Skeleton-Based Human Action Recognition

作者: Talha Ilyas, Deval Mehta, Zongyuan Ge

分类: cs.CV, cs.AI

发布日期: 2026-05-08

备注: Accepted In Proceedings of the 35th International Joint Conference on Artificial Intelligence (IJCAI 2026)

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于神经符号框架的骨架动作识别方法，实现概念驱动的逻辑推理与可解释性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 神经符号学习 骨架动作识别 可解释人工智能 一阶逻辑推理 时空特征解耦 多模态对齐

📋 核心要点

现有基于骨架的动作识别模型多为黑盒，缺乏对动作语义的逻辑解释能力，难以满足高可靠性场景需求。
提出神经符号框架，将动作识别转化为时空运动概念的一阶逻辑推理，通过解耦姿态与动力学特征实现可解释性。
在主流数据集上达到竞争性识别精度，并成功通过LLM对齐建立了感知与逻辑推理间的共享语义空间。

📝 摘要（中文）

基于骨架的人体动作识别（HAR）虽已取得显著的经验性能，但大多数现有模型仍是难以解释的“黑盒”。本文提出了一种神经符号化HAR框架，将动作识别重构为基于运动基元的概念驱动一阶逻辑推理。该框架通过将一阶逻辑谓词锚定在可学习的时空运动概念上，架起了表征学习与符号推理之间的桥梁。具体而言，我们利用标准的时空骨架编码器提取潜在运动表征，并通过显式分离姿态中心和动力学中心抽象的时空概念解码器，将其映射为可解释的概念谓词。这些谓词通过可微的一阶逻辑层进行组合，使模型能够学习支配动作语义的人类可读逻辑规则。为了赋予学习到的概念以语义结构，我们将骨架表征与大语言模型（LLM）导出的原子运动基元描述对齐，建立了感知与推理的共享概念空间。在NTU RGB+D 60/120和NW-UCLA上的实验表明，该方法在保持竞争性识别性能的同时，提供了基于逻辑结构的显式可解释性。

🔬 方法详解

问题定义：现有骨架动作识别方法主要依赖深度神经网络的黑盒映射，缺乏对动作构成逻辑的显式建模，导致模型决策过程不可解释，难以在医疗、安防等对透明度要求高的领域落地。

核心思路：引入神经符号学习范式，将动作识别过程拆解为“感知（特征提取）”与“推理（逻辑组合）”两个阶段。通过将骨架特征映射为可解释的逻辑谓词，利用可微逻辑层模拟人类对动作的逻辑判断过程。

技术框架：系统包含三个核心模块：1. 时空骨架编码器，用于提取原始运动特征；2. 时空概念解码器，将特征解耦为姿态中心和动力学中心的概念谓词；3. 可微一阶逻辑层，基于谓词进行逻辑规则推理，最终输出动作分类结果。

关键创新：核心创新在于将LLM的先验知识引入骨架表征学习，通过对齐原子运动基元，使模型学习到的概念具备人类可理解的语义，而非仅是抽象的特征向量。

关键设计：采用显式的解耦机制分离姿态与动力学抽象；利用可微逻辑算子（如AND, OR, NOT）构建推理网络，确保整个过程端到端可导，并支持通过逻辑规则反向解释动作分类依据。

🖼️ 关键图片

📊 实验亮点

在NTU RGB+D 60/120及NW-UCLA数据集上，该方法在保持与主流深度学习模型相当的识别准确率的同时，显著提升了模型的可解释性。实验证明，通过逻辑规则约束，模型能够准确识别动作的关键运动基元，验证了神经符号范式在复杂时空动作理解中的有效性。

🎯 应用场景

该研究在需要高透明度的领域具有重要价值，如医疗康复评估（分析患者动作是否符合标准）、人机协作（理解工人的操作意图以保障安全）以及体育竞技分析（通过逻辑规则拆解运动员的技术动作细节）。

📄 摘要（原文）

Skeleton-based human activity recognition has achieved strong empirical performance, yet most existing models remain black boxes and difficult to interpret. In this work, we introduce a neurosymbolic formulation of skeleton-based HAR that reframes action recognition as concept-driven first-order logical reasoning over motion primitives. Our framework bridges representation learning and symbolic inference by grounding first-order logic predicates in learnable spatial and temporal motion concepts. Specifically, we employ a standard spatio-temporal skeleton encoder to extract latent motion representations, which are then mapped to interpretable concept predicates via a spatio-temporal concept decoder that explicitly separates pose-centric and dynamics-centric abstractions. These concept predicates are composed through differentiable first-order logic layers, enabling the model to learn human-readable logical rules that govern action semantics. To impose semantic structure on the learned concepts, we align skeleton representations with LLM-derived descriptions of atomic motion primitives, establishing a shared conceptual space for perception and reasoning. Extensive experiments on NTU RGB+D 60/120 and NW-UCLA demonstrate that our approach achieves competitive recognition performance while providing explicit, interpretable explanations grounded in logical structure. Our results highlight neurosymbolic reasoning as an effective paradigm for interpretable spatio-temporal action understanding. Code: https://github.com/Mr-TalhaIlyas/REASON

Neurosymbolic Framework for Concept-Driven Logical Reasoning in Skeleton-Based Human Action Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理