Universal Skeleton Understanding via Differentiable Rendering and MLLMs

📄 arXiv: 2603.18003 📥 PDF

作者: Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang, Kai-Kuang Ma, Mengyuan Liu

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

SkeletonLLM:通过可微渲染和MLLM实现通用骨骼理解

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 骨骼动作识别 可微渲染 知识蒸馏

📋 核心要点

  1. 现有方法难以让MLLM直接处理骨骼数据,存在信息损失或泛化性差的问题。
  2. SkeletonLLM通过可微渲染将骨骼数据转化为MLLM可处理的图像序列。
  3. 协同训练策略提升了模型在动作识别、运动描述和问答等任务上的性能。

📝 摘要(中文)

多模态大型语言模型(MLLM)展现出强大的视觉-语言推理能力,但仍局限于其原生模态,无法直接处理结构化的非视觉数据,如人体骨骼。现有方法要么将骨骼动态压缩成有损的特征向量用于文本对齐,要么将运动量化为离散的token,这些方法在异构骨骼格式上的泛化能力较差。我们提出了SkeletonLLM,通过将任意骨骼序列转换为MLLM的原生视觉模态来实现通用骨骼理解。其核心是DrAction,一个可微的、格式无关的渲染器,可以将骨骼运动学转换为紧凑的图像序列。由于整个流程是端到端可微的,MLLM的梯度可以直接指导渲染,以生成任务相关的视觉token。为了进一步增强推理能力,我们引入了一种协同训练策略:因果推理蒸馏从教师模型传递结构化的、逐步的推理过程,而判别微调则锐化了易混淆动作之间的决策边界。SkeletonLLM在开放词汇动作识别中表现出强大的泛化能力,并且其学习到的推理能力自然地扩展到跨异构骨骼格式的运动描述和问答,这表明了将MLLM应用于非原生模态的可行路径。代码将在接收后发布。

🔬 方法详解

问题定义:现有方法在处理人体骨骼数据时,要么将骨骼动态压缩成有损的特征向量,导致信息丢失,要么将运动量化为离散的token,导致在异构骨骼格式上的泛化能力较差。因此,如何让MLLM能够直接、有效地处理各种格式的骨骼数据,实现通用骨骼理解,是一个亟待解决的问题。

核心思路:论文的核心思路是将骨骼数据转换为MLLM能够直接处理的视觉模态数据。具体来说,通过一个可微渲染器将骨骼运动学信息渲染成图像序列,使得MLLM能够像处理图像一样处理骨骼数据。这种方法避免了信息损失,并且由于渲染器是格式无关的,因此可以处理各种格式的骨骼数据。

技术框架:SkeletonLLM的整体框架包括三个主要模块:DrAction(可微渲染器)、MLLM和协同训练策略。DrAction负责将骨骼数据渲染成图像序列;MLLM负责对图像序列进行视觉-语言推理;协同训练策略包括因果推理蒸馏和判别微调,用于提升MLLM的推理能力和决策边界。整个流程是端到端可微的,MLLM的梯度可以直接指导渲染过程。

关键创新:该论文的关键创新在于提出了DrAction,一个可微的、格式无关的骨骼渲染器。与现有方法相比,DrAction能够将各种格式的骨骼数据转换为MLLM能够直接处理的视觉模态数据,避免了信息损失,并且具有良好的泛化能力。此外,协同训练策略也进一步提升了模型的性能。

关键设计:DrAction的设计是格式无关的,可以处理各种格式的骨骼数据。渲染过程是可微的,使得MLLM的梯度可以直接指导渲染过程。协同训练策略包括因果推理蒸馏和判别微调。因果推理蒸馏通过从教师模型传递结构化的、逐步的推理过程来提升模型的推理能力。判别微调则通过锐化易混淆动作之间的决策边界来提升模型的判别能力。具体的损失函数和网络结构等技术细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SkeletonLLM在开放词汇动作识别任务中表现出强大的泛化能力。通过因果推理蒸馏和判别微调,模型在运动描述和问答任务中也取得了显著的性能提升。实验结果表明,该方法能够有效地利用MLLM的视觉-语言推理能力,实现对骨骼数据的通用理解。

🎯 应用场景

该研究成果可应用于动作识别、运动捕捉、人机交互、康复训练、游戏开发等领域。通过将骨骼数据转化为视觉信息,可以利用MLLM强大的视觉-语言推理能力,实现更智能、更自然的交互方式。未来,该方法有望扩展到其他非原生模态数据的处理,例如传感器数据、时间序列数据等。

📄 摘要(原文)

Multimodal large language models (MLLMs) exhibit strong visual-language reasoning, yet remain confined to their native modalities and cannot directly process structured, non-visual data such as human skeletons. Existing methods either compress skeleton dynamics into lossy feature vectors for text alignment, or quantize motion into discrete tokens that generalize poorly across heterogeneous skeleton formats. We present SkeletonLLM, which achieves universal skeleton understanding by translating arbitrary skeleton sequences into the MLLM's native visual modality. At its core is DrAction, a differentiable, format-agnostic renderer that converts skeletal kinematics into compact image sequences. Because the pipeline is end-to-end differentiable, MLLM gradients can directly guide the rendering to produce task-informative visual tokens. To further enhance reasoning capabilities, we introduce a cooperative training strategy: Causal Reasoning Distillation transfers structured, step-by-step reasoning from a teacher model, while Discriminative Finetuning sharpens decision boundaries between confusable actions. SkeletonLLM demonstrates strong generalization in open-vocabulary action recognition, while its learned reasoning capabilities naturally extend to motion captioning and question answering across heterogeneous skeleton formats -- suggesting a viable path for applying MLLMs to non-native modalities. Code will be released upon acceptance.