Universal Skeleton Understanding via Differentiable Rendering and MLLMs

作者: Ziyi Wang, Peiming Li, Xinshun Wang, Yang Tang, Kai-Kuang Ma, Mengyuan Liu

分类: cs.CV

发布日期: 2026-03-18

备注: 32 pages, 15 figures

💡 一句话要点

SkeletonLLM：通过可微渲染和MLLM实现通用骨骼理解

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 骨骼理解 可微渲染 多模态学习 大型语言模型 动作识别

📋 核心要点

现有方法在处理人体骨骼等非视觉结构化数据时，存在信息损失或泛化性不足的问题。
SkeletonLLM通过可微渲染将骨骼数据转换为MLLM可处理的图像序列，实现模态转换。
协同训练策略，包括因果推理蒸馏和判别式微调，进一步提升了模型的推理和判别能力。

📝 摘要（中文）

多模态大型语言模型(MLLM)展现出强大的视觉-语言推理能力，但仍局限于其原生模态，无法直接处理结构化的非视觉数据，如人体骨骼。现有方法要么将骨骼动态压缩成有损的特征向量进行文本对齐，要么将运动量化为离散的token，这些方法在异构骨骼格式上的泛化能力较差。我们提出了SkeletonLLM，通过将任意骨骼序列转换为MLLM的原生视觉模态，实现通用骨骼理解。其核心是DrAction，一个可微的、格式无关的渲染器，可以将骨骼运动学转换为紧凑的图像序列。由于整个流程是端到端可微的，MLLM的梯度可以直接指导渲染，从而产生任务相关的视觉token。为了进一步增强推理能力，我们引入了一种协同训练策略：因果推理蒸馏从教师模型传递结构化的、逐步的推理过程，而判别式微调则锐化了易混淆动作之间的决策边界。SkeletonLLM在包括识别、描述、推理和跨格式迁移等多种任务上表现出强大的泛化能力，为将MLLM应用于非原生模态提供了一条可行的途径。代码将在接收后发布。

🔬 方法详解

问题定义：现有方法在处理人体骨骼数据时，主要面临两个痛点。一是将骨骼动态压缩成特征向量，导致信息损失，影响后续的推理和理解。二是将运动量化为离散的token，虽然可以进行处理，但在不同骨骼格式之间泛化能力较差，难以适应多样化的应用场景。因此，如何让MLLM有效处理各种格式的骨骼数据，并充分利用其强大的视觉-语言推理能力，是一个亟待解决的问题。

核心思路：SkeletonLLM的核心思路是将骨骼数据转换为MLLM能够直接处理的视觉模态。具体来说，就是将骨骼的运动学信息渲染成图像序列，这样MLLM就可以像处理普通图像一样，对骨骼数据进行分析和理解。这种方法的关键在于，渲染过程是可微的，这意味着MLLM的梯度可以反向传播到渲染器，从而指导渲染器生成更具任务相关性的视觉token。

技术框架：SkeletonLLM的整体框架主要包括两个核心模块：DrAction（可微渲染器）和MLLM。首先，DrAction接收任意格式的骨骼序列作为输入，将其渲染成紧凑的图像序列。然后，这些图像序列被输入到MLLM中，进行后续的识别、描述、推理等任务。为了提升MLLM的推理能力，还引入了协同训练策略，包括因果推理蒸馏和判别式微调。因果推理蒸馏从教师模型学习结构化的推理过程，判别式微调则用于区分易混淆的动作。

关键创新：SkeletonLLM最重要的技术创新点在于DrAction，一个可微的、格式无关的渲染器。与传统的骨骼数据处理方法不同，DrAction可以将任意格式的骨骼序列转换为图像序列，从而实现了MLLM对非原生模态数据的处理。此外，DrAction的可微性使得MLLM的梯度可以指导渲染过程，从而生成更具任务相关性的视觉token。这种端到端的可微渲染方法是SkeletonLLM能够实现通用骨骼理解的关键。

关键设计：DrAction的设计需要考虑如何将骨骼的运动学信息有效地转换为图像序列。具体来说，可能涉及到骨骼的姿态表示、视角选择、光照模型等方面的设计。此外，协同训练策略中的因果推理蒸馏和判别式微调也需要精心设计。例如，因果推理蒸馏需要选择合适的教师模型，并设计合适的损失函数来指导学生模型的学习。判别式微调则需要选择合适的负样本，并设计合适的损失函数来锐化决策边界。具体的参数设置、损失函数、网络结构等技术细节需要在实验中进行调整和优化。

🖼️ 关键图片

📊 实验亮点

SkeletonLLM在多种任务上表现出强大的泛化能力，包括识别、描述、推理和跨格式迁移。实验结果表明，SkeletonLLM在这些任务上都取得了显著的性能提升，证明了其有效性和通用性。具体的性能数据和对比基线将在论文中详细展示。

🎯 应用场景

SkeletonLLM具有广泛的应用前景，例如在运动分析、康复训练、人机交互、游戏开发等领域。它可以用于识别运动员的动作，评估康复患者的运动能力，实现更自然的人机交互，以及创建更逼真的游戏角色动画。此外，该研究为将MLLM应用于其他非原生模态数据提供了借鉴，例如时间序列数据、图数据等。

📄 摘要（原文）

Multimodal large language models (MLLMs) exhibit strong visual-language reasoning, yet remain confined to their native modalities and cannot directly process structured, non-visual data such as human skeletons. Existing methods either compress skeleton dynamics into lossy feature vectors for text alignment, or quantize motion into discrete tokens that generalize poorly across heterogeneous skeleton formats. We present SkeletonLLM, which achieves universal skeleton understanding by translating arbitrary skeleton sequences into the MLLM's native visual modality. At its core is DrAction, a differentiable, format-agnostic renderer that converts skeletal kinematics into compact image sequences. Because the pipeline is end-to-end differentiable, MLLM gradients can directly guide the rendering to produce task-informative visual tokens. To further enhance reasoning capabilities, we introduce a cooperative training strategy: Causal Reasoning Distillation transfers structured, step-by-step reasoning from a teacher model, while Discriminative Finetuning sharpens decision boundaries between confusable actions. SkeletonLLM demonstrates strong generalization on diverse tasks including recognition, captioning, reasoning, and cross-format transfer -- suggesting a viable path for applying MLLMs to non-native modalities. Code will be released upon acceptance.

Universal Skeleton Understanding via Differentiable Rendering and MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理