JODA: Composable Joint Dynamics for Articulated Objects
作者: Tianhong Gao, Cheng Yu, Yinghao Xu, Mengyu Chu
分类: cs.RO, cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出JODA框架:通过可组合的关节动力学建模实现铰接物体的精细化物理仿真
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 物理仿真 关节动力学 可微仿真 多模态推断 机器人操作
📋 核心要点
- 现有仿真方法多关注几何与运动学,缺乏对摩擦、阻尼等精细动力学行为的建模能力,导致交互真实感不足。
- 提出JODA框架,利用三通道结构化场与PCHIP插值,将复杂的关节动力学转化为可微分、可组合的函数空间。
- 通过视觉语言模型引导动力学原语推断,实现了从多模态输入到高保真动力学模型的自动化构建与优化。
📝 摘要(中文)
在仿真与具身智能领域,铰接物体通常仅由几何形状与运动学结构定义,缺乏摩擦保持、定位槽、软闭合及卡扣等精细动力学特征。现有方法要么完全忽略动力学细节,要么使用表达能力有限的简化模型。本文提出了JODA框架,通过在关节自由度上构建三通道结构化场,捕捉保守力、干摩擦与阻尼。该方法利用形状约束的分段三次插值(PCHIP)定义了一个紧凑且具有表达力的函数空间,既具备可解释性又兼容可微仿真。基于此表示,本文开发了从多模态输入中推断并优化关节动力学的方法:利用视觉语言模型(VLM)根据视觉观测与上下文提出结构化动力学原语,并将其组合为统一的动力学场。实验表明,JODA支持直接操作与基于梯度的优化,能够实现多样化关节行为的逼真建模与可控仿真。
🔬 方法详解
问题定义:现有铰接物体仿真主要依赖运动学约束,忽略了现实世界中常见的非线性动力学效应(如摩擦力、阻尼、卡扣感等),导致机器人与环境交互时缺乏物理真实感。
核心思路:将关节动力学建模为定义在自由度上的三通道函数场(保守力、干摩擦、阻尼),利用PCHIP插值保证函数的平滑性与形状约束,从而实现动力学行为的参数化与可微化。
技术框架:系统分为三个阶段:首先通过视觉语言模型(VLM)分析视觉输入与上下文,提取动力学原语;其次将这些原语组合成统一的动力学场;最后通过可微仿真器进行梯度优化,精炼动力学参数以匹配观测数据。
关键创新:引入了结构化动力学原语的概念,将复杂的物理行为解耦为可组合的函数模块;采用PCHIP插值替代传统的参数化模型,在保持函数表达力的同时,确保了物理上的合理性与可微性。
关键设计:采用三通道场表示法,分别对应保守力(势能)、干摩擦(非连续性处理)与阻尼(速度相关耗散);利用可微仿真框架,支持通过观测数据对动力学场进行反向传播优化,实现从粗略推断到精确建模的闭环。
🖼️ 关键图片
📊 实验亮点
JODA成功实现了对复杂关节行为(如软闭合、卡扣、摩擦保持)的精确建模,显著优于传统的简化动力学模型。实验证明,该方法在多模态输入下具有极高的推断准确性,且通过梯度优化能快速收敛至与真实物理观测高度一致的动力学参数,在保持可解释性的同时,展现了极强的泛化能力与交互控制性能。
🎯 应用场景
JODA在具身智能与机器人仿真领域具有广泛应用价值。它可用于构建高保真的数字孪生环境,提升机器人操作任务(如开门、抽屉抓取、工具使用)的仿真真实度。此外,该方法为机器人学习复杂接触动力学提供了统一接口,有助于提升策略在现实世界中的迁移能力,并支持交互式物理场景的快速编辑与生成。
📄 摘要(原文)
Articulated objects used in simulation and embodied AI are typically specified by geometry and kinematic structure, but lack the fine-grained dynamical effects that govern realistic mechanical behavior, such as frictional holding, detents, soft closing, and snap latching. Existing approaches either ignore the detailed structure of dynamics entirely, or use simple models with limited expressiveness. We introduce JODA, a framework for generating joint-level dynamics as a structured three-channel field over the joint degree of freedom, capturing conservative forces, dry friction, and damping. Instantiated using shape-constrained piecewise cubic interpolation (PCHIP), this formulation defines a compact and expressive function space that is both interpretable and compatible with differentiable simulation. Building on this representation, we develop methods for inferring and refining joint dynamics from multimodal inputs. Given visual observations and joint context, a vision-language model proposes structured dynamical primitives, which are composed into a unified dynamics field. The resulting representation supports both direct manipulation and gradient-based refinement. We demonstrate that JODA enables plausible and controllable modeling of diverse joint behaviors, providing a unified interface for inference, editing, and optimization. Code and example assets with their generated profiles will be released upon publication.