DailyArt: Discovering Articulation from Single Static Images via Latent Dynamics

📄 arXiv: 2604.07758v1 📥 PDF

作者: Hang Zhang, Qijian Tian, Jingyu Gong, Daoguo Dong, Xuhong Wang, Yuan Xie, Xin Tan

分类: cs.CV, cs.AI

发布日期: 2026-04-09

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DailyArt:通过潜在动态从单张静态图像中发现铰接结构

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰接物体 关节估计 单张图像 合成辅助推理 集合预测 具身智能 图像合成

📋 核心要点

  1. 现有方法在单张图像中估计铰接物体关节时,面临严重遮挡导致运动线索缺失的挑战。
  2. DailyArt通过合成最大程度铰接的开放状态,暴露铰接线索,再从观测状态和合成状态的差异中估计关节参数。
  3. 实验表明,DailyArt在铰接关节估计方面表现出色,并支持基于关节条件的部件级新状态合成。

📝 摘要(中文)

铰接物体对于具身智能和世界模型至关重要,但从单个闭合状态图像中推断其运动学仍然具有挑战性,因为关键的运动线索经常被遮挡。现有方法要么需要多状态观测,要么依赖于显式的部件先验、检索或其他辅助输入,这些输入部分地暴露了要推断的结构。本文提出了DailyArt,它将从单个静态图像中进行铰接关节估计,转化为一个以合成为媒介的推理问题。DailyArt没有直接从严重遮挡的观测中回归关节,而是首先在相同的相机视角下合成一个最大程度铰接的开放状态,以暴露铰接线索,然后从观测状态和合成状态之间的差异中估计完整的关节参数集。使用集合预测公式,DailyArt可以同时恢复所有关节,而无需对象特定的模板、多视图输入或测试时的显式部件注释。该框架以估计的关节为条件,进一步支持部件级的新状态合成,作为一种下游能力。大量实验表明,DailyArt在铰接关节估计方面取得了强大的性能,并支持以关节为条件的部件级新状态合成。项目主页见https://rangooo123.github.io/DaliyArt.github.io/。

🔬 方法详解

问题定义:论文旨在解决从单张静态图像中准确估计铰接物体关节参数的问题。现有方法要么依赖多视角信息,要么需要预先知道物体的部件信息或模板,这限制了其在实际场景中的应用。由于单张图像通常存在严重的遮挡,直接回归关节位置非常困难。

核心思路:论文的核心思想是“合成辅助推理”。通过合成一个最大程度铰接的、无遮挡的物体状态,可以显露出原本被遮挡的关节信息。然后,通过比较原始图像和合成图像之间的差异,可以更准确地推断出关节的位置和参数。这种方法将关节估计问题转化为一个图像合成和差异分析的问题。

技术框架:DailyArt框架主要包含两个阶段:1) 开放状态合成:从输入的闭合状态图像合成一个最大程度铰接的开放状态图像,该合成过程在相同的相机视角下进行。2) 关节参数估计:比较原始闭合状态图像和合成的开放状态图像,利用差异信息估计完整的关节参数集。框架采用集合预测公式,一次性预测所有关节,避免了迭代或分步估计带来的误差累积。

关键创新:该论文的关键创新在于提出了“合成辅助推理”的范式,将铰接关节估计问题转化为一个图像合成问题。通过合成开放状态,有效地解决了单张图像中遮挡带来的信息缺失问题。此外,使用集合预测公式,避免了对物体特定模板或多视角信息的依赖,提高了模型的泛化能力。

关键设计:DailyArt使用一个生成模型来合成开放状态图像,该生成模型以原始闭合状态图像为输入。损失函数的设计至关重要,包括图像重建损失(保证合成图像的真实性)和关节一致性损失(保证合成图像的关节位置与估计的关节参数一致)。网络结构方面,可能采用了U-Net或类似的编码器-解码器结构,以实现图像的生成和重建。集合预测公式的具体实现可能采用了Transformer或类似的序列到序列模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DailyArt在铰接关节估计任务上取得了显著的性能提升,无需多视角输入或显式部件标注。实验结果表明,该方法能够准确地估计铰接物体的关节参数,并支持基于估计关节的部件级新状态合成。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

DailyArt的研究成果可应用于机器人操作、虚拟现实/增强现实、游戏开发等领域。例如,机器人可以利用该技术理解和操作铰接物体,如打开抽屉或组装家具。在VR/AR中,可以根据单张图像重建铰接物体的3D模型,并进行交互。该技术还有助于创建更逼真的游戏角色动画。

📄 摘要(原文)

Articulated objects are essential for embodied AI and world models, yet inferring their kinematics from a single closed-state image remains challenging because crucial motion cues are often occluded. Existing methods either require multi-state observations or rely on explicit part priors, retrieval, or other auxiliary inputs that partially expose the structure to be inferred. In this work, we present DailyArt, which formulates articulated joint estimation from a single static image as a synthesis-mediated reasoning problem. Instead of directly regressing joints from a heavily occluded observation, DailyArt first synthesizes a maximally articulated opened state under the same camera view to expose articulation cues, and then estimates the full set of joint parameters from the discrepancy between the observed and synthesized states. Using a set-prediction formulation, DailyArt recovers all joints simultaneously without requiring object-specific templates, multi-view inputs, or explicit part annotations at test time. Taking estimated joints as conditions, the framework further supports part-level novel state synthesis as a downstream capability. Extensive experiments show that DailyArt achieves strong performance in articulated joint estimation and supports part-level novel state synthesis conditioned on joints. Project page is available at https://rangooo123.github.io/DaliyArt.github.io/.