DSO: Aligning 3D Generators with Simulation Feedback for Physical Soundness
作者: Ruining Li, Chuanxia Zheng, Christian Rupprecht, Andrea Vedaldi
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-03-28 (更新: 2025-08-28)
备注: Accepted at ICCV 2025 (Highlight). Project page: https://ruiningli.com/dso
💡 一句话要点
提出DSO框架,利用模拟反馈对齐3D生成器,提升生成对象的物理合理性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D对象生成 物理模拟 直接偏好优化 直接奖励优化 稳定性 自监督学习 生成模型对齐
📋 核心要点
- 现有3D生成方法忽略了物理约束,导致生成的对象在实际应用中可能不稳定,例如无法自支撑。
- DSO框架利用物理模拟器的反馈,直接优化3D生成器,使其更有可能生成稳定的3D对象。
- 通过DPO或DRO目标函数微调生成器,无需真实3D对象训练,即可显著提升生成稳定对象的效率和概率。
📝 摘要(中文)
大多数3D对象生成器优先考虑美观性,而忽略了实际应用所需的物理约束。其中一个约束是3D对象应该是自支撑的,即在重力作用下保持平衡。以往生成稳定3D对象的方法依赖于可微物理模拟器在测试时优化几何形状,这种方法速度慢、不稳定且容易陷入局部最优。受生成模型与外部反馈对齐文献的启发,我们提出了直接模拟优化(DSO)。该框架利用来自(不可微)模拟器的反馈,增加3D生成器直接输出稳定3D对象的可能性。我们构建了一个3D对象数据集,并用物理模拟器获得的稳定性分数进行标记。该数据集使得可以使用稳定性分数作为对齐指标,通过直接偏好优化(DPO)或直接奖励优化(DRO)来微调3D生成器。我们引入了一种新的目标函数DRO,用于在不需要成对偏好的情况下对齐扩散模型。实验表明,使用DPO或DRO目标函数微调后的前馈生成器,比测试时优化更快,并且更有可能生成稳定的对象。值得注意的是,DSO框架即使在没有任何用于训练的真实3D对象的情况下也能工作,允许3D生成器通过自动收集其自身输出的模拟反馈来自我改进。
🔬 方法详解
问题定义:论文旨在解决3D对象生成中物理合理性不足的问题,特别是生成对象在重力作用下的稳定性。现有方法依赖于测试时优化,即在生成后使用可微物理模拟器调整几何形状,但这种方法计算成本高昂,容易陷入局部最优,且依赖可微模拟器。
核心思路:论文的核心思路是利用非可微的物理模拟器提供的反馈信号,直接优化3D生成器,使其在生成阶段就尽可能地输出稳定的对象。通过这种方式,避免了耗时的测试时优化,并提高了生成稳定对象的概率。
技术框架:DSO框架包含以下几个主要步骤:1) 使用3D生成器生成大量3D对象;2) 使用物理模拟器评估这些对象的稳定性,并赋予相应的稳定性分数;3) 使用这些带有稳定性分数的数据集,通过直接偏好优化(DPO)或直接奖励优化(DRO)来微调3D生成器。DRO是论文提出的新目标函数,用于在没有成对偏好的情况下对齐扩散模型。
关键创新:论文的关键创新在于:1) 提出了DSO框架,将物理模拟反馈直接融入到3D生成器的训练过程中,避免了测试时优化;2) 提出了直接奖励优化(DRO)目标函数,用于在没有成对偏好的情况下对齐扩散模型,简化了训练流程;3) 实现了在没有真实3D对象数据的情况下,通过自监督的方式提升生成器的性能。
关键设计:DSO框架的关键设计包括:1) 使用物理模拟器计算稳定性分数,作为优化目标;2) 使用DPO或DRO作为损失函数,微调3D生成器;3) 构建包含3D对象和稳定性分数的数据集,用于训练生成器。DRO目标函数的具体形式未知,需要参考论文补充材料。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用DSO框架微调后的3D生成器,在生成稳定对象方面的速度和概率均显著优于测试时优化方法。具体性能数据未知,但论文强调DSO框架即使在没有真实3D对象数据的情况下也能有效工作,通过自监督学习提升生成器的性能。
🎯 应用场景
该研究成果可应用于机器人设计、建筑设计、游戏开发等领域。例如,可以用于生成稳定的机器人结构,设计不易倒塌的建筑物,或创建符合物理规则的游戏场景。通过提升3D对象的物理合理性,可以减少设计迭代次数,提高效率,并降低实际应用中的风险。
📄 摘要(原文)
Most 3D object generators prioritize aesthetic quality, often neglecting the physical constraints necessary for practical applications. One such constraint is that a 3D object should be self-supporting, i.e., remain balanced under gravity. Previous approaches to generating stable 3D objects relied on differentiable physics simulators to optimize geometry at test time, which is slow, unstable, and prone to local optima. Inspired by the literature on aligning generative models with external feedback, we propose Direct Simulation Optimization (DSO). This framework leverages feedback from a (non-differentiable) simulator to increase the likelihood that the 3D generator directly outputs stable 3D objects. We construct a dataset of 3D objects labeled with stability scores obtained from the physics simulator. This dataset enables fine-tuning of the 3D generator using the stability score as an alignment metric, via direct preference optimization (DPO) or direct reward optimization (DRO) - a novel objective we introduce to align diffusion models without requiring pairwise preferences. Our experiments demonstrate that the fine-tuned feed-forward generator, using either the DPO or DRO objective, is significantly faster and more likely to produce stable objects than test-time optimization. Notably, the DSO framework functions even without any ground-truth 3D objects for training, allowing the 3D generator to self-improve by automatically collecting simulation feedback on its own outputs.