Internalizing Geometric Law: Learning from Solver Residuals for Precision-Critical Generation
作者: Rafael Cabral, Pang Zixi, Ziyi Shou, Shen Xin
分类: cs.LG, cs.AI
发布日期: 2026-06-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出SAR以解决几何生成中的学习信号丢失问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 几何合成 奖励机制 学习信号 异常约束 模型优化 自动化设计 技术图纸
📋 核心要点
- 现有方法在精确几何合成中容易受到异常约束的影响,导致学习信号丢失,影响模型性能。
- 提出了饱和加性奖励(SAR),将奖励分解为有界的每个约束项,确保即使在严重违反情况下也能保持一致的梯度。
- SAR在与基于均方误差(MSE)奖励的自然基线对比中,提升了2.3倍的硬层解决率,显示出显著的性能改进。
📝 摘要(中文)
大型语言模型在技术图纸和机械设计等精确度要求高的领域常常出现幻觉,输出必须满足严格的几何约束。本文研究了从自然语言进行开放式几何合成的问题,旨在将自由形式的描述转化为精确的构造,同时满足多个相互作用的约束。为此,作者发布了可编程的几何DSL PyGeoX,并提出了饱和加性奖励(SAR)以解决在全局范数奖励下,单一异常约束可能会抹去其他约束的学习信号的问题。实验表明,SAR在几何求解器的硬层解决率上提升了2.3倍,并且所得到的8B模型在基准测试中与更大规模的前沿系统具有竞争力。
🔬 方法详解
问题定义:本文解决的是在几何生成任务中,由于异常约束导致的学习信号丢失问题。现有的全局范数奖励方法在处理多个约束时,容易受到单一异常约束的影响,导致整体学习效果下降。
核心思路:论文提出了饱和加性奖励(SAR),通过将奖励分解为每个约束的有界项,来保持部分进展并确保一致的梯度。这种设计使得模型在面对严重违反约束的情况下,仍能有效学习。
技术框架:整体架构包括PyGeoX几何DSL和PyGeoX-Bench基准测试套件。PyGeoX将声明性约束编译为可微损失,而PyGeoX-Bench提供了300个问题的分层奖励,便于验证每个约束的效果。
关键创新:最重要的技术创新是SAR的提出,它有效解决了全局范数奖励下的学习信号丢失问题,与传统的均方误差奖励方法相比,SAR能够更好地处理异常约束。
关键设计:在SAR中,奖励被设计为有界的每个约束项,确保即使在某些约束严重违反的情况下,模型仍能获得有效的学习信号。具体的损失函数和网络结构设计细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用SAR方法后,几何求解器的硬层解决率提升了2.3倍,相较于传统的均方误差奖励方法,表现出显著的性能优势。所提出的8B模型在基准测试中与更大规模的前沿系统具有竞争力,展示了其有效性。
🎯 应用场景
该研究的潜在应用领域包括技术图纸生成、机械设计和其他需要满足严格几何约束的领域。通过提高几何合成的精确度,SAR方法能够为工程设计、自动化制造等行业带来更高的效率和可靠性,未来可能推动智能设计工具的发展。
📄 摘要(原文)
Large Language Models frequently hallucinate in precision-critical domains such as technical diagramming and mechanical design, where outputs must satisfy strict geometric constraints. We study open-ended geometric synthesis from natural language: translating free-form descriptions into precise constructions whose entities must simultaneously satisfy dozens of interacting constraints. To make this tractable, we release PyGeoX, a programmable geometric DSL that compiles declarative constraints into a differentiable loss, and PyGeoX-Bench, a stratified suite of 300 problems with per-constraint verifiable rewards. Using PyGeoX as a verifier, we identify a failure mode we call Outlier Gradient Masking: under global-norm rewards (any scheme that aggregates residuals through a single norm, for example, $\exp(-\mathrm{MSE})$), a single outlier constraint can nullify the learning signal across all others. To address this, we propose Saturating Additive Rewards (SAR), which decompose the reward into bounded per-constraint terms, preserving partial progress and ensuring consistent gradients even under severe violations. Against MSE-based rewards, the natural baseline for geometry solvers, SAR improves the hard-tier solving rate by $2.3\times$, and the resulting 8B model is competitive with much larger frontier systems on this benchmark. We release the engine, benchmark, and data at https://github.com/Huawei-AI4Math/PyGeoX.