Geometry-Aware Reinforcement Learning for 2D Irregular Nesting
作者: Auguste Lehuger, Guillaume Henon-Just
分类: cs.LG, cs.CV
发布日期: 2026-06-09
备注: 15 pages, 4 figures, 5 tables. Under review at the European Workshop on Reinforcement Learning (EWRL)
💡 一句话要点
提出几何感知强化学习以解决2D不规则排版问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 几何感知 强化学习 不规则排版 组合优化 多边形变换器 空间利用 机器学习
📋 核心要点
- 现有的启发式求解器对多边形几何形状缺乏敏感性,导致在2D不规则排版问题上效率低下。
- 本文提出通过强化学习结合几何感知神经编码器,自动发现几何先验并引导探索过程。
- 实验结果显示,训练后的代理在面积利用率上与Sparrow等最先进求解器相当,展示了强化学习的有效性。
📝 摘要(中文)
传统的2D不规则排版问题启发式求解器存在一个根本性限制:它们对多边形几何形状缺乏敏感性,依赖于引导的暴力搜索来导航连续放置空间。本文认为强化学习能够有效克服这一瓶颈。通过将优化策略与几何感知神经编码器相结合,代理可以自动从数据中发现丰富的几何先验,并利用这些学习到的直觉来战略性地引导探索。为此,我们提出了多边形变换器(PoT),一种新颖的架构,能够编码2D连续向量几何形状并允许跨多边形的注意力机制。我们将这一新架构与组合优化强化学习(CORL)训练框架结合,以寻找最优解。为支持这一范式,我们发布了一个基于复杂地理轮廓的开源训练数据集及专门的评估基准。我们的实证验证表明,训练后的代理在面积利用率方面与当前最先进的启发式求解器Sparrow具有高度竞争力,证明了强化学习能够成功发现和利用几何意识以实现精确的空间任务。
🔬 方法详解
问题定义:本文旨在解决2D不规则排版问题,现有方法在几何形状的利用上存在明显不足,导致排版效率低下。
核心思路:通过强化学习与几何感知神经编码器的结合,代理能够从数据中学习几何先验,从而更有效地进行排版探索。
技术框架:整体架构包括几何编码模块和强化学习优化模块,几何编码模块负责提取多边形特征,优化模块则基于这些特征进行策略更新。
关键创新:引入多边形变换器(PoT)架构,允许跨多边形的注意力机制,显著提升了几何信息的利用效率,与传统方法相比具有本质区别。
关键设计:在网络结构上,PoT采用了自注意力机制,损失函数设计为结合几何特征的优化目标,以确保学习到的策略能够有效应对复杂的排版任务。
🖼️ 关键图片
📊 实验亮点
实验结果表明,训练后的代理在面积利用率上达到了与Sparrow相当的水平,具体性能数据展示了在复杂几何形状处理上的显著提升,证明了强化学习在几何感知任务中的有效性。
🎯 应用场景
该研究的潜在应用领域包括制造业、物流、家具设计等需要高效空间利用的场景。通过优化排版过程,可以显著降低材料浪费,提高生产效率,具有重要的实际价值和未来影响。
📄 摘要(原文)
Traditional heuristic solvers for the 2D irregular nesting problem share a fundamental limitation: they are blind to polygon geometry, relying on guided brute-force to navigate the continuous placement space with minimal geometrical guidance. In this paper, we argue that Reinforcement Learning is uniquely positioned to overcome this bottleneck. By pairing an optimization policy with a geometry-aware neural encoder, an agent can automatically discover rich geometric priors directly from data, utilizing these learned intuitions to strategically guide exploration. To realize this, we introduce the Polygons Transformer (PoT), a novel architecture that encodes 2D continuous vector geometries while allowing cross-polygons attention. We couple this novel architecture with a Combinatorial Optimization Reinforcement Learning (CORL) training framework to find optimal solutions. To support this paradigm, we release an open-source training dataset derived from complex geographic contours alongside a dedicated evaluation benchmark. Our empirical validation demonstrates that our trained agent achieves area utilization performance highly competitive with Sparrow, the state-of-the-art heuristic solver, proving that reinforcement learning can successfully discover and exploit geometric awareness for precise spatial tasks.