ReactorFold: Generative discovery of nuclear reactor cores via emergent physical reasoning

📄 arXiv: 2512.15756v1 📥 PDF

作者: Yoonpyo Lee

分类: cs.LG, cs.AI

发布日期: 2025-12-12


💡 一句话要点

ReactorFold:通过涌现物理推理生成核反应堆堆芯设计

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 核反应堆设计 生成模型 语言模型 直接偏好优化 物理推理

📋 核心要点

  1. 核反应堆堆芯设计面临复杂中子相互作用下的大规模离散设计空间挑战,传统方法受限于人工定义的设计空间。
  2. ReactorFold将燃料组件设计转化为语言模型的序列建模问题,通过学习潜在结构生成候选布局。
  3. 实验表明,该模型能自主调整Gd库存以满足功率峰值约束,并发现高性能非对称配置,超越传统方法。

📝 摘要(中文)

核反应堆堆芯设计需要在受复杂中子相互作用控制的大型离散设计空间中进行探索。传统的确定性、元启发式和机器学习辅助方法在固定的人工定义配置空间内搜索,限制了它们发现根本上新的设计拓扑的能力。本文介绍了一种生成框架ReactorFold,它将燃料组件设计重新定义为语言模型的序列建模问题。利用蒙特卡罗数据、参数高效微调和直接偏好优化(DPO),该模型学习压水堆组件的潜在结构,并在一次前向传递中生成候选布局。值得注意的是,DPO对齐的模型表现出涌现的设计空间扩展:尽管仅在具有固定数量的钆可燃吸收剂(Gd)棒的配置上进行训练,但它自主调整Gd库存以满足严格的功率峰值约束。该模型还发现了高性能的非对称配置,挑战了传统的对称加载启发式方法,访问了传统搜索方法无法访问的设计方案,并证明了语言模型可以内化因果物理关系并超越人为的设计约束。

🔬 方法详解

问题定义:核反应堆堆芯设计是一个复杂且高维的优化问题,目标是在满足安全约束(如功率峰值限制)的同时,最大化反应堆的性能。传统方法,包括确定性方法、元启发式算法和机器学习辅助方法,通常在预先定义好的、人为设定的配置空间内进行搜索。这些方法难以发现全新的设计拓扑,限制了创新性设计的探索。

核心思路:ReactorFold的核心思想是将燃料组件的设计过程视为一个序列生成问题,类似于自然语言处理中的文本生成。通过训练一个语言模型来学习现有堆芯设计的潜在结构和规则,然后利用该模型生成新的、可能的堆芯布局。这种方法允许模型在更大的设计空间内探索,并有可能发现超越人类直觉的优化方案。

技术框架:ReactorFold的整体框架包括以下几个主要步骤:1) 数据准备:使用蒙特卡罗方法生成大量的堆芯设计数据,包括燃料组件的类型、位置、以及相关的物理参数。2) 模型训练:使用参数高效微调(Parameter-Efficient Fine-Tuning, PEFT)技术,在一个预训练的语言模型上进行微调,使其能够学习堆芯设计的语言。3) 偏好优化:使用直接偏好优化(Direct Preference Optimization, DPO)方法,根据设计的性能指标(如功率峰值)对模型进行进一步的优化,使其能够生成更高质量的设计。4) 设计生成:使用训练好的模型生成新的堆芯布局,并进行评估和筛选。

关键创新:ReactorFold的关键创新在于将语言模型应用于核反应堆堆芯设计,并利用DPO进行偏好优化。与传统方法相比,ReactorFold能够自动学习设计规则,并在更大的设计空间内进行探索,从而发现更优的设计方案。此外,DPO的使用使得模型能够直接根据性能指标进行优化,避免了传统方法中需要手动设计奖励函数的困难。

关键设计:ReactorFold使用了参数高效微调技术,以减少训练所需的计算资源。DPO损失函数的设计至关重要,它直接影响了模型的优化方向和生成设计的质量。模型的具体架构(例如,Transformer的层数、隐藏层大小等)也需要根据具体问题进行调整。此外,蒙特卡罗数据的质量和数量也会影响模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReactorFold模型在实验中展现出强大的设计空间扩展能力,即使仅在固定Gd棒数量的配置上训练,也能自主调整Gd库存以满足功率峰值约束。此外,该模型还发现了高性能的非对称配置,挑战了传统的对称加载启发式方法,证明了语言模型在物理系统设计中的潜力。

🎯 应用场景

ReactorFold可应用于新型核反应堆堆芯的自动设计与优化,加速设计迭代过程,降低研发成本。该方法能够探索传统方法难以触及的设计空间,发现更安全、更高效的堆芯布局,对提升核能利用率和安全性具有重要意义。未来,该框架可扩展到其他工程设计领域,例如航空航天、材料科学等。

📄 摘要(原文)

Designing nuclear reactor cores requires navigating large discrete design spaces governed by complex neutronic interactions. Traditional deterministic, metaheuristic, and machine-learning-assisted methods search within fixed, human-defined configuration spaces, limiting their ability to discover fundamentally new design topologies. Here we introduce ReactorFold, a generative framework that reformulates fuel-assembly design as a sequence modeling problem for language models. Using Monte Carlo data, parameter-efficient fine-tuning, and Direct Preference Optimization (DPO), the model learns the latent structure of a pressurized-water-reactor assembly and generates candidate layouts in a single forward pass. Notably, the DPO-aligned model exhibits emergent design-space expansion: despite being trained exclusively on configurations with a fixed number of gadolinium burnable absorber (Gd) rods, it autonomously adjusts Gd inventory to satisfy strict power-peaking constraints. The model also discovers high-performing asymmetric configurations that challenge conventional symmetric loading heuristics, accessing design regimes inaccessible to conventional search methods and demonstrating that language models can internalize causal physical relationships and transcend human-imposed design constraints.