Transfer Learning Across Fast- and Full-Simulation Domains in High-Energy Physics

📄 arXiv: 2605.07471v1 📥 PDF

作者: Matthias Schott, Lucie Flek

分类: cs.LG, hep-ex

发布日期: 2026-05-08

备注: 16 pages, 8 figures


💡 一句话要点

提出基于迁移学习的跨模拟域训练框架,显著提升高能物理任务的模拟数据利用效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 迁移学习 高能物理 快速模拟 图神经网络 Transformer 数据效率 特征表示学习

📋 核心要点

  1. 高能物理中全模拟计算成本极高,而快速模拟虽高效但保真度不足,导致模型在不同模拟域间的泛化能力受限。
  2. 利用迁移学习策略,将模型在快速模拟数据上进行预训练,随后通过微调适配至全模拟或不同实验环境的模拟数据。
  3. 实验证明预训练模型在多项任务中均超越基线,且在目标域数据稀缺时,能显著降低对大规模标注样本的依赖。

📝 摘要(中文)

在高能物理领域,机器学习模型通常依赖模拟数据进行训练。全模拟(Full-simulation)样本计算成本高昂,而快速模拟(Fast-simulation)虽能提供海量统计数据,但真实性较低。本文系统性地研究了在真实LHC环境下,快速模拟与全模拟数据集之间的迁移学习。研究涵盖了信号-背景分类、夸克-胶子喷注标记及缺失横向能量重建三项代表性任务,并采用了深度神经网络、图神经网络及基于Transformer的架构。实验表明,在ATLAS类快速模拟上预训练的模型,能够有效迁移至CMS类快速模拟及ATLAS全模拟开放数据。结果显示,预训练模型在所有任务中均优于独立训练的基线模型,且对目标域训练数据的需求量显著降低,通常可减少约50%的统计样本需求。该研究证明了快速模拟可用于学习稳健且可复用的特征表示,并推动了将预训练模型作为科学资产进行共享的范式。

🔬 方法详解

问题定义:高能物理实验中,全模拟(Full-sim)虽然精确但计算开销巨大,难以满足海量数据需求;快速模拟(Fast-sim)虽能生成大量样本,但存在物理细节缺失。核心痛点在于如何利用低成本的快速模拟数据,为高成本的全模拟任务提供有效的预训练权重,从而提升模型性能并减少对昂贵模拟数据的依赖。

核心思路:引入迁移学习范式,假设快速模拟数据中蕴含了高能物理事件的通用特征表示。通过在快速模拟域进行大规模预训练,提取稳健的物理特征,再通过微调(Fine-tuning)将这些特征迁移至全模拟域,实现跨域知识共享。

技术框架:研究构建了包含三种架构的实验框架:用于处理标量特征的密集神经网络(DNN)、处理粒子流信息的图神经网络(GNN)以及捕捉长距离相关性的Transformer架构。流程分为预训练阶段(在快速模拟上学习)和适配阶段(在目标域进行微调)。

关键创新:首次系统性地验证了跨实验(ATLAS与CMS)及跨模拟精度(快速与全模拟)的迁移学习可行性。证明了即便模拟环境存在差异,预训练模型仍能提取出具有普适性的物理特征,从而打破了特定模拟器对模型训练的限制。

关键设计:采用了多种任务导向的架构设计,针对不同物理对象(如喷注、缺失能量)选择合适的特征提取器。损失函数设计遵循标准分类与回归任务,通过在目标域仅使用少量样本进行微调,验证了模型在数据受限场景下的鲁棒性与收敛速度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,预训练模型在信号-背景分类、喷注标记及能量重建任务中均优于从零开始训练的基线模型。最显著的贡献在于数据效率的提升:在达到相同性能水平的前提下,目标域所需的训练样本量平均减少了约50%,证明了该迁移学习策略在资源受限环境下的卓越表现。

🎯 应用场景

该方法可广泛应用于大型强子对撞机(LHC)等高能物理实验的数据分析流程中。通过将预训练模型作为可复用的科学资产,研究人员能显著降低对计算资源的依赖,加速新物理现象的发现,并为未来高亮度LHC实验中处理海量数据提供高效的机器学习解决方案。

📄 摘要(原文)

Machine-learning models in high-energy physics are often trained on simulated data, where fully simulated samples are computationally expensive while fast simulation provides large statistics at reduced realism. In this work, we systematically study transfer learning between fast-simulated and fully simulated datasets in a realistic LHC environment. We consider three representative tasks, signal-background classification, quark-gluon jet tagging, and missing transverse energy reconstruction, using dense neural networks, graph neural networks, and transformer-based architectures. Models are pretrained on ATLAS-like fast simulation and adapted to CMS-like fast simulation and to fully simulated ATLAS Open Data. Across all tasks, pretrained models consistently outperform independently trained baselines and require significantly less target-domain training data, typically reducing the needed statistics by about a factor of two. These results demonstrate that fast simulation can be used to learn robust, reusable representations and motivate publishing trained models as reusable scientific assets beyond large foundation models.