Pretrained Event Classification Model for High Energy Physics Analysis
作者: Joshua Ho, Benjamin Ryan Roberts, Shuo Han, Haichen Wang
分类: hep-ph, cs.LG
发布日期: 2024-12-14
备注: 9 pages, 1 figure
💡 一句话要点
提出基于图神经网络的预训练事件分类模型,提升高能物理分析性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 高能物理 事件分类 预训练模型 图神经网络 深度学习
📋 核心要点
- 高能物理事件分类面临数据量大、类别复杂等挑战,现有方法在小样本场景下表现不佳。
- 利用图神经网络学习碰撞事件的通用表征,通过多分类和多标签任务进行预训练,提升模型泛化能力。
- 实验表明,微调后的预训练模型在多个事件分类任务上显著提升性能,尤其在数据有限的情况下。
📝 摘要(中文)
本文提出了一种用于高能物理事件分类的基础模型,该模型基于图神经网络架构,并在包含12种不同物理过程的1.2亿次模拟质子-质子碰撞事件上进行训练。该模型通过具有挑战性的多分类和多标签分类任务进行预训练,以学习碰撞数据的一般和鲁棒表示。其性能在五个事件分类任务上进行评估,包括预训练期间使用的物理过程和预训练期间未遇到的新过程。微调预训练模型显著提高了分类性能,尤其是在训练数据有限的情况下,从而提高了准确性和计算效率。为了研究这些性能改进背后的潜在机制,我们采用了一种基于中心核对齐的表征相似性评估框架。该分析揭示了微调后的预训练模型与从头开始训练的基线模型相比,学习到的表征存在显著差异。
🔬 方法详解
问题定义:高能物理实验中,事件分类是关键环节,旨在识别不同类型的物理过程。现有方法在处理复杂、高维的碰撞数据时,尤其是在训练数据有限的情况下,分类精度和泛化能力面临挑战。传统的机器学习方法往往需要大量人工特征工程,且难以捕捉碰撞事件中复杂的粒子间关系。
核心思路:本文的核心思路是利用预训练技术,学习一个通用的、鲁棒的碰撞事件表征。通过在大规模模拟数据上进行预训练,模型能够学习到不同物理过程的共性特征,从而在下游任务中实现更好的泛化性能。这种方法类似于自然语言处理中的预训练语言模型,旨在利用海量数据提升模型在特定任务上的表现。
技术框架:该模型采用图神经网络(GNN)作为基础架构,将碰撞事件表示为一个图,其中节点代表粒子,边代表粒子间的相互作用。整个流程包括以下几个阶段:1) 数据预处理:将模拟的质子-质子碰撞事件转化为图结构;2) 预训练:使用大规模模拟数据,在多分类和多标签分类任务上训练GNN模型;3) 微调:在特定事件分类任务上,使用少量真实数据对预训练模型进行微调;4) 评估:在测试集上评估微调后模型的性能。
关键创新:最重要的技术创新点在于将预训练技术引入高能物理事件分类领域,并利用图神经网络来处理碰撞事件的复杂结构。与传统的基于手工特征的方法相比,该方法能够自动学习数据中的有效特征,并更好地捕捉粒子间的关系。此外,通过多分类和多标签任务进行预训练,增强了模型的泛化能力。
关键设计:GNN的具体结构未知,但可以推测其包含消息传递机制,用于聚合邻居节点的信息。损失函数可能包括交叉熵损失,用于多分类任务,以及二元交叉熵损失,用于多标签任务。预训练阶段的关键参数包括学习率、batch size、训练轮数等。微调阶段也需要调整学习率等参数,以适应特定任务的数据分布。
🖼️ 关键图片
📊 实验亮点
实验结果表明,微调后的预训练模型在多个事件分类任务上显著提升了性能。尤其是在训练数据有限的情况下,预训练模型的优势更加明显。具体提升幅度未知,但摘要强调了准确性和计算效率的提升。通过表征相似性评估,发现微调后的预训练模型学习到的表征与从头开始训练的模型存在显著差异,表明预训练确实能够学习到有用的通用特征。
🎯 应用场景
该研究成果可应用于高能物理实验的数据分析,例如大型强子对撞机(LHC)的实验数据分析。通过提高事件分类的准确性和效率,可以更有效地寻找新的物理现象,验证现有的物理理论,并加深对宇宙基本规律的理解。此外,该方法也可推广到其他需要处理复杂关系数据的领域,如社交网络分析、生物信息学等。
📄 摘要(原文)
We introduce a foundation model for event classification in high-energy physics, built on a Graph Neural Network architecture and trained on 120 million simulated proton-proton collision events spanning 12 distinct physics processes. The model is pretrained to learn a general and robust representation of collision data using challenging multiclass and multilabel classification tasks. Its performance is evaluated across five event classification tasks, which include both physics processes used during pretraining and new processes not encountered during pretraining. Fine-tuning the pretrained model significantly improves classification performance, particularly in scenarios with limited training data, demonstrating gains in both accuracy and computational efficiency. To investigate the underlying mechanisms behind these performance improvements, we employ a representational similarity evaluation framework based on Centered Kernel Alignment. This analysis reveals notable differences in the learned representations of fine-tuned pretrained models compared to baseline models trained from scratch.