Towards foundation-style models for energy-frontier heterogeneous neutrino detectors via self-supervised pre-training
作者: Saúl Alonso-Monsalve, Fabio Cufino, Umut Kose, Anna Mascellani, André Rubbia
分类: hep-ex, cs.CV
发布日期: 2026-04-08
备注: 18 pages, 6 figures
💡 一句话要点
提出基于自监督预训练的稀疏ViT模型,用于能量前沿异构中微子探测器
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 中微子探测器 自监督学习 稀疏ViT 掩码自编码器 关系学习 能量前沿 深度学习
📋 核心要点
- 传统中微子探测器数据重建方法在高能量、数据稀缺和多目标分析场景下表现不佳。
- 提出基于稀疏ViT的自监督预训练框架,结合掩码自编码器和关系体素级目标,学习可重用表示。
- 实验表明,该方法在多个任务上优于从头训练,且数据效率高,可迁移到不同探测器。
📝 摘要(中文)
基于加速器的中微子物理学正进入能量前沿阶段,相互作用达到TeV尺度,产生异常密集、重叠的探测器信号。在这种情况下,对于传统的重建方法而言,事件解释变得不切实际,尤其是在标记数据稀缺且分析跨越不同的下游目标时。我们提出了一个稀疏ViT框架,用于从异构探测器数据中学习可重用的表示。自监督预训练结合了掩码自编码器重建与关系体素级目标,用于层级、虚假信号和粒子识别,然后对生成的共享编码器进行跨分类和回归任务的联合微调。在LHC上提出的FASERCal概念的模拟事件评估中,我们发现预训练始终优于从头开始训练,从而改善了中微子味和魅夸克识别、动量回归和顶点重建,并且关系目标的添加在拓扑最复杂的通道中产生了进一步的收益。可解释性分析进一步表明,预训练产生了更结构化的潜在空间,而探测器子系统消融恢复了异构输入的物理上合理的通道依赖性角色。数据效率研究表明,使用大约10^3个标记事件,预训练的编码器已经匹配了在多一个数量级的数据上训练的随机初始化模型的风味分类性能。学习到的表示还可以有效地转移到跨越不同探测器技术和能量尺度的公开基准,匹配或超过已发布的基线。这些结果支持对多模态探测器数据进行自监督预训练,作为一种可扩展的途径,以实现中微子和粒子探测器分析的可重用表示。
🔬 方法详解
问题定义:论文旨在解决能量前沿中微子探测器数据分析中,由于相互作用复杂、标记数据稀缺以及分析目标多样化,传统重建方法难以有效解释事件的问题。现有方法在处理高密度、重叠的探测器信号时,精度和效率都面临挑战,需要大量标注数据,且难以泛化到不同类型的探测器。
核心思路:论文的核心思路是利用自监督学习从大量未标记的异构探测器数据中学习通用的、可重用的特征表示。通过预训练,模型能够捕捉到探测器数据的内在结构和关系,从而在后续的下游任务中,即使在标记数据有限的情况下,也能取得更好的性能。这种方法旨在减少对大量标注数据的依赖,并提高模型在不同探测器和能量尺度上的泛化能力。
技术框架:整体框架包含两个主要阶段:自监督预训练和有监督微调。在预训练阶段,使用稀疏ViT作为骨干网络,结合掩码自编码器(MAE)进行重建任务,并引入关系体素级目标,以学习层级关系、区分虚假信号和识别粒子。在微调阶段,将预训练的编码器应用于各种下游任务,如中微子味识别、魅夸克识别、动量回归和顶点重建等。这些任务通过联合微调来优化共享编码器。
关键创新:论文的关键创新在于将自监督学习应用于能量前沿中微子探测器数据分析,并结合了掩码自编码器和关系体素级目标。与传统的有监督学习方法相比,该方法能够利用大量的未标记数据,学习更鲁棒和泛化的特征表示。关系体素级目标的引入,进一步增强了模型对探测器数据内在结构的理解。
关键设计:论文的关键设计包括:1) 使用稀疏ViT来处理高维稀疏的探测器数据;2) 结合掩码自编码器进行重建,迫使模型学习数据的内在结构;3) 引入关系体素级目标,包括层级关系、虚假信号识别和粒子识别,以增强模型对物理过程的理解;4) 通过联合微调,将预训练的编码器应用于多个下游任务,实现知识迁移。
🖼️ 关键图片
📊 实验亮点
实验结果表明,自监督预训练显著提升了中微子味和魅夸克识别、动量回归和顶点重建的性能。使用约1000个标记事件,预训练模型即可达到随机初始化模型在更多数据上的性能。学习到的表示能够有效迁移到不同探测器技术和能量尺度的公开基准,匹配或超过已发布的基线。
🎯 应用场景
该研究成果可应用于下一代能量前沿中微子实验,例如DUNE和Hyper-Kamiokande,提高事件重建和分析的效率和精度。此外,该方法也可推广到其他粒子探测器领域,例如高能物理实验和宇宙射线探测,为复杂探测器数据的分析提供了一种新的思路。
📄 摘要(原文)
Accelerator-based neutrino physics is entering an energy-frontier regime in which interactions reach the TeV scale and produce exceptionally dense, overlapping detector signatures. In this regime, event interpretation becomes impractical for conventional reconstruction approaches, particularly when labelled data are scarce and the analysis spans diverse downstream objectives. We present a sparse ViT framework for learning reusable representations from heterogeneous detector data. Self-supervised pre-training combines masked autoencoder reconstruction with relational voxel-level objectives for hierarchy, ghost and particle identification, and the resulting shared encoder is then jointly fine-tuned across classification and regression tasks. Evaluated on simulated events from the proposed FASERCal concept at the LHC, we find that pre-training consistently improves neutrino flavour and charm-quark identification, momentum regression, and vertex reconstruction over training from scratch, with the addition of relational objectives yielding further gains in the most topologically complex channels. Interpretability analyses further show that pre-training yields a more structured latent space, while detector-subsystem ablations recover physically plausible channel-dependent roles for the heterogeneous inputs. A data-efficiency study shows that, with roughly $10^3$ labelled events, the pre-trained encoder already matches the flavour-classification performance of a randomly initialised model trained on an order of magnitude more data. The learned representations also transfer effectively to publicly available benchmarks spanning different detector technologies and energy scales, matching or exceeding published baselines. These results support self-supervised pre-training on multimodal detector data as a scalable route towards reusable representations for neutrino and particle-detector analysis.