Learning Symmetry-Independent Jet Representations via Jet-Based Joint Embedding Predictive Architecture

📄 arXiv: 2412.05333v1 📥 PDF

作者: Subash Katel, Haoyang Li, Zihan Zhao, Raghav Kansal, Farouk Mokhtar, Javier Duarte

分类: hep-ph, cs.LG, hep-ex, physics.data-an

发布日期: 2024-12-05

备注: 5 pages, 2 figures. Accepted to Machine Learning for Physical Sciences NeurIPS 2024 workshop


💡 一句话要点

提出基于Jet的联合嵌入预测架构(J-JEPA),学习对称无关的Jet表征,用于高能物理中的Jet分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 Jet表征 高能物理 联合嵌入 Jet标记

📋 核心要点

  1. 高能物理中,Jet分析依赖于机器学习模型,但标注数据的缺乏限制了模型性能。
  2. J-JEPA通过预测Jet的物理目标,学习对称无关的Jet表征,无需手工设计数据增强。
  3. 实验表明,J-JEPA学习到的表征在Jet标记任务上表现良好,可作为跨任务基础模型。

📝 摘要(中文)

本研究提出了一种学习Jet表征的方法,无需手工设计的增强,该方法基于Jet的联合嵌入预测架构(J-JEPA),旨在从信息丰富的上下文中预测各种物理目标。与其他常见的自监督学习技术不同,J-JEPA不需要手工设计的增强,从而避免了引入可能损害下游任务的偏差。由于不同的任务通常需要在不同的增强下保持不变性,因此这种无需手工设计增强的训练能够实现多功能应用,为跨任务基础模型提供了一条途径。我们将J-JEPA学习到的表征用于Jet标记任务,并将其与特定于任务的表征进行基准测试。

🔬 方法详解

问题定义:高能物理中的Jet分析任务,例如Jet标记,通常需要大量的标注数据来训练机器学习模型。然而,获取这些标注数据成本高昂。现有的自监督学习方法通常依赖于手工设计的数据增强,这可能会引入偏差,损害下游任务的性能,并且缺乏通用性。

核心思路:论文的核心思路是利用Jet的内在物理属性,设计一个自监督学习框架,该框架能够学习到对称无关的Jet表征,而无需手工设计的数据增强。通过预测Jet的各种物理目标,模型可以学习到Jet的本质特征,从而避免了手工增强引入的偏差。

技术框架:J-JEPA的整体架构包含一个编码器和一个预测器。编码器将Jet数据编码成潜在表征,预测器则基于这些表征预测Jet的各种物理目标,例如能量、动量等。训练过程中,模型通过最小化预测误差来学习Jet的表征。该框架避免了手工设计的数据增强,而是依赖于Jet的内在物理属性来学习表征。

关键创新:J-JEPA的关键创新在于其无需手工设计数据增强的自监督学习方法。传统的自监督学习方法通常依赖于手工设计的数据增强,例如旋转、缩放等,这可能会引入偏差,损害下游任务的性能。J-JEPA通过预测Jet的各种物理目标来学习表征,避免了手工增强引入的偏差,从而提高了模型的泛化能力。

关键设计:J-JEPA的关键设计包括:1) 使用Transformer网络作为编码器和预测器,以捕捉Jet数据中的长程依赖关系;2) 设计多个物理目标作为预测任务,例如能量、动量、粒子数等,以提高模型的学习能力;3) 使用对比学习损失函数来鼓励模型学习到对称无关的表征;4) 采用动量编码器来稳定训练过程。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

J-JEPA在Jet标记任务上取得了与现有方法相当甚至更好的性能,同时避免了手工设计数据增强带来的偏差。实验结果表明,J-JEPA学习到的表征具有良好的泛化能力,可以作为跨任务的基础模型。具体性能数据未知,但论文强调了其在避免偏差和提高泛化能力方面的优势。

🎯 应用场景

该研究成果可应用于高能物理领域的Jet分析,例如Jet标记、Jet能量校正等。通过学习对称无关的Jet表征,可以提高机器学习模型在这些任务上的性能,并减少对标注数据的依赖。此外,该方法还可以推广到其他需要学习对称无关表征的领域,例如图像识别、自然语言处理等。

📄 摘要(原文)

In high energy physics, self-supervised learning (SSL) methods have the potential to aid in the creation of machine learning models without the need for labeled datasets for a variety of tasks, including those related to jets -- narrow sprays of particles produced by quarks and gluons in high energy particle collisions. This study introduces an approach to learning jet representations without hand-crafted augmentations using a jet-based joint embedding predictive architecture (J-JEPA), which aims to predict various physical targets from an informative context. As our method does not require hand-crafted augmentation like other common SSL techniques, J-JEPA avoids introducing biases that could harm downstream tasks. Since different tasks generally require invariance under different augmentations, this training without hand-crafted augmentation enables versatile applications, offering a pathway toward a cross-task foundation model. We finetune the representations learned by J-JEPA for jet tagging and benchmark them against task-specific representations.