FeynTune: Large Language Models for High-Energy Theory

📄 arXiv: 2508.03716v1 📥 PDF

作者: Paul Richmond, Prarit Agarwal, Borun Chowdhury, Vasilis Niarchos, Constantinos Papageorgakis

分类: cs.CL, cs.LG, hep-th

发布日期: 2025-07-24

备注: 16 pages


💡 一句话要点

FeynTune:利用大型语言模型进行高能理论研究的专用模型微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 高能物理 微调 低秩适应 领域特定模型

📋 核心要点

  1. 现有通用大型语言模型在高能物理理论方面存在知识不足,难以胜任相关任务。
  2. 通过在特定领域arXiv摘要上微调Llama-3.1,构建专用的高能物理语言模型FeynTune。
  3. 实验表明,FeynTune在hep-th摘要补全任务上优于基础模型和部分商业LLM。

📝 摘要(中文)

本文提出了一系列专用于高能理论物理的大型语言模型,这些模型是基于拥有80亿参数的Llama-3.1模型微调得到的20个变体。每个变体都使用来自arXiv的摘要(截至2024年8月),这些摘要来自hep-th、hep-ph和gr-qc的不同组合。为了进行比较研究,我们还在包含来自不同领域(如q-bio和cs类别)摘要的数据集上训练了模型。所有模型都使用两种不同的低秩适应微调方法和不同大小的数据集进行微调,并且在hep-th摘要补全任务上优于基础模型。我们将性能与领先的商业LLM(ChatGPT、Claude、Gemini、DeepSeek)进行比较,并为进一步开发用于高能理论物理的专用语言模型提供了见解。

🔬 方法详解

问题定义:论文旨在解决通用大型语言模型在高能理论物理领域的知识不足问题。现有通用LLM在处理高能物理相关任务时,由于缺乏特定领域的训练数据,表现往往不尽如人意,无法满足研究人员的需求。因此,需要开发专门针对高能物理领域的语言模型。

核心思路:论文的核心思路是通过在特定领域的数据集上对预训练的大型语言模型进行微调,使其具备更强的领域知识和问题解决能力。具体而言,选择Llama-3.1作为基础模型,并利用arXiv上高能物理相关的摘要数据进行微调,从而构建专用的高能物理语言模型FeynTune。

技术框架:整体框架包括以下几个主要步骤:1) 数据收集:从arXiv收集hep-th、hep-ph和gr-qc等类别下的论文摘要;2) 模型选择:选择Llama-3.1作为基础模型;3) 微调方法:采用两种不同的低秩适应(Low-Rank Adaptation, LoRA)微调方法;4) 模型训练:使用不同大小的数据集对模型进行微调,得到多个FeynTune变体;5) 性能评估:在hep-th摘要补全任务上评估模型的性能,并与基础模型和商业LLM进行比较。

关键创新:论文的关键创新在于针对高能理论物理领域,系统性地研究了大型语言模型的微调方法。通过比较不同数据集、不同微调方法和不同模型规模的影响,为开发专用的高能物理语言模型提供了宝贵的经验。此外,论文还对FeynTune与领先的商业LLM进行了对比,为进一步提升模型性能指明了方向。

关键设计:论文采用了低秩适应(LoRA)微调方法,这是一种参数高效的微调技术,可以在不修改原始模型参数的情况下,通过引入少量可训练的参数来适应特定任务。具体而言,论文使用了两种不同的LoRA变体,并探索了不同LoRA配置对模型性能的影响。此外,论文还使用了不同大小的数据集进行微调,以研究数据规模对模型性能的影响。损失函数方面,通常采用交叉熵损失函数来优化语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过在特定领域的数据集上进行微调,FeynTune在hep-th摘要补全任务上优于基础模型Llama-3.1。此外,部分FeynTune变体在某些指标上甚至超过了领先的商业LLM,如ChatGPT、Claude和Gemini,证明了领域特定微调的有效性。论文还比较了不同微调方法和数据集大小对模型性能的影响,为进一步优化模型提供了依据。

🎯 应用场景

该研究成果可应用于高能物理理论研究的多个方面,例如自动生成论文摘要、辅助文献检索、提供研究思路等。通过构建专用的高能物理语言模型,可以提高研究效率,促进该领域的发展。未来,该方法还可以推广到其他科学领域,为科研人员提供更强大的工具。

📄 摘要(原文)

We present specialized Large Language Models for theoretical High-Energy Physics, obtained as 20 fine-tuned variants of the 8-billion parameter Llama-3.1 model. Each variant was trained on arXiv abstracts (through August 2024) from different combinations of hep-th, hep-ph and gr-qc. For a comparative study, we also trained models on datasets that contained abstracts from disparate fields such as the q-bio and cs categories. All models were fine-tuned using two distinct Low-Rank Adaptation fine-tuning approaches and varying dataset sizes, and outperformed the base model on hep-th abstract completion tasks. We compare performance against leading commercial LLMs (ChatGPT, Claude, Gemini, DeepSeek) and derive insights for further developing specialized language models for High-Energy Theoretical Physics.