Fine-Tuning Small Reasoning Models for Quantum Field Theory
作者: Nathaniel S. Woodward, Zhiqi Gao, Yurii Kvasiuk, Kendrick M. Smith, Frederic Sala, Moritz Münchmeyer
分类: cs.LG, cs.AI, hep-ph, hep-th
发布日期: 2026-04-21
💡 一句话要点
微调小型推理模型解决量子场论问题,并开源数据与代码。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 量子场论 语言模型微调 强化学习 监督学习 数据生成 物理推理 思维链分析
📋 核心要点
- 现有大型语言模型在理论物理领域的应用缺乏对领域特定推理能力发展过程的深入研究。
- 论文提出了一种数据生成管道,用于创建合成问题和改编现有问题,以解决训练数据稀缺的问题。
- 通过强化学习和监督微调实验,验证了模型在量子场论问题上的性能提升和泛化能力。
📝 摘要(中文)
尽管大型语言模型(LLM)在理论物理学中的应用日益广泛,但学术界对这些模型在训练过程中领域特定物理推理能力的发展研究甚少。为了研究这个问题,我们首次对专门用于理论物理学的小型(70亿参数)推理模型进行了学术微调研究。由于训练此类能力所需的开源可验证训练数据稀缺,我们开发了一个强大的数据生成管道,既可以创建合成问题,也可以使现有的人工编写问题适合模型训练。我们选择量子场论(QFT)作为主要领域,生成了超过2500个合成问题,以及来自arXiv和标准教学资源的人工改编问题集合。我们进行了强化学习(RL)和监督微调(SFT)实验,对性能提升以及对其他物理领域的泛化进行了基准测试。我们对微调前后模型中的思维链进行了广泛的分析,以了解推理错误在RL和SFT期间如何演变。最后,我们公开发布了我们的数据管道、可验证的QFT训练数据以及约2亿个QFT推理轨迹。
🔬 方法详解
问题定义:论文旨在研究如何通过微调小型语言模型,使其具备解决量子场论(QFT)问题的能力。现有方法依赖于大型语言模型,但缺乏对模型推理能力发展过程的深入理解,并且缺乏高质量的、可验证的QFT训练数据。
核心思路:论文的核心思路是构建一个数据生成管道,自动生成或改编QFT问题,从而解决训练数据不足的问题。然后,通过监督微调(SFT)和强化学习(RL)方法,训练小型语言模型,使其具备解决QFT问题的能力。通过分析模型的思维链,理解推理错误是如何演变的。
技术框架:整体框架包括以下几个主要模块:1) 数据生成管道:用于生成合成QFT问题和改编现有问题。2) 模型微调:使用SFT和RL方法对小型语言模型进行微调。3) 模型评估:评估模型在QFT问题上的性能,并分析模型的思维链。4) 数据和代码开源:公开数据生成管道、QFT训练数据和推理轨迹。
关键创新:论文的关键创新在于数据生成管道的构建,该管道能够自动生成或改编QFT问题,从而解决了训练数据稀缺的问题。此外,论文还对小型语言模型在QFT问题上的推理能力进行了深入研究,并分析了推理错误是如何演变的。
关键设计:论文的关键设计包括:1) 数据生成管道的设计,需要保证生成的问题具有多样性和可解性。2) SFT和RL方法的选择和参数设置,需要根据QFT问题的特点进行调整。3) 模型思维链的分析方法,需要能够准确地识别推理错误并理解其原因。
📊 实验亮点
论文通过实验验证了微调小型推理模型在量子场论问题上的有效性。生成了超过2500个合成问题,并结合人工改编的问题进行训练。实验结果表明,经过微调的模型在QFT问题上取得了显著的性能提升,并且具备一定的泛化能力。同时,论文还开源了数据管道、QFT训练数据和推理轨迹。
🎯 应用场景
该研究成果可应用于理论物理学教育、科研以及自动化问题求解等领域。通过微调小型推理模型,可以辅助物理学家进行研究,加速科研进程。此外,该研究提供的数据集和代码可以促进相关领域的研究,推动人工智能在科学领域的应用。
📄 摘要(原文)
Despite the growing application of Large Language Models (LLMs) to theoretical physics, there is little academic exploration into how domain-specific physics reasoning ability develops while training these models. To investigate this, we perform the first academic fine-tuning study of small (7B-parameter) reasoning models dedicated specifically to theoretical physics. Because open-source verifiable training data required to train such capabilities is scarce, we developed a robust data generation pipeline that can both create synthetic problems and make existing human-authored problems suitable for model training. Selecting Quantum Field Theory (QFT) as our primary domain, we generated over 2,500 synthetic problems alongside a curated collection of human-adapted problems sourced from arXiv and standard pedagogical resources. We conduct both Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT) experiments, benchmarking performance gains as well as generalization to other physics domains. We perform an extensive analysis of model chains-of-though before and after fine-tuning, to understand how reasoning errors evolve during RL and SFT. Finally, we publicly release our data pipeline, verifiable QFT training data, and $\sim$200M tokens of QFT reasoning traces.