Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them
作者: Jiahe Jin, Abhijay Paladugu, Chenyan Xiong
分类: cs.AI, cs.LG
发布日期: 2025-10-08 (更新: 2026-01-16)
🔗 代码/项目: GITHUB
💡 一句话要点
提出行为启动(Behavior Priming)方法,提升Agentic Search中LLM的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic Search 大型语言模型 推理能力 行为启动 强化学习
📋 核心要点
- Agentic Search依赖LLM进行复杂信息搜索,但现有方法缺乏对有效推理行为的明确定义和学习机制。
- 论文提出Behavior Priming方法,通过监督微调(SFT)使模型具备信息验证、权威评估等有益推理行为,再进行强化学习(RL)。
- 实验表明,Behavior Priming在Web和多跳QA基准测试上显著优于直接RL和其他SFT-then-RL方法,提升了探索能力和测试时性能。
📝 摘要(中文)
Agentic Search要求大型语言模型(LLM)执行多步骤搜索以解决复杂的寻信息任务,对其推理能力提出了独特的挑战。然而,对于Agentic Search而言,什么是有效的推理以及如何学习它仍然不清楚。本文首先研究了能够成功进行Agentic Search的推理行为。通过基于LLM的分析流程比较成功和失败的轨迹,我们确定了四种有益的行为:信息验证、权威评估、自适应搜索和错误恢复。在此基础上,我们提出了一种训练方法,即行为启动(Behavior Priming),该方法在强化学习(RL)之前,使Agentic Search模型具备这些推理行为。具体来说,它首先对收集到的表现出已识别行为的轨迹执行监督式微调(SFT)以培养这些行为,然后应用标准RL以进一步提高任务性能。在Qwen3-1.7B和Llama3.2-3B-Instruct上的实验表明,行为启动在三个Web基准测试上比直接RL产生了37.2%的相对改进,在七个多跳QA基准测试上产生了6.2%的相对改进,并且优于使用结果正确的轨迹进行微调的SFT-then-RL基线。至关重要的是,我们表明,在RL之前的启动阶段,这些推理行为比结果的正确性更重要。进一步的分析表明,行为启动增强了探索(pass@8)和测试时缩放(搜索步骤数),为RL提供了强大的基础。我们的代码可在https://github.com/cxcscmu/Behavior-Priming-for-Agentic-Search上找到。
🔬 方法详解
问题定义:Agentic Search旨在利用LLM自主完成复杂的信息搜索任务。现有方法主要依赖于直接的强化学习或简单的监督微调,缺乏对LLM推理过程的细致引导,导致模型难以学习到有效的搜索策略和推理行为。现有方法的痛点在于,没有明确定义Agentic Search中哪些推理行为是有效的,以及如何有效地将这些行为融入到模型的训练过程中。
核心思路:论文的核心思路是首先识别并定义Agentic Search中有效的推理行为,然后通过监督微调(SFT)使模型具备这些行为,最后再利用强化学习(RL)进一步优化模型的任务性能。这种“行为启动(Behavior Priming)”的思想旨在让模型在强化学习之前就具备良好的推理基础,从而提高学习效率和最终性能。这样设计的原因在于,强化学习通常需要大量的探索和试错,如果模型一开始就缺乏有效的推理能力,那么学习过程将会非常缓慢和低效。
技术框架:Behavior Priming的整体框架包含两个主要阶段:行为启动阶段和强化学习阶段。在行为启动阶段,首先通过LLM分析成功和失败的Agentic Search轨迹,识别出四种有益的推理行为:信息验证、权威评估、自适应搜索和错误恢复。然后,收集包含这些行为的轨迹数据,并使用这些数据对LLM进行监督微调(SFT),使其具备这些推理能力。在强化学习阶段,使用标准的强化学习算法(如PPO)对模型进行训练,以进一步优化其任务性能。
关键创新:最重要的技术创新点在于提出了Behavior Priming这一训练范式,强调在强化学习之前对模型进行行为启动,使其具备有效的推理能力。与传统的直接强化学习或简单的监督微调相比,Behavior Priming能够更有效地引导模型学习到Agentic Search所需的关键推理行为。与现有方法的本质区别在于,Behavior Priming关注的是推理过程的质量,而不仅仅是结果的正确性,这使得模型能够更好地泛化到新的任务和环境中。
关键设计:在行为启动阶段,关键的设计在于如何识别和收集包含有益推理行为的轨迹数据。论文使用LLM对轨迹进行分析,并设计了一套规则来判断轨迹中是否包含特定的推理行为。在监督微调阶段,使用了标准的交叉熵损失函数,并对不同的推理行为赋予了不同的权重,以平衡不同行为的学习难度。在强化学习阶段,使用了PPO算法,并对奖励函数进行了调整,以鼓励模型采取更有效的搜索策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Behavior Priming在Qwen3-1.7B和Llama3.2-3B-Instruct模型上,相较于直接RL,在三个Web基准测试上取得了37.2%的相对改进,在七个多跳QA基准测试上取得了6.2%的相对改进。此外,Behavior Priming还优于使用结果正确的轨迹进行微调的SFT-then-RL基线,证明了推理行为的重要性。
🎯 应用场景
该研究成果可应用于智能助手、搜索引擎、知识图谱构建等领域,提升LLM在复杂信息检索任务中的表现。通过预先学习有益的推理行为,可以显著提高Agentic Search的效率和准确性,从而为用户提供更优质的信息服务。未来,该方法有望推广到其他需要复杂推理能力的AI应用中。
📄 摘要(原文)
Agentic search requires large language models (LLMs) to perform multi-step search to solve complex information-seeking tasks, imposing unique challenges on their reasoning capabilities. However, what constitutes effective reasoning for agentic search and how it can be learned remains unclear. In this work, we first investigate the reasoning behaviors that enable success in agentic search. By comparing successful and failed trajectories via an LLM-based analysis pipeline, we identify four beneficial behaviors: Information Verification, Authority Evaluation, Adaptive Search, and Error Recovery. Building on this, we propose Behavior Priming, a training approach that equips agentic search models with these reasoning behaviors before reinforcement learning (RL). Specifically, it first performs supervised fine-tuning (SFT) on collected trajectories exhibiting the identified behaviors to cultivate these behaviors, and then applies standard RL to further improve task performance. Experiments on Qwen3-1.7B and Llama3.2-3B-Instruct show that Behavior Priming yields relative improvements over direct RL by 37.2\% on three web benchmarks and 6.2\% on seven multi-hop QA benchmarks, and outperforms the SFT-then-RL baseline using outcome-correct trajectories for fine-tuning. Crucially, we show that these reasoning behaviors matter more than outcome correctness in the priming stage prior to RL. Further analysis reveals that Behavior Priming enhances exploration (pass@8) and test-time scaling (search step number), providing a robust foundation for RL. Our code are avalible at https://github.com/cxcscmu/Behavior-Priming-for-Agentic-Search.