TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization
作者: Shichao Ma, Zhiyuan Ma, Ming Yang, Xiaofan Li, Xing Wu, Jintao Du, Yu Cheng, Weiqiang Wang, Qiliang Liu, Zhengyang Zhou, Yang Wang
分类: cs.AI
发布日期: 2026-01-30
💡 一句话要点
提出TSPO,解决多轮搜索策略优化中的双重同质化难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多轮搜索 策略优化 强化学习 大型语言模型 奖励函数设计
📋 核心要点
- 现有方法在多轮搜索策略优化中面临过程和组内同质化问题,导致奖励信号稀疏,训练效率低下。
- TSPO通过引入首次出现潜在奖励(FOLR)机制,在无需额外标注的情况下,为中间步骤分配奖励,保留过程信息。
- 实验结果表明,TSPO在Qwen2.5-3B和7B模型上显著优于现有基线,性能分别提升24%和13.6%。
📝 摘要(中文)
多轮工具集成推理使大型语言模型(LLM)能够通过迭代信息检索解决复杂任务。然而,目前用于搜索增强推理的强化学习(RL)框架主要依赖于稀疏的结果级奖励,导致“双重同质化难题”。这表现为:(1)过程同质化,即忽略生成过程中涉及的思考、推理和工具使用。(2)组内同质化,粗粒度的结果奖励通常导致在使用诸如组相对策略优化(GRPO)等方法进行采样时,组内优势估计效率低下。为了解决这个问题,我们提出了Turn-level Stage-aware Policy Optimization(TSPO)。TSPO引入了首次出现潜在奖励(FOLR)机制,将部分奖励分配给首次出现真实答案的步骤,从而保留过程级信号并增加组内奖励方差,而无需外部奖励模型或任何标注。大量实验表明,TSPO显著优于最先进的基线,在Qwen2.5-3B和7B模型上分别实现了平均24%和13.6%的性能提升。
🔬 方法详解
问题定义:论文旨在解决多轮搜索策略优化中存在的“双重同质化难题”。现有方法依赖于稀疏的结果级奖励,忽略了生成过程中的思考、推理和工具使用(过程同质化),并且在组相对策略优化(GRPO)等方法中,粗粒度的奖励导致组内优势估计效率低下(组内同质化)。这种稀疏的奖励信号使得模型难以学习有效的搜索策略。
核心思路:TSPO的核心思路是通过引入Turn-level Stage-aware Policy Optimization,即在每个turn的层面上进行策略优化,并根据模型在每个turn的表现给予不同的奖励。具体来说,TSPO引入了First-Occurrence Latent Reward (FOLR)机制,将部分奖励分配给首次出现ground-truth答案的步骤。这样做的目的是为了保留过程级信号,增加组内奖励的方差,从而更有效地训练模型。
技术框架:TSPO的技术框架主要包括以下几个阶段:1. 使用LLM进行多轮搜索和推理。2. 在每个turn,模型生成一个动作(例如,搜索查询或最终答案)。3. 使用FOLR机制,根据模型在每个turn的表现分配奖励。4. 使用强化学习算法(例如,GRPO)优化策略,目标是最大化累积奖励。
关键创新:TSPO的关键创新在于FOLR机制。与现有方法不同,FOLR不需要外部奖励模型或人工标注,而是通过自动识别首次出现ground-truth答案的步骤来分配奖励。这种方法有效地保留了过程级信号,并增加了组内奖励的方差,从而提高了训练效率。
关键设计:FOLR机制的关键设计在于如何确定首次出现ground-truth答案的步骤。一种可能的方法是使用字符串匹配算法来比较模型生成的文本和ground-truth答案。另一个关键设计是奖励的分配比例。论文中可能探讨了不同的分配比例对性能的影响,并选择了一个最优的比例。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TSPO在Qwen2.5-3B和7B模型上显著优于现有基线,分别实现了平均24%和13.6%的性能提升。这些结果表明,TSPO能够有效地解决多轮搜索策略优化中的双重同质化难题,并提高LLM在复杂推理任务中的性能。具体指标和对比的基线模型需要在论文中查找。
🎯 应用场景
TSPO可应用于各种需要多轮搜索和推理的复杂任务,例如智能客服、知识问答、科学研究等。通过提高LLM在这些任务中的性能,TSPO可以帮助用户更有效地获取信息、解决问题,并做出更明智的决策。该研究的未来影响在于推动LLM在复杂推理任务中的应用,并促进人机协作的进一步发展。
📄 摘要(原文)
Multi-turn tool-integrated reasoning enables Large Language Models (LLMs) to solve complex tasks through iterative information retrieval. However, current reinforcement learning (RL) frameworks for search-augmented reasoning predominantly rely on sparse outcome-level rewards, leading to a "Double Homogenization Dilemma." This manifests as (1) Process homogenization, where the thinking, reasoning, and tooling involved in generation are ignored. (2) Intra-group homogenization, coarse-grained outcome rewards often lead to inefficiencies in intra-group advantage estimation with methods like Group Relative Policy Optimization (GRPO) during sampling. To address this, we propose Turn-level Stage-aware Policy Optimization (TSPO). TSPO introduces the First-Occurrence Latent Reward (FOLR) mechanism, allocating partial rewards to the step where the ground-truth answer first appears, thereby preserving process-level signals and increasing reward variance within groups without requiring external reward models or any annotations. Extensive experiments demonstrate that TSPO significantly outperforms state-of-the-art baselines, achieving average performance gains of 24% and 13.6% on Qwen2.5-3B and 7B models, respectively.