TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

作者: Shichao Ma, Zhiyuan Ma, Ming Yang, Xiaofan Li, Xing Wu, Jintao Du, Yu Cheng, Weiqiang Wang, Qiliang Liu, Zhengyang Zhou, Yang Wang

分类: cs.AI

发布日期: 2026-01-30

💡 一句话要点

提出TSPO，解决多轮搜索策略优化中的双重同质化难题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮搜索 策略优化 强化学习 大型语言模型 奖励函数设计

📋 核心要点

现有方法在多轮搜索策略优化中面临过程和组内同质化问题，导致奖励信号稀疏，训练效率低下。
TSPO通过引入首次出现潜在奖励（FOLR）机制，在无需额外标注的情况下，为中间步骤分配奖励，保留过程信息。
实验结果表明，TSPO在Qwen2.5-3B和7B模型上显著优于现有基线，性能分别提升24%和13.6%。

📝 摘要（中文）

多轮工具集成推理使大型语言模型（LLM）能够通过迭代信息检索解决复杂任务。然而，目前用于搜索增强推理的强化学习（RL）框架主要依赖于稀疏的结果级奖励，导致“双重同质化难题”。这表现为：（1）过程同质化，即忽略生成过程中涉及的思考、推理和工具使用。（2）组内同质化，粗粒度的结果奖励通常导致在使用诸如组相对策略优化（GRPO）等方法进行采样时，组内优势估计效率低下。为了解决这个问题，我们提出了Turn-level Stage-aware Policy Optimization（TSPO）。TSPO引入了首次出现潜在奖励（FOLR）机制，将部分奖励分配给首次出现真实答案的步骤，从而保留过程级信号并增加组内奖励方差，而无需外部奖励模型或任何标注。大量实验表明，TSPO显著优于最先进的基线，在Qwen2.5-3B和7B模型上分别实现了平均24%和13.6%的性能提升。

🔬 方法详解

问题定义：论文旨在解决多轮搜索策略优化中存在的“双重同质化难题”。现有方法依赖于稀疏的结果级奖励，忽略了生成过程中的思考、推理和工具使用（过程同质化），并且在组相对策略优化（GRPO）等方法中，粗粒度的奖励导致组内优势估计效率低下（组内同质化）。这种稀疏的奖励信号使得模型难以学习有效的搜索策略。

核心思路：TSPO的核心思路是通过引入Turn-level Stage-aware Policy Optimization，即在每个turn的层面上进行策略优化，并根据模型在每个turn的表现给予不同的奖励。具体来说，TSPO引入了First-Occurrence Latent Reward (FOLR)机制，将部分奖励分配给首次出现ground-truth答案的步骤。这样做的目的是为了保留过程级信号，增加组内奖励的方差，从而更有效地训练模型。

技术框架：TSPO的技术框架主要包括以下几个阶段：1. 使用LLM进行多轮搜索和推理。2. 在每个turn，模型生成一个动作（例如，搜索查询或最终答案）。3. 使用FOLR机制，根据模型在每个turn的表现分配奖励。4. 使用强化学习算法（例如，GRPO）优化策略，目标是最大化累积奖励。

关键创新：TSPO的关键创新在于FOLR机制。与现有方法不同，FOLR不需要外部奖励模型或人工标注，而是通过自动识别首次出现ground-truth答案的步骤来分配奖励。这种方法有效地保留了过程级信号，并增加了组内奖励的方差，从而提高了训练效率。

关键设计：FOLR机制的关键设计在于如何确定首次出现ground-truth答案的步骤。一种可能的方法是使用字符串匹配算法来比较模型生成的文本和ground-truth答案。另一个关键设计是奖励的分配比例。论文中可能探讨了不同的分配比例对性能的影响，并选择了一个最优的比例。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TSPO在Qwen2.5-3B和7B模型上显著优于现有基线，分别实现了平均24%和13.6%的性能提升。这些结果表明，TSPO能够有效地解决多轮搜索策略优化中的双重同质化难题，并提高LLM在复杂推理任务中的性能。具体指标和对比的基线模型需要在论文中查找。

🎯 应用场景

TSPO可应用于各种需要多轮搜索和推理的复杂任务，例如智能客服、知识问答、科学研究等。通过提高LLM在这些任务中的性能，TSPO可以帮助用户更有效地获取信息、解决问题，并做出更明智的决策。该研究的未来影响在于推动LLM在复杂推理任务中的应用，并促进人机协作的进一步发展。

📄 摘要（原文）

Multi-turn tool-integrated reasoning enables Large Language Models (LLMs) to solve complex tasks through iterative information retrieval. However, current reinforcement learning (RL) frameworks for search-augmented reasoning predominantly rely on sparse outcome-level rewards, leading to a "Double Homogenization Dilemma." This manifests as (1) Process homogenization, where the thinking, reasoning, and tooling involved in generation are ignored. (2) Intra-group homogenization, coarse-grained outcome rewards often lead to inefficiencies in intra-group advantage estimation with methods like Group Relative Policy Optimization (GRPO) during sampling. To address this, we propose Turn-level Stage-aware Policy Optimization (TSPO). TSPO introduces the First-Occurrence Latent Reward (FOLR) mechanism, allocating partial rewards to the step where the ground-truth answer first appears, thereby preserving process-level signals and increasing reward variance within groups without requiring external reward models or any annotations. Extensive experiments demonstrate that TSPO significantly outperforms state-of-the-art baselines, achieving average performance gains of 24% and 13.6% on Qwen2.5-3B and 7B models, respectively.

TSPO: Breaking the Double Homogenization Dilemma in Multi-turn Search Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理