Diversity-Enhanced Reasoning for Subjective Questions

📄 arXiv: 2507.20187v3 📥 PDF

作者: Yumeng Wang, Zhiyuan Fan, Jiayu Liu, Jen-tse Huang, Yi R. Fung

分类: cs.CL

发布日期: 2025-07-27 (更新: 2025-10-01)


💡 一句话要点

提出MultiRole-R1框架,通过增强视角和token多样性提升主观问题推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主观推理 多样性增强 强化学习 角色视角 自然语言处理

📋 核心要点

  1. 现有基于RLVR的大型推理模型在客观推理上表现出色,但在主观推理上因缺乏多样性而受限。
  2. MultiRole-R1框架通过引入视角多样性和token级别多样性,增强模型在主观推理任务中的表现。
  3. 实验表明,MultiRole-R1在主观推理任务上显著提升了领域内和领域外准确率,甚至改进了数学推理能力。

📝 摘要(中文)

大型推理模型(LRMs)通过可验证奖励的强化学习(RLVR)优化,在客观推理任务(如数学问题求解和代码生成)中表现出色。然而,RLVR会降低生成多样性,导致LRMs在主观推理方面表现不佳,因为主观推理根据不同的角色视角可能有多个答案。本文发现,通过引入视角多样性和token级别多样性可以改进主观推理,前者提供了一个锚定真实世界利益相关者群体的连贯支架,后者拓宽了答案搜索空间。我们提出了MultiRole-R1,这是一个增强多样性的训练框架,具有一个无监督数据构建流程,该流程综合了包含各种角色视角的推理链。它还采用通过群体相对策略优化和奖励塑造的强化学习,将多样性作为可验证奖励之外的奖励信号。仅在主观任务上训练,MultiRole-R1将领域内和领域外准确率分别提高了14.1%和7.64%,甚至提高了AIME 2024等高级数学推理的性能。我们进一步表明,多样性是比推理长度更一致的准确性指标。

🔬 方法详解

问题定义:论文旨在解决大型推理模型在主观问题推理中表现不佳的问题。现有方法,特别是那些使用可验证奖励强化学习(RLVR)优化的模型,往往会降低生成的多样性,导致模型在需要考虑不同角色和观点的任务中表现不佳。痛点在于,主观问题通常没有唯一正确答案,而是依赖于特定的视角和价值观。

核心思路:论文的核心思路是通过增强推理过程中的多样性来提升模型的主观推理能力。具体来说,引入了两个层面的多样性:视角多样性和token级别多样性。视角多样性旨在让模型能够从不同利益相关者的角度进行思考,而token级别多样性则旨在扩大模型在生成答案时的搜索空间,避免陷入局部最优解。

技术框架:MultiRole-R1框架包含两个主要组成部分:无监督数据构建流程和基于群体相对策略优化的强化学习训练。无监督数据构建流程负责生成包含各种角色视角的推理链数据。强化学习训练则利用这些数据,并通过奖励塑造,将多样性作为额外的奖励信号,引导模型学习生成更多样化的答案。整体流程为:首先,利用无监督数据构建流程生成训练数据;然后,使用群体相对策略优化算法进行强化学习训练,其中奖励函数包含可验证奖励和多样性奖励;最后,评估模型在主观推理任务上的性能。

关键创新:该论文的关键创新在于提出了一个针对主观推理任务的增强多样性的训练框架MultiRole-R1。与现有方法相比,MultiRole-R1显式地考虑了视角多样性和token级别多样性,并通过无监督数据构建流程和强化学习训练,有效地提升了模型在主观推理任务上的表现。此外,论文还发现多样性是比推理长度更可靠的准确性指标。

关键设计:在无监督数据构建流程中,论文设计了一个自动化的方法来生成包含不同角色视角的推理链。在强化学习训练中,论文采用了群体相对策略优化算法,并设计了一个包含多样性奖励的奖励函数。具体来说,多样性奖励可以通过衡量生成答案之间的差异性来计算。论文还探索了不同的奖励塑造策略,以进一步提升训练效果。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MultiRole-R1在主观推理任务上取得了显著的性能提升。在领域内和领域外测试中,准确率分别提高了14.1%和7.64%。更令人惊讶的是,该方法甚至提升了在高级数学推理任务(如AIME 2024)上的表现。此外,实验结果表明,多样性是比推理链长度更可靠的准确性指标,这为未来的研究提供了新的思路。

🎯 应用场景

该研究成果可应用于需要考虑多方利益和观点的决策支持系统、对话系统和内容生成等领域。例如,在政策制定中,可以利用该模型模拟不同利益相关者的反应,从而制定更全面和合理的政策。在客户服务中,可以利用该模型理解不同客户的需求和偏好,从而提供更个性化的服务。未来,该研究还可以扩展到更复杂的主观推理任务,例如道德判断和价值评估。

📄 摘要(原文)

Large Reasoning Models (LRMs) with long chain-of-thought capabilities, optimized via reinforcement learning with verifiable rewards (RLVR), excel at objective reasoning tasks like mathematical problem solving and code generation. However, RLVR is known for degrading generation diversity, which causes LRMs to fall short on subjective reasoning that has multiple answers depending on different role perspectives. While recent studies recognize the importance of diversity-enhanced training in objective reasoning, limited attention has been given to subjective tasks. In this paper, we find that subjective reasoning can be improved by introducing perspective diversity and token-level diversity, with the former one providing a coherent scaffolding anchored to a real-world stakeholder group and the latter one broadening the answer search space. We propose MultiRole-R1, a diversity-enhanced training framework featuring an unsupervised data construction pipeline that synthesizes reasoning chains incorporating various role perspectives. It also employs reinforcement learning via Group Relative Policy Optimization with reward shaping, taking diversity as a reward signal in addition to verifiable reward. Training on subjective tasks solely, MultiRole-R1 increases the in-domain and out-of-domain accuracy by 14.1% and 7.64%, and even enhances the performance on advanced math reasoning such as AIME 2024. We further show that diversity is a more consistent indicator of accuracy than reasoning length.