Does LLM Alignment Really Need Diversity? An Empirical Study of Adapting RLVR Methods for Moral Reasoning

📄 arXiv: 2603.10588v1 📥 PDF

作者: Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-03-11


💡 一句话要点

验证性奖励强化学习可有效迁移至道德推理,无需显式多样性机制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型对齐 道德推理 强化学习 奖励最大化 分布匹配 多样性 MoReBench

📋 核心要点

  1. 现有LLM对齐方法在道德推理等任务中,是否需要专门的多样性保持机制仍不明确。
  2. 该研究对比了奖励最大化和分布匹配两种范式在道德推理任务上的表现,以验证多样性需求。
  3. 实验结果表明,奖励最大化方法在道德推理中表现良好,无需显式多样性机制,挑战了传统认知。

📝 摘要(中文)

本文研究了大型语言模型(LLM)对齐是否需要与逻辑推理根本不同的方法。针对道德推理中允许多个有效响应的特性,提出了对齐任务本质上需要寻求多样性的分布匹配算法,而非最大化奖励的策略方法这一假设。本文在MoReBench上进行了首次全面实证研究,比较了这两种范式。为了实现稳定的RLVR训练,通过训练Qwen3-1.7B judge模型构建了基于规则的奖励管道。与假设相反,研究发现分布匹配方法在对齐任务上并未表现出优于奖励最大化方法的显著优势。通过将高奖励响应映射到语义空间的可视化,表明道德推理比数学推理表现出更集中的高奖励分布,而数学推理中不同的解决方案策略会产生类似的高奖励。这一反直觉的发现解释了为何寻求模式的优化对于对齐任务同样有效甚至更有效。研究结果表明,对齐任务并非本质上需要保留多样性的算法,标准的奖励最大化RLVR方法可以有效地迁移到道德推理,而无需显式的多样性机制。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)对齐任务,特别是道德推理任务,是否需要与逻辑推理不同的方法。现有方法,特别是分布匹配方法,被认为更适合处理道德推理中允许多个有效答案的情况。然而,这些方法是否真的优于传统的奖励最大化方法,尚不明确。现有方法的痛点在于,缺乏对道德推理任务中多样性需求的深入理解。

核心思路:论文的核心思路是通过实证研究,比较奖励最大化和分布匹配两种范式在道德推理任务上的表现,从而验证LLM对齐是否需要多样性保持机制。通过分析高奖励响应在语义空间中的分布,揭示道德推理任务的特性,并解释为何奖励最大化方法能够有效应用于该任务。

技术框架:整体框架包括以下几个主要步骤:1) 构建基于规则的奖励管道,通过训练Qwen3-1.7B judge模型来评估LLM生成的响应;2) 在MoReBench数据集上,比较奖励最大化(RLVR)和分布匹配两种方法的性能;3) 通过语义可视化,将高奖励响应映射到语义空间,分析其分布特征;4) 分析实验结果,验证或推翻最初的假设。

关键创新:论文的关键创新在于,通过实证研究挑战了LLM对齐任务需要多样性保持机制的传统认知。研究发现,道德推理任务中高奖励响应的分布相对集中,使得奖励最大化方法能够有效应用于该任务,而无需显式的多样性机制。这一发现对于理解LLM对齐的本质具有重要意义。

关键设计:论文的关键设计包括:1) 使用Qwen3-1.7B judge模型作为奖励函数,评估LLM生成的响应;2) 使用MoReBench数据集作为评估基准;3) 通过语义可视化技术,分析高奖励响应在语义空间中的分布;4) 对比RLVR和分布匹配两种方法的性能,并进行统计显著性分析。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在MoReBench数据集上,奖励最大化方法(RLVR)在道德推理任务中表现良好,并未显著劣于分布匹配方法。语义可视化分析显示,道德推理任务中高奖励响应的分布相对集中,这解释了为何奖励最大化方法能够有效应用于该任务。该研究挑战了LLM对齐任务需要多样性保持机制的传统认知。

🎯 应用场景

该研究成果可应用于提升LLM在道德推理、价值观对齐等领域的性能。通过理解不同任务对多样性的需求,可以更有效地设计LLM对齐算法,减少对显式多样性机制的依赖,降低训练成本,并提高LLM在实际应用中的可靠性和安全性。此外,该研究也为开发更通用、更高效的LLM对齐方法提供了新的思路。

📄 摘要(原文)

Reinforcement learning with verifiable rewards (RLVR) has achieved remarkable success in logical reasoning tasks, yet whether large language model (LLM) alignment requires fundamentally different approaches remains unclear. Given the apparent tolerance for multiple valid responses in moral reasoning, a natural hypothesis is that alignment tasks inherently require diversity-seeking distribution-matching algorithms rather than reward-maximizing policy-based methods. We conduct the first comprehensive empirical study comparing both paradigms on MoReBench. To enable stable RLVR training, we build a rubric-grounded reward pipeline by training a Qwen3-1.7B judge model. Contrary to our hypothesis, we find that distribution-matching approaches do not demonstrate significant advantages over reward-maximizing methods as expected on alignment tasks. Through semantic visualization mapping high-reward responses to semantic space, we demonstrate that moral reasoning exhibits more concentrated high-reward distributions than mathematical reasoning, where diverse solution strategies yield similarly high rewards. This counter-intuitive finding explains why mode-seeking optimization proves equally or more effective for alignment tasks. Our results suggest that alignment tasks do not inherently require diversity-preserving algorithms, and standard reward-maximizing RLVR methods can effectively transfer to moral reasoning without explicit diversity mechanisms.