RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization

📄 arXiv: 2605.04539v1 📥 PDF

作者: Qiming Bao, Juho Leinonen, Paul Denny, Michael J. Witbrock

分类: cs.CL, cs.AI

发布日期: 2026-05-06


💡 一句话要点

RLearner-LLM:通过混合直接偏好优化平衡大语言模型的逻辑性和流畅性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 直接偏好优化 知识密集型生成 自然语言推理 逻辑对齐 混合偏好学习 DeBERTa-v3

📋 核心要点

  1. 现有基于DPO的语言模型在知识密集型任务中,容易受到冗长偏见的影响,导致逻辑正确性不足。
  2. RLearner-LLM提出混合DPO方法,融合NLI信号和LLM验证器分数,自动生成偏好信号,无需人工标注。
  3. 实验表明,RLearner-LLM在多个领域和模型上显著提升了NLI指标和答案覆盖率,并缓解了“对齐税”。

📝 摘要(中文)

直接偏好优化(DPO)是基于PPO的RLHF的有效替代方案,但在知识密集型生成方面存在不足:来自人工标注者或LLM判断器的标准偏好信号表现出系统的冗长偏见,奖励流畅性而非逻辑正确性。这种盲点留下了一个逻辑对齐差距——SFT模型仅达到0.05-0.22的NLI蕴含。我们提出了具有混合DPO的RLearner-LLM:一个自动化的偏好流水线,将DeBERTa-v3 NLI信号与验证器LLM分数融合,消除了人工标注,同时克服了单信号优化的“对齐税”。在五个学术领域(生物学、医学、法律)和三个基础架构(LLaMA-2-13B、Qwen3-8B、Gemma 4 E4B-it)上评估,RLearner-LLM产生的NLI改进高达6倍,在15个单元格中的11个中获得NLI增益,并始终如一地获得答案覆盖率增益。在Gemma 4 E4B-it(45亿有效参数)上,混合DPO在五个领域中的四个领域提升了NLI(+11.9%到+2.4倍),并在所有五个领域中实现了更快的推理,缩小到紧凑的基础模型而不会失去对齐税缓解。我们的Qwen3-8B RLearner-LLM在95%的成对比较中胜过其自身的SFT基线;GPT-4o-mini反过来在95%的比较中胜过我们的简洁输出——与此同时,同一判断器给出的冗长SFT模型胜过我们的DPO模型的比例为69%,这复制了前沿比较器上的冗长偏见,并推动了知识密集型生成的逻辑感知指标(NLI、ACR)优于LLM作为判断器。

🔬 方法详解

问题定义:现有基于直接偏好优化(DPO)的大语言模型在知识密集型生成任务中,容易受到冗长偏见的影响。这意味着模型倾向于生成更长、更流畅但逻辑上不一定正确的答案。这种偏见导致模型在自然语言推理(NLI)等逻辑任务上的表现不佳,即所谓的“逻辑对齐差距”。现有方法依赖人工标注或LLM判断器,但这些方法同样存在冗长偏见,无法有效解决该问题。

核心思路:RLearner-LLM的核心思路是使用混合偏好信号来训练语言模型,从而平衡流畅性和逻辑正确性。具体来说,它融合了两个信号:一个是基于DeBERTa-v3的NLI信号,用于评估答案的逻辑蕴含关系;另一个是验证器LLM的分数,用于评估答案的整体质量。通过这种方式,模型可以同时学习生成流畅且逻辑正确的答案。

技术框架:RLearner-LLM的整体框架包括以下几个主要步骤:1) 使用SFT模型生成候选答案;2) 使用DeBERTa-v3 NLI模型和验证器LLM对候选答案进行评分;3) 将NLI信号和LLM分数融合,生成混合偏好信号;4) 使用混合偏好信号训练语言模型,采用Hybrid-DPO方法进行优化。

关键创新:该论文的关键创新在于提出了Hybrid-DPO方法,它能够自动生成偏好信号,无需人工标注,并且能够有效克服单信号优化带来的“对齐税”。通过融合NLI信号和LLM分数,Hybrid-DPO能够更好地平衡流畅性和逻辑正确性,从而提高模型在知识密集型任务上的表现。

关键设计:在Hybrid-DPO中,NLI信号由预训练的DeBERTa-v3模型计算得出,该模型用于判断答案是否蕴含了问题。验证器LLM是一个独立的语言模型,用于评估答案的整体质量,例如流畅性、相关性等。NLI信号和LLM分数的融合方式可以采用加权平均等方法。损失函数采用标准的DPO损失函数,但偏好信号由混合偏好信号代替。

📊 实验亮点

实验结果表明,RLearner-LLM在五个学术领域(生物学、医学、法律)和三个基础架构(LLaMA-2-13B、Qwen3-8B、Gemma 4 E4B-it)上进行了评估,NLI改进高达6倍,在15个单元格中的11个中获得NLI增益,并始终如一地获得答案覆盖率增益。在Gemma 4 E4B-it(45亿有效参数)上,混合DPO在五个领域中的四个领域提升了NLI(+11.9%到+2.4倍),并在所有五个领域中实现了更快的推理。

🎯 应用场景

RLearner-LLM可应用于需要高逻辑性和准确性的知识密集型任务,如问答系统、法律文件生成、医学报告撰写等。该方法能够提升模型在这些领域的应用价值,并减少因逻辑错误带来的潜在风险。未来,该研究可以扩展到更多领域,并与其他技术相结合,进一步提升语言模型的性能。

📄 摘要(原文)

Direct Preference Optimization (DPO), the efficient alternative to PPO-based RLHF, falls short on knowledge-intensive generation: standard preference signals from human annotators or LLM judges exhibit a systematic verbosity bias that rewards fluency over logical correctness. This blindspot leaves a logical alignment gap -- SFT models reach NLI entailment of only 0.05-0.22 despite producing fluent text. We propose RLearner-LLM with Hybrid-DPO: an automated preference pipeline that fuses a DeBERTa-v3 NLI signal with a verifier LLM score, removing human annotation while overcoming the "alignment tax" of single-signal optimization. Evaluated across five academic domains (Biology, Medicine, Law) with three base architectures (LLaMA-2-13B, Qwen3-8B, Gemma 4 E4B-it), RLearner-LLM yields up to 6x NLI improvement over SFT, with NLI gains in 11 of 15 cells and consistent answer-coverage gains. On Gemma 4 E4B-it (4.5B effective params), Hybrid-DPO lifts NLI in four of five domains (+11.9% to +2.4x) with faster inference across all five, scaling down to compact base models without losing the alignment-tax mitigation. Our Qwen3-8B RLearner-LLM wins 95% of pairwise comparisons against its own SFT baseline; GPT-4o-mini in turn wins 95% against our concise output -- alongside the 69% win the same judge gives a verbose SFT over our DPO model, this replicates verbosity bias on a frontier comparator and motivates logic-aware metrics (NLI, ACR) over LLM-as-a-judge for knowledge-intensive generation.