Information-Consistent Language Model Recommendations through Group Relative Policy Optimization
作者: Sonal Prabhune, Balaji Padmanabhan, Kaushik Dutta
分类: cs.LG, cs.AI
发布日期: 2025-12-14
💡 一句话要点
提出基于GRPO的信息一致性语言模型推荐方法,解决企业场景下LLM推荐结果不一致问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 信息一致性 群体相对策略优化 强化学习 推荐系统 企业应用 策略梯度
📋 核心要点
- LLM在企业应用中面临信息一致性挑战,即使语义相同,不同措辞的prompt也会导致结果不一致。
- 提出基于GRPO的强化学习框架,通过优化信息内容在语义等价prompt组间的稳定性来解决该问题。
- 实验表明,该方法在投资和工作推荐任务中,比微调等基线方法更有效地降低了推荐结果的可变性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地部署在金融、教育、医疗保健和客户支持等关键业务领域,用户期望获得一致且可靠的推荐。然而,即使语义等价,LLM在提示语略有不同时也经常表现出可变性。这种不一致性会削弱信任,使合规性复杂化,并扰乱用户体验。虽然在某些情况下个性化是可取的,但许多企业场景(如HR入职、客户支持或政策披露)需要不变的信息传递,而不管措辞或先前的对话历史如何。现有方法,包括检索增强生成(RAG)和温度调整,提高了事实性或降低了随机性,但不能保证等效提示的稳定性。在本文中,我们提出了一种基于群体相对策略优化(GRPO)的强化学习框架,以直接优化一致性。与之前仅限于推理和代码生成的GRPO应用不同,我们调整GRPO以强制执行语义等效提示组之间的信息内容稳定性。我们引入了基于熵的有用性和稳定性奖励,将提示变体视为组,并重置对话上下文以隔离措辞效果。在投资和工作推荐任务上的实验表明,我们经过GRPO训练的模型比微调或基于解码的基线更有效地降低了可变性。据我们所知,这是GRPO在对齐LLM以实现信息一致性方面的新颖应用,它将可变性重新定义为企业部署中可纠正的缺陷,而不是生成多样性的可接受特征。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在企业级应用中,针对语义等价但措辞不同的prompt,产生不一致推荐结果的问题。现有方法如RAG和温度调整虽然能提高事实性和降低随机性,但无法保证信息内容在不同prompt下的稳定性,导致用户信任度降低和合规性风险增加。
核心思路:论文的核心思路是将信息一致性问题转化为一个强化学习问题,利用Group Relative Policy Optimization (GRPO) 框架,直接优化LLM在语义等价prompt组上的信息内容稳定性。通过设计合适的奖励函数,鼓励模型生成在不同prompt下信息内容一致的推荐结果。
技术框架:整体框架包含以下几个主要步骤:1) 构建语义等价的prompt组;2) 使用LLM生成推荐结果;3) 计算基于熵的helpfulness和stability奖励;4) 使用GRPO算法更新LLM的策略。其中,helpfulness奖励鼓励模型生成有用的推荐,stability奖励惩罚模型在同一prompt组内生成不同信息的行为。对话上下文会被重置,以隔离措辞的影响。
关键创新:该论文的关键创新在于将GRPO应用于信息一致性优化,并将其应用于LLM推荐任务。与以往GRPO在推理和代码生成上的应用不同,该论文专注于保证信息内容在语义等价prompt下的稳定性。此外,论文还提出了基于熵的helpfulness和stability奖励函数,用于指导GRPO的训练。
关键设计:论文的关键设计包括:1) 使用prompt变体作为GRPO的group;2) 设计基于熵的helpfulness奖励,鼓励模型生成信息量大的推荐;3) 设计基于熵的stability奖励,惩罚模型在同一group内生成不同信息的行为;4) 使用策略梯度方法更新模型参数,目标是最大化累积奖励。
📊 实验亮点
实验结果表明,经过GRPO训练的模型在投资和工作推荐任务中,比微调和基于解码的基线方法更有效地降低了推荐结果的可变性。具体而言,GRPO训练的模型在信息一致性指标上取得了显著提升,表明该方法能够有效提高LLM在不同prompt下的信息一致性。
🎯 应用场景
该研究成果可应用于需要信息一致性的企业级LLM应用场景,例如人力资源入职、客户支持、政策披露等。通过确保LLM在不同措辞下提供一致的信息,可以提高用户信任度,降低合规性风险,并提升用户体验。未来,该方法可以扩展到其他需要信息一致性的LLM应用领域。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed in business-critical domains such as finance, education, healthcare, and customer support, where users expect consistent and reliable recommendations. Yet LLMs often exhibit variability when prompts are phrased with minor differences, even when semantically equivalent. Such inconsistency undermines trust, complicates compliance, and disrupts user experience. While personalization is desirable in certain contexts, many enterprise scenarios-such as HR onboarding, customer support, or policy disclosure-require invariant information delivery regardless of phrasing or prior conversational history. Existing approaches, including retrieval-augmented generation (RAG) and temperature tuning, improve factuality or reduce stochasticity but cannot guarantee stability across equivalent prompts. In this paper, we propose a reinforcement learning framework based on Group Relative Policy Optimization (GRPO) to directly optimize for consistency. Unlike prior applications of GRPO, which have been limited to reasoning and code generation, we adapt GRPO to enforce stability of information content across groups of semantically equivalent prompts. We introduce entropy-based helpfulness and stability rewards, treating prompt variants as groups and resetting conversational context to isolate phrasing effects. Experiments on investment and job recommendation tasks show that our GRPO-trained model reduces variability more effectively than fine-tuning or decoding-based baselines. To our knowledge, this is a novel application of GRPO for aligning LLMs toward information consistency, reframing variability not as an acceptable feature of generative diversity but as a correctable flaw in enterprise deployments.