Aligning Deep Implicit Preferences by Learning to Reason Defensively

📄 arXiv: 2510.11194v1 📥 PDF

作者: Peiming Li, Zhiyuan Hu, Yang Tang, Shiyu Li, Xi Chen

分类: cs.AI

发布日期: 2025-10-13

🔗 代码/项目: GITHUB


💡 一句话要点

提出CDRA框架,通过防御性推理对齐深度隐式偏好,提升LLM用户交互效果

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化对齐 隐式偏好 防御性推理 奖励模型 强化学习

📋 核心要点

  1. 现有方法难以推断用户深层隐式偏好,且缺乏防御性推理能力,导致LLM响应质量不高。
  2. CDRA框架将对齐定义为结构化推理过程,通过DeepPref基准和Pers-GenPRM模型实现偏好推断和防御性推理。
  3. 实验表明,CDRA能有效发现并对齐用户真实偏好,并执行稳健推理,显著提升LLM交互效果。

📝 摘要(中文)

个性化对齐对于使大型语言模型(LLM)有效地进行以用户为中心的交互至关重要。然而,目前的方法面临双重挑战:它们无法推断用户深层的隐式偏好(包括未明确说明的目标、语义环境和风险承受能力),并且缺乏在真实世界模糊性中进行防御性推理的能力。这种认知差距导致了肤浅、脆弱和短视的响应。为了解决这个问题,我们提出了批判驱动推理对齐(CDRA),它将对齐从标量奖励匹配任务重新定义为结构化的推理过程。首先,为了弥合偏好推断的差距,我们引入了DeepPref基准。该数据集包含20个主题的3000个偏好-查询对,通过模拟一个多方面的认知委员会来生成批判注释的推理链,以解构查询语义并揭示潜在风险。其次,为了灌输防御性推理,我们引入了个性化生成过程奖励模型(Pers-GenPRM),它将奖励建模定义为个性化的推理任务。它生成一个批判链来评估响应与用户偏好的一致性,然后基于此原理输出最终分数。最终,这种可解释的、结构化的奖励信号通过批判驱动策略对齐来指导策略模型,这是一个整合数值和自然语言反馈的过程级在线强化学习算法。实验表明,CDRA擅长发现和对齐用户的真实偏好,同时执行稳健的推理。我们的代码和数据集可在https://github.com/Zephyrian-Hugh/Deep-pref获得。

🔬 方法详解

问题定义:现有的大型语言模型在个性化对齐方面存在不足,无法准确捕捉用户的深层隐式偏好,例如未明确说明的目标、语义环境和风险承受能力。此外,现有方法缺乏在真实世界复杂和模糊环境中进行防御性推理的能力,容易产生肤浅、脆弱和短视的响应。这些问题限制了LLM在用户交互中的有效性和可靠性。

核心思路:CDRA的核心思路是将个性化对齐问题从一个简单的标量奖励匹配任务,重新定义为一个结构化的推理过程。通过引入批判性推理链,模型能够更深入地理解用户的潜在偏好,并进行更全面的风险评估。这种结构化的推理过程有助于模型生成更符合用户需求且更具鲁棒性的响应。

技术框架:CDRA框架主要包含以下几个关键模块:1) DeepPref基准数据集:用于训练和评估模型推断用户深层隐式偏好的能力。2) 个性化生成过程奖励模型(Pers-GenPRM):将奖励建模视为一个个性化的推理任务,生成批判链来评估响应与用户偏好的一致性,并输出最终奖励分数。3) 批判驱动策略对齐:一个过程级的在线强化学习算法,利用Pers-GenPRM提供的结构化奖励信号(包括数值和自然语言反馈)来指导策略模型的训练。

关键创新:CDRA的关键创新在于其将对齐问题重新定义为结构化的推理过程,并引入了批判性推理链来增强模型对用户偏好的理解和风险评估能力。Pers-GenPRM通过生成批判链来评估响应的质量,提供了一种可解释的、结构化的奖励信号,从而指导策略模型的训练。这种方法与传统的标量奖励匹配方法有着本质的区别,能够更有效地捕捉用户的深层隐式偏好。

关键设计:DeepPref数据集包含3000个偏好-查询对,覆盖20个主题,并由模拟的认知委员会生成批判注释的推理链。Pers-GenPRM模型通过生成批判链来评估响应与用户偏好的一致性,其损失函数的设计需要平衡奖励预测的准确性和批判链的合理性。批判驱动策略对齐算法则需要合理地整合数值奖励和自然语言反馈,以实现更有效的策略优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CDRA在发现和对齐用户真实偏好方面表现出色,能够执行稳健的推理。相较于现有方法,CDRA在多个指标上取得了显著提升,证明了其在个性化对齐方面的有效性。具体性能数据和对比基线信息需要在论文中查找。

🎯 应用场景

CDRA框架可应用于各种需要个性化交互的场景,例如智能客服、个性化推荐系统、智能助手等。通过更准确地理解用户偏好和进行防御性推理,CDRA能够提升LLM在这些场景中的表现,提供更符合用户需求、更安全可靠的服务。未来,该研究有望推动人机交互领域的发展,实现更自然、更智能的人机协作。

📄 摘要(原文)

Personalized alignment is crucial for enabling Large Language Models (LLMs) to engage effectively in user-centric interactions. However, current methods face a dual challenge: they fail to infer users' deep implicit preferences (including unstated goals, semantic context and risk tolerances), and they lack the defensive reasoning required to navigate real-world ambiguity. This cognitive gap leads to responses that are superficial, brittle and short-sighted. To address this, we propose Critique-Driven Reasoning Alignment (CDRA), which reframes alignment from a scalar reward-matching task into a structured reasoning process. First, to bridge the preference inference gap, we introduce the DeepPref benchmark. This dataset, comprising 3000 preference-query pairs across 20 topics, is curated by simulating a multi-faceted cognitive council that produces critique-annotated reasoning chains to deconstruct query semantics and reveal latent risks. Second, to instill defensive reasoning, we introduce the Personalized Generative Process Reward Model (Pers-GenPRM), which frames reward modeling as a personalized reasoning task. It generates a critique chain to evaluate a response's alignment with user preferences before outputting a final score based on this rationale. Ultimately, this interpretable, structured reward signal guides policy model through Critique-Driven Policy Alignment, a process-level online reinforcement learning algorithm integrating both numerical and natural language feedback. Experiments demonstrate that CDRA excels at discovering and aligning with users' true preferences while executing robust reasoning. Our code and dataset are available at https://github.com/Zephyrian-Hugh/Deep-pref.