Personalizing LLMs with Binary Feedback: A Preference-Corrected Optimization Framework

📄 arXiv: 2605.10043v1 📥 PDF

作者: Xilai Ma, Liye Zhao, Weijun Yao, Haibing Di, Wenya Wang, Jing Li

分类: cs.CL, cs.AI

发布日期: 2026-05-11

备注: Accepted by ACL 2026 Main


💡 一句话要点

提出C-BPO框架,通过偏好校准的二元反馈实现大语言模型的个性化对齐

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 个性化对齐 正无标签学习 偏好建模 二元反馈 模型微调

📋 核心要点

  1. 现有个性化方法多局限于单一用户历史,未能有效利用用户间的差异性信息,导致模型难以精准捕捉个体偏好。
  2. 提出C-BPO框架,利用PU学习理论将其他用户数据转化为隐式负信号,并通过偏好校准机制提纯负样本,避免对通用知识的误伤。
  3. 在多项个性化任务中,C-BPO在保持模型通用能力的前提下,显著提升了对用户独特偏好的对齐效果,优于现有主流对齐基线。

📝 摘要(中文)

大语言模型(LLM)的个性化旨在使模型行为与个体用户偏好对齐。现有方法多关注孤立的用户历史,忽略了用户间差异的关键作用。本文提出了C-BPO框架,通过偏好校准的二元信号实现LLM个性化。该方法将目标用户数据视为正反馈,将其他用户数据视为隐式负信号,从而捕捉用户间的显著差异。为缓解偏好重叠问题(即共享的任务知识被错误惩罚),研究者基于正无标签(PU)学习理论推导出一个优化目标。该方法通过减去“正向偏差”来提纯负信号,确保模型在对齐独特个性偏好的同时,不损害其通用能力。在多种个性化任务和主流LLM骨干网络上的实验表明,C-BPO在建模用户间差异方面表现优异,显著优于现有基线方法。

🔬 方法详解

问题定义:当前LLM个性化主要面临“用户间差异建模不足”和“偏好重叠”两大挑战。现有方法往往将个性化视为孤立任务,忽略了跨用户数据中蕴含的对比信息,且直接利用其他用户数据作为负样本容易导致模型丧失通用任务能力。

核心思路:引入正无标签(PU)学习框架,将目标用户数据视为正样本,将其他用户数据视为包含噪声的负样本。通过数学推导,从负样本中剔除“正向偏差”(即共享的通用知识),从而实现对用户独特偏好的精准建模。

技术框架:C-BPO框架包含数据构建与优化目标设计两个阶段。首先,构建包含目标用户正向反馈与跨用户隐式负反馈的数据集;其次,通过基于PU学习的损失函数对模型进行微调,实现对用户个性化特征的强化。

关键创新:核心创新在于引入了偏好校准机制,通过理论推导修正了传统二元反馈学习中的偏差,解决了在个性化过程中通用能力退化的问题,实现了个性化与通用性的平衡。

关键设计:采用了基于PU学习的损失函数,通过引入偏好校准项(Calibration Term)对负样本进行加权或修正,确保模型在学习用户差异时,仅针对用户特有的偏好进行梯度更新,而非惩罚所有非目标用户的数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,C-BPO在多个个性化基准测试中均超越了SFT(监督微调)和DPO(直接偏好优化)等基线方法。在保持通用任务性能不下降的前提下,C-BPO在用户偏好对齐指标上实现了显著提升,证明了其在处理大规模用户数据时的鲁棒性与高效性,特别是在用户数据稀疏场景下表现出更强的泛化能力。

🎯 应用场景

该研究适用于需要高度定制化交互的场景,如个人智能助理、定制化内容推荐系统、个性化写作辅助工具等。通过C-BPO,模型能够快速适应不同用户的语言风格、兴趣偏好和任务习惯,同时保持强大的通用推理能力,在提升用户体验和交互效率方面具有显著的工业应用价值。

📄 摘要(原文)

Large Language Model (LLM) personalization aims to align model behaviors with individual user preferences. Existing methods often focus on isolated user histories, neglecting the essential role of inter-user differences. We propose C-BPO, a framework that personalizes LLMs via preference-calibrated binary signals. By treating target user data as positive feedback and other users' data as an auxiliary set of implicit negative signals, C-BPO captures distinct inter-user differences. To mitigate the preference overlap issue, where shared task knowledge is erroneously penalized, we derive an objective grounded in Positive-Unlabeled (PU) learning theory. This approach purifies negative signals by subtracting ``positive bias'', ensuring alignment with unique idiosyncrasies without compromising general helpfulness. Empirical experiments across various personalization tasks and backbone LLMs show C-BPO consistently outperforms baselines, demonstrating the efficacy of preference-calibrated binary signals in modeling inter-user differences.