Towards Proactive Personalization through Profile Customization for Individual Users in Dialogues

📄 arXiv: 2512.15302v1 📥 PDF

作者: Xiaotian Zhang, Yuan Wang, Ruizhe Chen, Zeya Wang, Runchen Hou, Zuozhu Liu

分类: cs.CL

发布日期: 2025-12-17


💡 一句话要点

提出PersonalAgent,通过用户画像定制实现对话系统中的主动个性化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对话系统 个性化 用户画像 终身学习 序列决策 强化学习 偏好推断

📋 核心要点

  1. 现有对话系统难以捕捉用户长期动态偏好,尤其在冷启动阶段个性化不足。
  2. PersonalAgent通过构建和动态更新用户画像,将偏好学习建模为序列决策过程。
  3. 实验表明,PersonalAgent在多种场景下均优于现有方法,并能保持偏好一致性。

📝 摘要(中文)

大型语言模型(LLMs)在交互系统中的部署需要与个体用户细致且动态的偏好深度对齐。现有的对齐技术主要关注通用人类价值观或静态的单轮偏好,未能解决长期个性化和初始用户冷启动问题的关键需求。为了弥合这一差距,我们提出了PersonalAgent,一种以用户为中心的新型终身智能体,旨在持续推断和适应用户偏好。PersonalAgent通过将对话分解为单轮交互,构建并动态优化统一的用户画像,将偏好推断构建为序列决策任务。实验表明,PersonalAgent在理想和嘈杂的对话环境中均优于基于提示和策略优化的强大基线,同时保持了跨会话的偏好一致性。此外,人工评估证实PersonalAgent擅长自然且连贯地捕捉用户偏好。我们的研究结果强调了终身个性化对于开发更具包容性和适应性的对话智能体的重要性。代码已公开。

🔬 方法详解

问题定义:现有对话系统在进行个性化时,主要面临两个挑战:一是难以捕捉用户长期、动态变化的偏好,二是存在用户冷启动问题,即在缺乏用户历史交互数据时,无法有效进行个性化推荐或对话。现有方法通常侧重于通用价值观或单轮交互偏好,忽略了用户个性化需求的长期性和连续性。

核心思路:PersonalAgent的核心思路是构建一个能够持续学习和适应用户偏好的终身智能体。它将对话过程分解为一系列单轮交互,并在此基础上构建和动态更新用户画像。通过将偏好推断建模为序列决策任务,PersonalAgent能够根据用户的历史交互行为,预测用户在当前对话中的偏好,并据此调整对话策略。

技术框架:PersonalAgent的整体框架包含以下几个主要模块:1) 对话分解模块:将多轮对话分解为一系列单轮交互;2) 用户画像构建模块:基于用户的历史交互数据,构建统一的用户画像;3) 偏好推断模块:将偏好推断建模为序列决策任务,根据用户画像和当前对话状态,预测用户偏好;4) 对话策略优化模块:根据预测的用户偏好,调整对话策略,以更好地满足用户需求。

关键创新:PersonalAgent最重要的技术创新点在于其终身学习和动态用户画像构建机制。与传统的静态用户画像不同,PersonalAgent能够根据用户的实时交互数据,持续更新用户画像,从而更好地捕捉用户动态变化的偏好。此外,PersonalAgent将偏好推断建模为序列决策任务,使其能够更好地利用用户的历史交互信息,进行更准确的偏好预测。

关键设计:PersonalAgent的关键设计包括:1) 用户画像的表示方式:采用向量表示用户画像,并使用Transformer网络对用户历史交互数据进行编码,以提取用户偏好特征;2) 偏好推断模型的结构:采用强化学习算法,将偏好推断建模为马尔可夫决策过程,并使用深度神经网络作为策略网络,以学习最优的对话策略;3) 奖励函数的设计:设计奖励函数,以鼓励PersonalAgent更好地满足用户需求,并保持对话的连贯性和一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PersonalAgent在理想和嘈杂的对话环境中均优于基于提示和策略优化的基线方法。具体而言,PersonalAgent在用户满意度、对话连贯性和偏好一致性等方面均取得了显著提升。此外,人工评估也证实PersonalAgent能够更自然、更连贯地捕捉用户偏好,表明其在实际应用中具有良好的潜力。

🎯 应用场景

PersonalAgent可应用于各种人机对话系统,例如智能客服、虚拟助手、个性化推荐系统等。通过持续学习和适应用户偏好,PersonalAgent能够提供更个性化、更贴心的服务,提升用户满意度和使用体验。未来,该技术有望在教育、医疗等领域发挥重要作用,例如个性化辅导、智能健康咨询等。

📄 摘要(原文)

The deployment of Large Language Models (LLMs) in interactive systems necessitates a deep alignment with the nuanced and dynamic preferences of individual users. Current alignment techniques predominantly address universal human values or static, single-turn preferences, thereby failing to address the critical needs of long-term personalization and the initial user cold-start problem. To bridge this gap, we propose PersonalAgent, a novel user-centric lifelong agent designed to continuously infer and adapt to user preferences. PersonalAgent constructs and dynamically refines a unified user profile by decomposing dialogues into single-turn interactions, framing preference inference as a sequential decision-making task. Experiments show that PersonalAgent achieves superior performance over strong prompt-based and policy optimization baselines, not only in idealized but also in noisy conversational contexts, while preserving cross-session preference consistency. Furthermore, human evaluation confirms that PersonalAgent excels at capturing user preferences naturally and coherently. Our findings underscore the importance of lifelong personalization for developing more inclusive and adaptive conversational agents. Our code is available here.