Text as a Universal Interface for Transferable Personalization

作者: Yuting Liu, Jian Guan, Jia-Nan Li, Wei Wu, Jiang-Ming Yang, Jianzhe Zhao, Guibing Guo

分类: cs.CL, cs.AI

发布日期: 2026-01-08

💡 一句话要点

提出AlignXplore+，利用文本作为通用接口实现可迁移的个性化语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 个性化 大型语言模型 文本表示 迁移学习 强化学习 用户偏好 可解释性 自然语言处理

📋 核心要点

现有LLM个性化方法依赖隐式向量，缺乏可解释性和跨模型迁移能力，限制了用户偏好的有效利用。
论文提出使用自然语言作为用户偏好的通用接口，实现可解释、可重用且能持续演进的偏好描述。
AlignXplore+在多个基准测试中超越了更大的开源模型，展示了其优越的性能和跨任务迁移能力。

📝 摘要（中文）

本文研究了大型语言模型（LLMs）中的个性化问题。现有工作主要将用户偏好表示为隐式的、模型特定的向量或参数，产生难以解释和跨模型、跨任务迁移的“黑盒”配置文件。相比之下，我们提倡使用自然语言作为偏好表示的通用、模型和任务无关的接口。这种方法能够产生可解释和可重用的偏好描述，同时自然地支持随着新交互的观察而持续演进。为了学习这种表示，我们引入了一个两阶段训练框架，该框架结合了高质量合成数据上的监督微调和强化学习，以优化长期效用和跨任务可迁移性。基于此框架，我们开发了AlignXplore+，一个通用的偏好推理模型，可以生成文本偏好摘要。在九个基准测试上的实验表明，我们的8B模型实现了最先进的性能——显著优于更大的开源模型——同时在任务、模型系列和交互格式之间表现出强大的可迁移性。

🔬 方法详解

问题定义：现有大型语言模型个性化方法主要依赖于隐式的、模型特定的向量或参数来表示用户偏好。这种方法导致了“黑盒”式的用户画像，难以解释，也难以在不同的模型和任务之间迁移。这限制了用户偏好的有效利用和个性化服务的泛化能力。

核心思路：论文的核心思路是将用户偏好表示为自然语言文本。这种方法将用户偏好从隐式的向量表示转化为显式的文本描述，使得偏好信息更易于理解和修改。同时，文本作为一种通用的信息载体，可以方便地在不同的模型和任务之间进行迁移。

技术框架：论文提出了一个两阶段的训练框架。第一阶段，使用高质量的合成数据进行监督微调，训练模型生成符合用户偏好的文本摘要。第二阶段，使用强化学习来优化模型的长期效用和跨任务可迁移性。该框架的核心是AlignXplore+模型，它能够根据用户交互生成文本偏好摘要，并利用这些摘要进行个性化推理。

关键创新：最重要的技术创新点在于将自然语言作为用户偏好的通用接口。与传统的隐式向量表示相比，文本表示具有更好的可解释性、可重用性和可迁移性。此外，两阶段训练框架结合了监督学习和强化学习的优点，能够有效地学习用户偏好并提高模型的泛化能力。

关键设计：在第一阶段的监督微调中，论文使用了高质量的合成数据来训练模型。这些数据包含了用户交互和对应的文本偏好摘要。在第二阶段的强化学习中，论文设计了一个奖励函数，用于衡量模型的长期效用和跨任务可迁移性。具体的参数设置和网络结构等技术细节在论文中进行了详细描述，但此处不便赘述。

📊 实验亮点

AlignXplore+在九个基准测试中取得了最先进的性能，超越了更大的开源模型。实验结果表明，该模型在任务、模型系列和交互格式之间表现出强大的可迁移性。例如，在某些任务上，AlignXplore+的性能提升超过了10%，证明了其有效性和泛化能力。

🎯 应用场景

该研究成果可应用于各种需要个性化服务的场景，例如推荐系统、对话系统和内容生成。通过使用文本表示用户偏好，可以实现更精准、更可解释的个性化推荐和更自然的对话交互。此外，该方法还可以用于跨平台的用户画像迁移，提高个性化服务的效率和覆盖范围。

📄 摘要（原文）

We study the problem of personalization in large language models (LLMs). Prior work predominantly represents user preferences as implicit, model-specific vectors or parameters, yielding opaque ``black-box'' profiles that are difficult to interpret and transfer across models and tasks. In contrast, we advocate natural language as a universal, model- and task-agnostic interface for preference representation. The formulation leads to interpretable and reusable preference descriptions, while naturally supporting continual evolution as new interactions are observed. To learn such representations, we introduce a two-stage training framework that combines supervised fine-tuning on high-quality synthesized data with reinforcement learning to optimize long-term utility and cross-task transferability. Based on this framework, we develop AlignXplore+, a universal preference reasoning model that generates textual preference summaries. Experiments on nine benchmarks show that our 8B model achieves state-of-the-art performanc -- outperforming substantially larger open-source models -- while exhibiting strong transferability across tasks, model families, and interaction formats.

Text as a Universal Interface for Transferable Personalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册