Statistical Priors for Implicit Preferences: Decoupling Skill Selection as a Local Harness in Personal Agents

📄 arXiv: 2606.05828v1 📥 PDF

作者: Zeyu Gan, Huayi Tang, Yong Liu

分类: cs.AI, cs.CL

发布日期: 2026-06-04


💡 一句话要点

提出轻量级本地偏好选择机制以解决个人智能体的用户偏好学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个人智能体 用户偏好学习 统计学习 语义解析 轻量级架构

📋 核心要点

  1. 现有方法在本地部署的限制下,难以实现复杂的集中选择算法,导致用户偏好学习效率低下。
  2. 论文提出了一种新颖的架构,通过解耦统计偏好学习与语义意图解析,构建轻量级的本地偏好选择机制。
  3. 实验结果显示,该方法在累计遗憾和测试准确率上均优于传统方法,展现出显著的性能提升。

📝 摘要(中文)

随着大型语言模型(LLM)能力的提升,基于API的本地个人智能体逐渐成为一种新兴范式。然而,随着可用技能的快速扩展,使个人智能体能够学习和适应隐含用户偏好成为一项关键挑战。由于本地部署的限制,复杂的集中选择算法难以实现,因此迫切需要一种轻量级的本地偏好选择机制。本文探讨了通过一种新颖的架构实现该机制,该架构严格将统计偏好学习与语义意图解析解耦。具体而言,我们利用局部统计结果来影响和调节远程LLM的选择决策。广泛的评估表明,我们的解耦方法在累计遗憾和测试准确率上均表现优异,显著超越了传统的记忆增强型智能体。

🔬 方法详解

问题定义:本文旨在解决个人智能体在本地部署环境中学习隐含用户偏好的问题。现有方法由于集中选择算法的复杂性,难以有效适应快速扩展的技能集。

核心思路:论文的核心思路是通过解耦统计偏好学习与语义意图解析,利用局部统计结果来影响远程LLM的选择决策,从而实现轻量级的本地偏好选择。

技术框架:整体架构包括两个主要模块:统计偏好学习模块和语义意图解析模块。统计模块负责收集和分析用户的行为数据,而意图解析模块则用于理解用户的具体需求。

关键创新:最重要的技术创新在于将统计学习与语义解析解耦,使得偏好学习过程更加灵活高效。这一设计与传统的集中式方法形成鲜明对比,后者往往依赖复杂的全局模型。

关键设计:在技术细节上,论文采用了特定的损失函数来优化偏好学习过程,并设计了适应性强的网络结构,以便更好地处理用户的隐含偏好信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的解耦方法在累计遗憾上达到了最低值,测试准确率显著提高,超越了传统的记忆增强型智能体,展示了在用户偏好学习中的优越性能。

🎯 应用场景

该研究的潜在应用领域包括智能助手、个性化推荐系统和人机交互界面等。通过有效学习用户的隐含偏好,个人智能体能够提供更为精准的服务,提升用户体验,未来可能在智能家居、在线教育等多个场景中发挥重要作用。

📄 摘要(原文)

As Large Language Model (LLM) capabilities advance, locally deployed personal agents relying on API-based remote models and external skills have emerged as a novel paradigm. With the rapid expansion of available skills, enabling personal agents to learn and adapt to implicit user preferences becomes a critical challenge. However, local deployment constraints preclude complex centralized selection algorithms, creating an urgent need for a lightweight local preference harness. This paper explores the implementation of such a harness through a novel architecture that strictly decouples statistical preference learning from semantic intent parsing. Specifically, we leverage localized statistical results to influence and modulate the selection decisions of the remote LLM. Extensive evaluations demonstrate that our decoupled approach achieves the lowest cumulative regret and highest test accuracy, significantly outperforming traditional memory-augmented agents.