ADAPT: Actively Discovering and Adapting to Preferences for any Task

作者: Maithili Patel, Xavier Puig, Ruta Desai, Roozbeh Mottaghi, Sonia Chernova, Joanne Truong, Akshara Rai

分类: cs.AI, cs.RO

发布日期: 2025-04-05

💡 一句话要点

ADAPT：通过主动提问，发现并适应任何任务中的用户偏好

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 用户偏好学习 主动提问 模仿学习 大型语言模型 人机交互

📋 核心要点

现有方法在处理需要理解用户偏好的长时任务时，提问不足且未能有效利用已获取的偏好信息。
论文提出Reflection-DPO，通过模仿学习和主动提问，使LLM能够更好地适应用户偏好并完成任务。
实验表明，Reflection-DPO在ADAPT基准测试中显著优于现有方法，尤其是在满足用户偏好方面。

📝 摘要（中文）

辅助智能体应能在尊重用户偏好的前提下，执行未充分指定的长时任务。我们提出了“主动发现和适应任何任务中的偏好”（ADAPT）——一个旨在评估智能体通过主动提问，在各种家庭任务中遵守用户偏好的能力的基准。接下来，我们提出了一种新颖的训练方法Reflection-DPO，用于将大型语言模型（LLM）适应于主动提问的任务。Reflection-DPO微调一个“学生”LLM，使其遵循一个特权“教师”LLM的动作，并可选择提出问题以收集必要的信息，从而更好地预测教师的动作。我们发现，由于提问不足和对所获取偏好的不良遵守，使用最先进LLM的先前方法未能充分遵循ADAPT中的用户偏好。相比之下，Reflection-DPO实现了更高的用户偏好满足率，在未见用户上，优于零样本思维链基线6.1%。

🔬 方法详解

问题定义：论文旨在解决辅助智能体在执行长时任务时，如何主动发现并适应用户偏好的问题。现有方法，特别是直接使用大型语言模型（LLM）的方法，在提问策略上不够完善，无法充分获取用户偏好，并且在利用已获取的偏好信息方面表现不佳，导致任务完成质量不高。

核心思路：论文的核心思路是利用模仿学习，让一个“学生”LLM模仿一个“教师”LLM的行为，并通过主动提问来获取更多信息，从而更好地预测教师的行为。这种方法鼓励学生模型学习何时以及如何提问，以便更好地理解用户偏好。

技术框架：ADAPT的整体框架包含以下几个主要部分：首先，定义了一系列家庭任务，这些任务需要智能体理解并满足用户的偏好。其次，构建了一个“教师”LLM，该模型能够根据用户偏好执行任务并提出问题。然后，使用Reflection-DPO训练一个“学生”LLM，使其模仿教师的行为，并学习主动提问。最后，通过ADAPT基准测试评估学生模型的性能。

关键创新：Reflection-DPO的关键创新在于它结合了模仿学习和主动提问，使LLM能够更有效地学习用户偏好。与传统的监督学习方法不同，Reflection-DPO允许模型在训练过程中主动探索，并通过提问来获取更多信息。此外，DPO（Direct Preference Optimization）的使用使得模型可以直接优化用户偏好，而无需显式地建模奖励函数。

关键设计：Reflection-DPO的关键设计包括：1) 使用DPO损失函数来优化学生模型的行为，使其更接近教师模型；2) 设计了一种提问机制，允许学生模型在需要更多信息时主动提出问题；3) 使用一个奖励函数来鼓励学生模型提出有用的问题，并避免提出不必要的问题。具体参数设置和网络结构细节在论文中进行了详细描述（此处未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Reflection-DPO在ADAPT基准测试中显著优于现有方法。具体而言，Reflection-DPO在未见用户上的用户偏好满足率比零样本思维链基线提高了6.1%。这表明Reflection-DPO能够更有效地学习和利用用户偏好，从而提高任务完成质量。

🎯 应用场景

该研究成果可应用于各种需要理解和适应用户偏好的场景，例如智能家居助手、个性化推荐系统、人机协作机器人等。通过主动提问和学习用户偏好，智能体可以更好地满足用户需求，提高用户体验，并实现更高效的人机交互。

📄 摘要（原文）

Assistive agents should be able to perform under-specified long-horizon tasks while respecting user preferences. We introduce Actively Discovering and Adapting to Preferences for any Task (ADAPT) -- a benchmark designed to evaluate agents' ability to adhere to user preferences across various household tasks through active questioning. Next, we propose Reflection-DPO, a novel training approach for adapting large language models (LLMs) to the task of active questioning. Reflection-DPO finetunes a 'student' LLM to follow the actions of a privileged 'teacher' LLM, and optionally ask a question to gather necessary information to better predict the teacher action. We find that prior approaches that use state-of-the-art LLMs fail to sufficiently follow user preferences in ADAPT due to insufficient questioning and poor adherence to elicited preferences. In contrast, Reflection-DPO achieves a higher rate of satisfying user preferences, outperforming a zero-shot chain-of-thought baseline by 6.1% on unseen users.

ADAPT: Actively Discovering and Adapting to Preferences for any Task

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理