ADAPT: Actively Discovering and Adapting to Preferences for any Task
作者: Maithili Patel, Xavier Puig, Ruta Desai, Roozbeh Mottaghi, Sonia Chernova, Joanne Truong, Akshara Rai
分类: cs.AI, cs.RO
发布日期: 2025-04-05
💡 一句话要点
ADAPT:通过主动提问,发现并适应任何任务中的用户偏好
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 用户偏好学习 主动提问 模仿学习 大型语言模型 人机交互
📋 核心要点
- 现有方法在处理需要理解用户偏好的长时任务时,提问不足且未能有效利用已获取的偏好信息。
- 论文提出Reflection-DPO,通过模仿学习和主动提问,使LLM能够更好地适应用户偏好并完成任务。
- 实验表明,Reflection-DPO在ADAPT基准测试中显著优于现有方法,尤其是在满足用户偏好方面。
📝 摘要(中文)
辅助智能体应能在尊重用户偏好的前提下,执行未充分指定的长时任务。我们提出了“主动发现和适应任何任务中的偏好”(ADAPT)——一个旨在评估智能体通过主动提问,在各种家庭任务中遵守用户偏好的能力的基准。接下来,我们提出了一种新颖的训练方法Reflection-DPO,用于将大型语言模型(LLM)适应于主动提问的任务。Reflection-DPO微调一个“学生”LLM,使其遵循一个特权“教师”LLM的动作,并可选择提出问题以收集必要的信息,从而更好地预测教师的动作。我们发现,由于提问不足和对所获取偏好的不良遵守,使用最先进LLM的先前方法未能充分遵循ADAPT中的用户偏好。相比之下,Reflection-DPO实现了更高的用户偏好满足率,在未见用户上,优于零样本思维链基线6.1%。
🔬 方法详解
问题定义:论文旨在解决辅助智能体在执行长时任务时,如何主动发现并适应用户偏好的问题。现有方法,特别是直接使用大型语言模型(LLM)的方法,在提问策略上不够完善,无法充分获取用户偏好,并且在利用已获取的偏好信息方面表现不佳,导致任务完成质量不高。
核心思路:论文的核心思路是利用模仿学习,让一个“学生”LLM模仿一个“教师”LLM的行为,并通过主动提问来获取更多信息,从而更好地预测教师的行为。这种方法鼓励学生模型学习何时以及如何提问,以便更好地理解用户偏好。
技术框架:ADAPT的整体框架包含以下几个主要部分:首先,定义了一系列家庭任务,这些任务需要智能体理解并满足用户的偏好。其次,构建了一个“教师”LLM,该模型能够根据用户偏好执行任务并提出问题。然后,使用Reflection-DPO训练一个“学生”LLM,使其模仿教师的行为,并学习主动提问。最后,通过ADAPT基准测试评估学生模型的性能。
关键创新:Reflection-DPO的关键创新在于它结合了模仿学习和主动提问,使LLM能够更有效地学习用户偏好。与传统的监督学习方法不同,Reflection-DPO允许模型在训练过程中主动探索,并通过提问来获取更多信息。此外,DPO(Direct Preference Optimization)的使用使得模型可以直接优化用户偏好,而无需显式地建模奖励函数。
关键设计:Reflection-DPO的关键设计包括:1) 使用DPO损失函数来优化学生模型的行为,使其更接近教师模型;2) 设计了一种提问机制,允许学生模型在需要更多信息时主动提出问题;3) 使用一个奖励函数来鼓励学生模型提出有用的问题,并避免提出不必要的问题。具体参数设置和网络结构细节在论文中进行了详细描述(此处未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Reflection-DPO在ADAPT基准测试中显著优于现有方法。具体而言,Reflection-DPO在未见用户上的用户偏好满足率比零样本思维链基线提高了6.1%。这表明Reflection-DPO能够更有效地学习和利用用户偏好,从而提高任务完成质量。
🎯 应用场景
该研究成果可应用于各种需要理解和适应用户偏好的场景,例如智能家居助手、个性化推荐系统、人机协作机器人等。通过主动提问和学习用户偏好,智能体可以更好地满足用户需求,提高用户体验,并实现更高效的人机交互。
📄 摘要(原文)
Assistive agents should be able to perform under-specified long-horizon tasks while respecting user preferences. We introduce Actively Discovering and Adapting to Preferences for any Task (ADAPT) -- a benchmark designed to evaluate agents' ability to adhere to user preferences across various household tasks through active questioning. Next, we propose Reflection-DPO, a novel training approach for adapting large language models (LLMs) to the task of active questioning. Reflection-DPO finetunes a 'student' LLM to follow the actions of a privileged 'teacher' LLM, and optionally ask a question to gather necessary information to better predict the teacher action. We find that prior approaches that use state-of-the-art LLMs fail to sufficiently follow user preferences in ADAPT due to insufficient questioning and poor adherence to elicited preferences. In contrast, Reflection-DPO achieves a higher rate of satisfying user preferences, outperforming a zero-shot chain-of-thought baseline by 6.1% on unseen users.