Conversational Planning for Personal Plans
作者: Konstantina Christakopoulou, Iris Qu, John Canny, Andrew Goodridge, Cj Adams, Minmin Chen, Maja Matarić
分类: cs.AI, cs.CL, cs.HC, cs.LG
发布日期: 2025-02-26
💡 一句话要点
提出基于LLM的对话式规划框架,用于个性化长期计划制定。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话式规划 大型语言模型 长期规划 分层架构 个性化计划
📋 核心要点
- 现有对话系统难以处理需要长期规划和多轮交互的复杂任务,缺乏对用户长期目标的有效支持。
- 论文提出一种新颖的架构,利用LLM作为元控制器进行宏观动作规划,并结合工具增强的LLM执行具体动作。
- 该框架通过对话收集用户反馈,实现对用户个人计划的自适应规划,并应用于辅导和健康指导等场景。
📝 摘要(中文)
大型语言模型(LLM)的语言生成和推理能力使得对话系统在各种任务中表现出色,从代码生成、撰写文章到通过STEM和法律考试,以及知识搜索的新范式。除了这些短期应用,LLM越来越多地被用于帮助完成需要长时间才能完成的现实生活目标或任务,涉及数天、数周、数月甚至数年的多个会话。因此,为了实现用于长期交互和任务的对话系统,我们需要能够进行长期规划的基于语言的代理。传统上,这种能力是通过具有分层规划能力的强化学习代理来实现的。在这项工作中,我们探索了一种新颖的架构,其中LLM充当元控制器,决定代理的下一个宏观动作,而工具增强的基于LLM的选项策略执行所选的宏观动作。我们针对一组特定的宏观动作实例化此框架,从而能够通过对话和收集用户反馈的后续问题,为用户的个人计划进行自适应规划。我们展示了这种范例如何适用于从学术和非学术任务的辅导到个人健康计划的对话式指导等场景。
🔬 方法详解
问题定义:现有对话系统在处理需要长期规划的个人任务时,缺乏有效的规划能力和长期记忆机制。传统的强化学习方法虽然可以进行分层规划,但在语言理解和生成方面存在不足,难以实现自然流畅的对话交互。因此,需要一种能够结合LLM的语言能力和规划能力的对话系统,以支持用户的长期目标。
核心思路:论文的核心思路是利用LLM作为元控制器,负责制定长期规划的宏观动作序列,并使用工具增强的LLM作为选项策略,负责执行具体的宏观动作。通过这种分层结构,可以将长期规划问题分解为一系列可执行的子任务,并利用LLM的语言能力进行对话交互和用户反馈收集,从而实现自适应的个人计划。
技术框架:该框架包含两个主要模块:LLM元控制器和工具增强的LLM选项策略。LLM元控制器负责根据用户的当前状态和长期目标,选择下一个要执行的宏观动作。工具增强的LLM选项策略负责执行选定的宏观动作,例如提问、提供建议、收集反馈等。整个流程通过对话进行交互,LLM元控制器根据用户的反馈调整后续的宏观动作规划。
关键创新:该论文的关键创新在于将LLM应用于对话式长期规划任务,并提出了一种新颖的分层架构,将LLM的语言能力和规划能力相结合。与传统的强化学习方法相比,该方法能够更好地理解用户的意图,并生成更自然流畅的对话。此外,该框架还能够通过对话收集用户反馈,实现对个人计划的自适应调整。
关键设计:宏观动作集合的设计是关键。论文针对特定应用场景(如辅导和健康指导)定义了一组宏观动作,例如“提问以了解用户背景”、“提供建议”、“收集用户反馈”等。LLM元控制器的训练目标是最大化用户的长期满意度,可以使用强化学习或模仿学习等方法进行训练。工具增强的LLM选项策略可以使用预训练的LLM进行微调,并结合特定的工具或知识库来提高执行效果。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了该框架在辅导和健康指导等场景中的有效性。实验结果表明,与传统的对话系统相比,该框架能够更好地理解用户的意图,并生成更个性化的建议。具体的性能数据和对比基线在论文中进行了详细描述(具体数值未知)。
🎯 应用场景
该研究成果可应用于多个领域,例如个性化教育辅导、健康管理、职业规划等。通过对话式交互,系统可以帮助用户制定长期计划,并提供个性化的指导和支持。未来,该技术有望发展成为智能个人助理,帮助用户更好地管理时间和资源,实现个人目标。
📄 摘要(原文)
The language generation and reasoning capabilities of large language models (LLMs) have enabled conversational systems with impressive performance in a variety of tasks, from code generation, to composing essays, to passing STEM and legal exams, to a new paradigm for knowledge search. Besides those short-term use applications, LLMs are increasingly used to help with real-life goals or tasks that take a long time to complete, involving multiple sessions across days, weeks, months, or even years. Thus to enable conversational systems for long term interactions and tasks, we need language-based agents that can plan for long horizons. Traditionally, such capabilities were addressed by reinforcement learning agents with hierarchical planning capabilities. In this work, we explore a novel architecture where the LLM acts as the meta-controller deciding the agent's next macro-action, and tool use augmented LLM-based option policies execute the selected macro-action. We instantiate this framework for a specific set of macro-actions enabling adaptive planning for users' personal plans through conversation and follow-up questions collecting user feedback. We show how this paradigm can be applicable in scenarios ranging from tutoring for academic and non-academic tasks to conversational coaching for personal health plans.