Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos

作者: Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang

分类: cs.CV

发布日期: 2024-09-30

备注: Accepted by ECCV 2024 (Oral)

💡 一句话要点

VidAssist：利用LLM进行教学视频中面向目标的规划

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 面向目标规划 教学视频 零样本学习 少样本学习

📋 核心要点

现有方法在面向目标规划中依赖大量训练数据，导致模型泛化能力差，难以适应新任务。
VidAssist利用LLM作为知识库和评估工具，结合广度优先搜索，实现零/少样本下的有效规划。
实验表明，VidAssist在视觉规划辅助和程序规划任务上均超越了现有最佳方法，提升显著。

📝 摘要（中文）

面向目标的规划，即预测一系列将智能体从当前状态转移到预定义目标的动作，对于开发辅助用户完成日常程序性任务的智能助手至关重要。由于需要全面了解时间性和层级性的任务结构，以及强大的推理和规划能力，该问题极具挑战性。以往的研究通常依赖于在目标数据集上进行大量训练，这往往导致显著的数据集偏差，并且缺乏对未见任务的泛化能力。本文介绍VidAssist，一个为教学视频中零/少样本面向目标的规划而设计的集成框架。VidAssist利用大型语言模型（LLM）作为知识库和评估工具，用于生成和评估行动计划，从而克服了从小规模、低多样性数据集中获取程序性知识的挑战。此外，VidAssist采用广度优先搜索算法来生成最优计划，其中使用专为面向目标的规划而设计的价值函数的组合来评估每个步骤中预测的动作。大量实验表明，VidAssist为不同的面向目标的规划设置（例如，视觉规划辅助（VPA）和程序规划（PP））提供了一个统一的框架，并在零样本和少样本设置中取得了显著的性能。具体而言，我们的少样本模型在COIN数据集上预测4个未来动作时，在VPA任务上优于先前的完全监督的最先进方法+7.7%，在PP任务上优于+4.81%。代码和模型可在https://sites.google.com/view/vidassist公开获取。

🔬 方法详解

问题定义：论文旨在解决教学视频中面向目标的规划问题，即预测一系列动作以达到特定目标。现有方法依赖大量标注数据，存在泛化性差和数据集偏差的问题。此外，现有方法难以有效利用视频中的上下文信息进行推理和规划。

核心思路：论文的核心思路是利用大型语言模型（LLM）的强大知识库和推理能力，结合搜索算法，在零/少样本情况下实现有效的面向目标规划。通过将LLM作为知识库和评估工具，可以克服对大量标注数据的依赖，并提高模型的泛化能力。

技术框架：VidAssist框架包含三个主要模块：提议（Propose）、评估（Assess）和搜索（Search）。首先，提议模块利用LLM生成一系列可能的动作序列。然后，评估模块使用LLM对这些动作序列进行评估，判断其是否能够有效地达到目标。最后，搜索模块采用广度优先搜索算法，结合评估模块的反馈，逐步构建最优的动作计划。

关键创新：该论文的关键创新在于将LLM作为知识库和评估工具，用于面向目标的规划。与传统方法相比，该方法无需大量标注数据，并且能够利用LLM的强大推理能力进行规划。此外，论文还提出了一种新的价值函数组合，用于评估动作序列的有效性。

关键设计：在提议模块中，论文使用了Prompt Engineering来引导LLM生成合理的动作序列。在评估模块中，论文设计了一种基于LLM的价值函数，用于评估动作序列的有效性。该价值函数考虑了动作与目标的相关性、动作的可行性以及动作的顺序等因素。在搜索模块中，论文采用了广度优先搜索算法，并使用评估模块的价值函数作为搜索的指导。

🖼️ 关键图片

📊 实验亮点

VidAssist在COIN数据集上的实验结果表明，其少样本模型在视觉规划辅助（VPA）和程序规划（PP）任务上均优于现有最佳方法。具体而言，在预测4个未来动作时，VPA任务上提升了7.7%，PP任务上提升了4.81%。这些结果表明，VidAssist能够有效地利用LLM进行面向目标的规划，并在零/少样本情况下取得显著的性能提升。

🎯 应用场景

该研究成果可应用于智能助手、机器人导航、自动化流程设计等领域。例如，智能助手可以根据用户的目标，自动规划一系列操作步骤，帮助用户完成复杂的任务。机器人可以利用该方法在未知环境中进行导航和操作。自动化流程设计可以利用该方法自动生成最优的流程方案。

📄 摘要（原文）

Goal-oriented planning, or anticipating a series of actions that transition an agent from its current state to a predefined objective, is crucial for developing intelligent assistants aiding users in daily procedural tasks. The problem presents significant challenges due to the need for comprehensive knowledge of temporal and hierarchical task structures, as well as strong capabilities in reasoning and planning. To achieve this, prior work typically relies on extensive training on the target dataset, which often results in significant dataset bias and a lack of generalization to unseen tasks. In this work, we introduce VidAssist, an integrated framework designed for zero/few-shot goal-oriented planning in instructional videos. VidAssist leverages large language models (LLMs) as both the knowledge base and the assessment tool for generating and evaluating action plans, thus overcoming the challenges of acquiring procedural knowledge from small-scale, low-diversity datasets. Moreover, VidAssist employs a breadth-first search algorithm for optimal plan generation, in which a composite of value functions designed for goal-oriented planning is utilized to assess the predicted actions at each step. Extensive experiments demonstrate that VidAssist offers a unified framework for different goal-oriented planning setups, e.g., visual planning for assistance (VPA) and procedural planning (PP), and achieves remarkable performance in zero-shot and few-shot setups. Specifically, our few-shot model outperforms the prior fully supervised state-of-the-art method by +7.7% in VPA and +4.81% PP task on the COIN dataset while predicting 4 future actions. Code, and models are publicly available at https://sites.google.com/view/vidassist.

Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理