Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction

作者: Ce Zhang, Yale Song, Ruta Desai, Michael Louis Iuzzolino, Joseph Tighe, Gedas Bertasius, Satwik Kottur

分类: cs.CV

发布日期: 2025-07-20

💡 一句话要点

VideoPlan：利用辅助任务和多Token预测增强视觉规划能力

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉规划 多模态学习 辅助任务 多Token预测 长程动作预测

📋 核心要点

长程视觉规划任务面临程序性标注数据稀缺和动作空间结构化建模不足的挑战。
通过引入辅助任务增强和多Token预测，VideoPlan模型能够更好地学习任务动态和动作空间。
VideoPlan在COIN、CrossTask和Ego4D数据集上取得了显著的性能提升，验证了方法的有效性。

📝 摘要（中文）

视觉辅助规划(VPA)旨在根据展示用户进度的视频，预测实现特定目标所需的用户行为序列。尽管多模态大型语言模型(MLLM)在视频理解方面取得了可喜的成果，但长程视觉规划仍然是一个具有挑战性的问题。本文指出了训练用于视频规划任务的大型MLLM的两个挑战：(1)程序性标注的稀缺性，限制了模型有效学习程序性任务动态的能力；(2)与自由形式的自然语言相比，next-token预测目标在显式捕获视觉规划的结构化动作空间方面的效率较低。为了解决数据稀缺问题，本文引入了辅助任务增强。设计并在与长程视频规划相关的辅助任务(例如，目标预测)上训练模型，以增强模型的规划能力。为了更明确地建模视觉规划任务特有的结构化动作空间，本文利用多Token预测，通过使用多个头来预测训练期间的多个未来token，从而扩展了传统的next-token预测。提出的方法VideoPlan在COIN和CrossTask数据集上实现了最先进的VPA性能，在预测3个未来动作时，分别超过了先前方法7.3%和3.4%。进一步将该方法扩展到具有挑战性的Ego4D长期动作预测任务，并表明它与最先进的方法相当，尽管没有使用专门的以自我为中心的特征。代码即将开源。

🔬 方法详解

问题定义：论文旨在解决长程视觉规划任务中，由于程序性标注数据稀缺和动作空间结构化建模不足，导致模型难以有效预测用户行为序列的问题。现有方法通常采用next-token预测，但这种方法在捕获视觉规划任务中结构化的动作空间方面效率较低。

核心思路：论文的核心思路是通过引入辅助任务增强和多Token预测来提升模型的视觉规划能力。辅助任务增强旨在利用额外的监督信号来弥补数据稀缺的问题，而多Token预测则旨在更明确地建模结构化的动作空间。

技术框架：VideoPlan模型的技术框架主要包括视频编码器、文本编码器和多头预测模块。视频编码器负责提取视频帧的视觉特征，文本编码器负责编码目标描述。多头预测模块则基于编码后的视觉和文本特征，预测多个未来的动作token。整体流程是：输入视频和目标描述，经过编码器提取特征，然后通过多头预测模块预测动作序列。

关键创新：论文的关键创新在于同时采用了辅助任务增强和多Token预测。辅助任务增强通过引入额外的监督信号来提升模型的泛化能力，而多Token预测则通过并行预测多个token来更有效地建模动作空间。这与传统的next-token预测方法形成了鲜明对比，后者一次只预测一个token，效率较低。

关键设计：在辅助任务增强方面，论文设计了目标预测等辅助任务，并将其与主要的动作预测任务联合训练。在多Token预测方面，论文采用了多个预测头，每个头负责预测一个未来的token。损失函数方面，采用了交叉熵损失函数来衡量预测结果与真实标签之间的差异。具体的网络结构和参数设置在论文中有详细描述，但摘要中未提及具体数值。

🖼️ 关键图片

📊 实验亮点

VideoPlan在COIN和CrossTask数据集上取得了state-of-the-art的VPA性能，在预测3个未来动作时，分别超过了先前方法7.3%和3.4%。在Ego4D长期动作预测任务中，VideoPlan的性能与最先进的方法相当，且未使用专门的以自我为中心的特征，证明了其泛化能力。

🎯 应用场景

该研究成果可应用于机器人辅助、智能家居、虚拟助手等领域。例如，机器人可以根据用户提供的视频和目标，预测用户接下来需要执行的动作，从而提供更智能的辅助。此外，该技术还可以用于视频编辑、内容生成等领域，具有广阔的应用前景。

📄 摘要（原文）

Visual Planning for Assistance (VPA) aims to predict a sequence of user actions required to achieve a specified goal based on a video showing the user's progress. Although recent advances in multimodal large language models (MLLMs) have shown promising results in video understanding, long-horizon visual planning remains a challenging problem. We identify two challenges in training large MLLMs for video-based planning tasks: (1) scarcity of procedural annotations, limiting the model's ability to learn procedural task dynamics effectively, and (2) inefficiency of next-token prediction objective to explicitly capture the structured action space for visual planning when compared to free-form, natural language. To tackle data scarcity, we introduce Auxiliary Task Augmentation. We design and train our model on auxiliary tasks relevant to long-horizon video-based planning (e.g., goal prediction) to augment the model's planning ability. To more explicitly model the structured action space unique to visual planning tasks, we leverage Multi-token Prediction, extending traditional next-token prediction by using multiple heads to predict multiple future tokens during training. Our approach, VideoPlan, achieves state-of-the-art VPA performance on the COIN and CrossTask datasets, surpassing prior methods by 7.3% and 3.4%, respectively, when predicting 3 future actions. We further extend our method to the challenging Ego4D Long-term Action Anticipation task, and show that it is on par with the state-of-the-art approaches despite not using specialized egocentric features. Code will be made available.

Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理