Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation
作者: Pingrui Zhang, Yifei Su, Pengyuan Wu, Dong An, Li Zhang, Zhigang Wang, Dong Wang, Yan Ding, Bin Zhao, Xuelong Li
分类: cs.CV, cs.AI, cs.CL, cs.RO
发布日期: 2025-05-27 (更新: 2025-06-22)
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应文本梦想者以解决视觉与语言导航问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉与语言导航 自适应文本梦想者 大型语言模型 逻辑推理 想象预测 双分支架构 导航专家模块
📋 核心要点
- 核心问题:现有视觉与语言导航方法依赖视觉合成,导致计算成本高且细节冗余。
- 方法要点:提出自适应文本梦想者,通过语言形式想象环境语义,结合逻辑推理与想象预测。
- 实验或效果:在R2R基准上,ATD实现了最先进的性能,且参数更少,效率更高。
📝 摘要(中文)
视觉与语言导航(VLN)要求智能体在部分可观测的环境中根据自然语言指令进行导航,这使得感知与语言的对齐变得困难。近期的方法通过想象未来场景来缓解这一问题,但依赖于基于视觉的合成,导致计算成本高且细节冗余。为此,本文提出了一种自适应地通过语言形式想象关键环境语义的策略,旨在提高可靠性和效率。具体而言,我们引入了一种新颖的自适应文本梦想者(ATD),其基于大型语言模型(LLM)构建了双分支自我引导想象策略。ATD采用类人左右脑架构,左脑专注于逻辑整合,右脑负责未来场景的想象预测。我们在R2R基准上进行了广泛实验,ATD在参数更少的情况下实现了最先进的性能。
🔬 方法详解
问题定义:本文旨在解决视觉与语言导航中感知与语言对齐的困难,现有方法因依赖视觉合成而面临高计算成本和冗余细节的问题。
核心思路:提出自适应文本梦想者(ATD),通过语言形式自适应地想象关键环境语义,设计了左右脑架构,左脑负责逻辑整合,右脑负责未来场景的想象预测。
技术框架:ATD由双分支自我引导想象策略组成,利用大型语言模型(LLM)进行推理和想象。通过微调Q-former来激活领域特定知识,实现逻辑推理和想象的动态更新。
关键创新:ATD的左右脑架构是其核心创新,左脑与右脑的分工使得逻辑推理与想象预测能够高效协同,区别于传统的单一视觉合成方法。
关键设计:在设计中,ATD通过交互机制来规范想象输出,并将其注入导航专家模块,确保了逻辑推理与导航模型的有效结合。
🖼️ 关键图片
📊 实验亮点
在R2R基准测试中,ATD实现了最先进的性能,相较于基线方法,参数数量减少,同时在导航任务中表现出更高的效率和准确性,展示了其在视觉与语言导航中的优势。
🎯 应用场景
该研究在智能导航、机器人技术和人机交互等领域具有广泛的应用潜力。通过提高视觉与语言导航的效率和可靠性,ATD可以用于智能家居、自动驾驶等场景,提升用户体验和系统智能化水平。
📄 摘要(原文)
Vision-and-Language Navigation (VLN) requires the agent to navigate by following natural instructions under partial observability, making it difficult to align perception with language. Recent methods mitigate this by imagining future scenes, yet they rely on vision-based synthesis, leading to high computational cost and redundant details. To this end, we propose to adaptively imagine key environmental semantics via \textit{language} form, enabling a more reliable and efficient strategy. Specifically, we introduce a novel Adaptive Text Dreamer (ATD), a dual-branch self-guided imagination policy built upon a large language model (LLM). ATD is designed with a human-like left-right brain architecture, where the left brain focuses on logical integration, and the right brain is responsible for imaginative prediction of future scenes. To achieve this, we fine-tune only the Q-former within both brains to efficiently activate domain-specific knowledge in the LLM, enabling dynamic updates of logical reasoning and imagination during navigation. Furthermore, we introduce a cross-interaction mechanism to regularize the imagined outputs and inject them into a navigation expert module, allowing ATD to jointly exploit both the reasoning capacity of the LLM and the expertise of the navigation model. We conduct extensive experiments on the R2R benchmark, where ATD achieves state-of-the-art performance with fewer parameters. The code is \href{https://github.com/zhangpingrui/Adaptive-Text-Dreamer}{here}.