FreqCache: Accelerating Embodied VLN Models with Adaptive Frequency-Guided Token Caching

📄 arXiv: 2604.24391v1 📥 PDF

作者: Zihao Zheng, Xingyue Zhou, Zhihao Mao, Songyu Sun, Lingyue Zhang, Yulong Ao, Yupu Feng, Qiongqiong Zhang, Yonghua Lin, Xiang Chen

分类: cs.RO

发布日期: 2026-04-27


💡 一句话要点

FreqCache:利用自适应频率引导的Token缓存加速具身VLN模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言导航 Token缓存 频域分析 模型加速 具身智能

📋 核心要点

  1. 现有VLN模型计算开销大,传统token缓存方法在视角变化和边缘信息处理上存在不足。
  2. FreqCache利用频域分析,自适应地建立、刷新和调整token缓存,优化缓存策略。
  3. 实验表明,FreqCache在VLN任务中实现了显著的加速,且引入的额外开销很小。

📝 摘要(中文)

视觉-语言-导航(VLN)模型展现出卓越的导航精度,但计算开销巨大。Token缓存作为一种有前景的免训练策略,通过重用token计算结果来降低成本。然而,现有的token缓存方法依赖于视觉领域的方法进行可缓存token的选择,这在应用于VLN模型时面临挑战:1)当视角迁移时,视觉领域的方法失效;2)视觉领域的方法忽略了关键的边缘信息,且缺乏额外算法辅助;3)视觉领域的方法忽略了场景的时间变化,并且缺乏缓存预算的可调整性。本文进行了详细分析,发现这些挑战的影响在频域中表现出不变性和可分析性。基于此,我们提出了一种频率引导的token缓存框架,称为FreqCache。利用频域的固有属性,FreqCache实现了最佳的token缓存建立、刷新和自适应调整。实验表明,FreqCache实现了1.59倍的加速,且开销可忽略不计,展示了在VLN token缓存中集成频域方法的效果。

🔬 方法详解

问题定义:现有的视觉-语言-导航(VLN)模型虽然导航精度高,但计算成本很高。Token缓存是一种有效的加速方法,但现有方法主要依赖视觉领域的技术来选择可缓存的token。这些方法在VLN任务中存在问题,例如视角变化导致视觉特征失效,忽略关键边缘信息,以及缺乏对场景时间变化的考虑和缓存预算的自适应调整。

核心思路:论文的核心思路是利用频域分析来解决现有token缓存方法在VLN任务中的不足。作者发现,上述问题在频域中具有不变性和可分析性,因此可以通过分析频域特征来更有效地选择和管理可缓存的token。这种方法能够更好地适应VLN任务中视角变化、边缘信息重要性和场景时间变化等特点。

技术框架:FreqCache框架主要包含三个阶段:token缓存的建立、token缓存的刷新和token缓存的自适应调整。在token缓存建立阶段,通过频域分析选择具有代表性的token进行缓存。在token缓存刷新阶段,定期评估缓存token的有效性,并根据频域特征的变化进行更新。在token缓存自适应调整阶段,根据场景的复杂度和计算资源,动态调整缓存预算。

关键创新:该论文的关键创新在于将频域分析引入到VLN模型的token缓存中。与传统的基于视觉特征的token缓存方法不同,FreqCache利用频域特征的不变性和可分析性,能够更有效地选择和管理可缓存的token,从而提高缓存效率和加速效果。

关键设计:FreqCache的关键设计包括:1) 使用离散余弦变换(DCT)等方法将token特征转换到频域;2) 设计基于频域特征的token选择策略,例如选择低频成分占比高的token进行缓存;3) 采用自适应缓存预算调整机制,根据场景复杂度和计算资源动态调整缓存大小;4) 使用滑动窗口等技术来捕捉场景的时间变化,并及时更新缓存。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FreqCache在VLN任务中实现了1.59倍的加速,同时引入的额外开销可忽略不计。这一结果表明,通过集成频域方法,可以显著提高VLN模型的计算效率,而不会对性能产生明显影响。该方法优于传统的基于视觉特征的token缓存方法,为VLN模型的加速提供了一种新的思路。

🎯 应用场景

FreqCache可以应用于各种需要高效视觉-语言-导航的机器人应用中,例如室内导航、自动驾驶、无人机巡检等。通过降低计算开销,该方法可以使VLN模型在资源受限的设备上运行,并提高导航系统的实时性和响应速度。未来,该技术有望促进更智能、更高效的机器人导航系统的发展。

📄 摘要(原文)

Vision-Language-Navigation (VLN) models exhibit excellent navigation accuracy but incur high computational overhead. Token caching has emerged as a promising training-free strategy to reduce this cost by reusing token computation results; however, existing token caching approaches rely on visual domain methods for cacheable token selection, leading to challenges when adapted to VLN models. 1) Visual domain methods become invalid when there is viewpoint migration. 2) Visual domain methods neglect critical edge information without the aid of additional algorithms. 3) Visual domain methods overlook the temporal variation of scenarios and lack adjustability in cache budgets. In this paper, we develop detailed analyses and find that the impacts of these challenges exhibit invariance and analyzability in the frequency domain. Based on these, we propose a frequency-guided token caching framework, called FreqCache. Utilizing the inherent properties of the frequency domain, FreqCache achieves optimal token cache establishment, refreshment, and adaptive adjustment. Experiments show that FreqCache achieves 1.59x speedup with ignorable overhead, showing the effect of integrating frequency domain methods in VLN token caching.