Rectified Schrödinger Bridge Matching for Few-Step Visual Navigation

📄 arXiv: 2604.05673v1 📥 PDF

作者: Wuyang Luan, Junhui Li, Weiguang Zhao, Wenjian Zhang, Tieru Wu, Rui Ma

分类: cs.RO, cs.AI

发布日期: 2026-04-07

备注: 18 pages, 7 figures, 10 tables. Code available at https://github.com/WuyangLuan/RSBM


💡 一句话要点

提出RSBM,通过修正Schrödinger桥匹配实现少步视觉导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉导航 Schrödinger桥 扩散模型 具身智能 最优传输 速度场 少步推理

📋 核心要点

  1. 现有基于扩散模型的视觉导航方法需要大量采样步骤,计算成本高,难以满足实时性要求。
  2. RSBM通过调整Schrödinger桥的熵正则化参数,在多模态覆盖和路径直线度之间取得平衡。
  3. 实验表明,RSBM仅需少量步骤即可达到与传统方法相当甚至更好的性能,显著提升了效率。

📝 摘要(中文)

视觉导航是具身智能的核心挑战,它要求自主智能体将高维感官观测转化为连续的长程动作轨迹。基于扩散模型和Schrödinger桥(SB)的生成策略能够有效捕捉多模态动作分布,但由于高方差随机传输,需要数十个积分步骤,这对实时机器人控制构成了关键障碍。我们提出了修正Schrödinger桥匹配(RSBM),该框架利用标准Schrödinger桥(ε=1,最大熵传输)和确定性最优传输(ε→0,如条件流匹配)之间共享的速度场结构,由单个熵正则化参数ε控制。我们证明了两个关键结果:(1)条件速度场的函数形式在整个ε谱上是不变的(速度结构不变性),使得单个网络能够服务于所有正则化强度;(2)降低ε线性地降低了条件速度方差,从而实现了更稳定的粗步ODE积分。RSBM锚定于学习到的条件先验,缩短了传输距离,并在中间ε处运行,平衡了多模态覆盖和路径直线度。实验表明,标准桥需要≥10步才能收敛,而RSBM仅需3个积分步骤即可实现超过94%的余弦相似度和92%的成功率——无需蒸馏或多阶段训练——大大缩小了高保真生成策略与具身智能的低延迟需求之间的差距。

🔬 方法详解

问题定义:论文旨在解决视觉导航中,基于扩散模型的生成策略由于需要大量采样步骤而导致的计算效率低下的问题。现有方法,如基于Schrödinger桥的方法,虽然能够捕捉多模态动作分布,但由于高方差的随机传输,需要数十个积分步骤才能收敛,这对于需要实时控制的机器人应用来说是不可接受的。

核心思路:论文的核心思路是利用标准Schrödinger桥和确定性最优传输之间共享的速度场结构,通过调整熵正则化参数ε,在多模态覆盖和路径直线度之间取得平衡。通过降低ε,可以线性地降低条件速度方差,从而实现更稳定的粗步ODE积分,减少所需的采样步骤。

技术框架:RSBM框架主要包含以下几个模块:1)学习一个条件先验,用于缩短传输距离;2)利用一个网络学习条件速度场,该网络能够适应不同的熵正则化强度ε;3)通过调整ε的值,在多模态覆盖和路径直线度之间进行权衡;4)使用ODE积分器,根据学习到的速度场生成动作轨迹。

关键创新:论文最重要的技术创新点在于发现了条件速度场的函数形式在整个ε谱上的不变性(速度结构不变性),这意味着可以使用单个网络来处理不同的正则化强度。此外,通过降低ε来降低条件速度方差,使得可以使用更少的积分步骤来实现高性能。

关键设计:RSBM的关键设计包括:1)使用一个神经网络来学习条件速度场,该网络的输入包括当前状态、目标状态和时间步长;2)使用一个损失函数来训练该网络,该损失函数包括速度匹配损失和正则化项;3)选择一个合适的ε值,以平衡多模态覆盖和路径直线度;4)使用一个ODE积分器,如Euler方法或Runge-Kutta方法,来生成动作轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RSBM在视觉导航任务中取得了显著的性能提升。实验结果表明,RSBM仅需3个积分步骤即可实现超过94%的余弦相似度和92%的成功率,而标准Schrödinger桥需要至少10个步骤才能达到类似的性能。这表明RSBM能够显著降低计算成本,提高导航效率。

🎯 应用场景

RSBM具有广泛的应用前景,包括机器人导航、自动驾驶、游戏AI等领域。它可以用于开发更高效、更实时的自主导航系统,使机器人能够在复杂环境中自主完成任务。此外,RSBM还可以应用于虚拟现实和增强现实等领域,为用户提供更自然、更流畅的交互体验。

📄 摘要(原文)

Visual navigation is a core challenge in Embodied AI, requiring autonomous agents to translate high-dimensional sensory observations into continuous, long-horizon action trajectories. While generative policies based on diffusion models and Schrödinger Bridges (SB) effectively capture multimodal action distributions, they require dozens of integration steps due to high-variance stochastic transport, posing a critical barrier for real-time robotic control. We propose Rectified Schrödinger Bridge Matching (RSBM), a framework that exploits a shared velocity-field structure between standard Schrödinger Bridges ($\varepsilon=1$, maximum-entropy transport) and deterministic Optimal Transport ($\varepsilon\to 0$, as in Conditional Flow Matching), controlled by a single entropic regularization parameter $\varepsilon$. We prove two key results: (1) the conditional velocity field's functional form is invariant across the entire $\varepsilon$-spectrum (Velocity Structure Invariance), enabling a single network to serve all regularization strengths; and (2) reducing $\varepsilon$ linearly decreases the conditional velocity variance, enabling more stable coarse-step ODE integration. Anchored to a learned conditional prior that shortens transport distance, RSBM operates at an intermediate $\varepsilon$ that balances multimodal coverage and path straightness. Empirically, while standard bridges require $\geq 10$ steps to converge, RSBM achieves over 94% cosine similarity and 92% success rate in merely 3 integration steps -- without distillation or multi-stage training -- substantially narrowing the gap between high-fidelity generative policies and the low-latency demands of Embodied AI.