The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space
作者: Bing-Cheng Chuang, I-Hsuan Chu, Bor-Jiun Lin, YuanFu Yang, Min Sun, Chun-Yi Lee
分类: cs.RO, cs.LG
发布日期: 2026-06-01
备注: ICML 2026 Accepted
💡 一句话要点
提出Lie Diffuser Actor以解决视觉语言动作策略中的欧几里得谬误问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言 动作策略 扩散模型 机器人操作 几何优化 流形学习 深度学习
📋 核心要点
- 现有的扩散模型在处理机器人操作时存在欧几里得谬误,导致流形漂移和运动效率低下。
- 提出的Lie Diffuser Actor通过在SE(3)上进行扩散,避免了流形漂移并保证了坐标变换下的等变性。
- 实验结果表明,LDA在CALVIN ABC$ ightarrow$D任务中平均任务长度提升了7.3%,并在真实机器人上表现优于基线。
📝 摘要(中文)
基于扩散的视觉-语言-动作策略在机器人操作中取得了显著成功,但存在一种基本的几何错误,称为欧几里得谬误:将SE(3)姿态表示为平坦的$ extbf{R}^{12}$向量。这种近似导致了流形漂移、坐标变换下的破坏等变性以及过高的运动成本。本文提出了$ extbf{Lie Diffuser Actor (LDA)}$,一个在SE(3)上内在操作的扩散框架。该方法通过左不变随机微分方程注入噪声,在切空间中预测分数,并通过指数映射回收样本。该构造消除了流形漂移,同时保证了坐标框架的变性和测地线最优性。在CALVIN ABC$ ightarrow$D上,LDA将平均任务长度从$3.27$提升至$3.51$(+7.3%)。我们进一步在真实机器人上验证了该方法,结果显示在大多数任务上优于基线。
🔬 方法详解
问题定义:本文旨在解决现有视觉语言动作策略中将SE(3)姿态错误地表示为$ extbf{R}^{12}$向量所引发的欧几里得谬误,导致流形漂移和运动成本过高等问题。
核心思路:提出的Lie Diffuser Actor (LDA)框架在SE(3)上内在操作,通过左不变随机微分方程注入噪声,确保了坐标变换下的等变性和测地线最优性。
技术框架:LDA的整体架构包括三个主要模块:噪声注入模块、分数预测模块和样本回收模块。噪声通过左不变SDEs注入,分数在切空间中预测,样本通过指数映射进行回收。
关键创新:LDA的最大创新在于其在SE(3)上的内在操作,消除了流形漂移问题,并确保了在坐标变换下的等变性,这与传统方法的欧几里得表示形成了本质区别。
关键设计:在设计中,采用了左不变随机微分方程作为噪声注入机制,损失函数设计为优化切空间中的分数预测,网络结构则基于深度学习框架进行构建,以适应复杂的机器人操作任务。
🖼️ 关键图片
📊 实验亮点
实验结果显示,LDA在CALVIN ABC$ ightarrow$D任务中将平均任务长度从3.27提升至3.51,提升幅度达到7.3%。在真实机器人实验中,LDA在大多数任务上优于基线,验证了其有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括机器人操作、自动化制造和智能家居等。通过提高机器人在复杂环境中的操作能力,LDA有望推动智能机器人技术的发展,并在实际应用中提升效率和安全性。
📄 摘要(原文)
Diffusion-based Vision-Language-Action policies achieve remarkable success in robotic manipulation, yet commit a fundamental geometric error we term the $\textbf{Euclidean Fallacy}$: representing SE(3) poses as flat $\mathbb{R}^{12}$ vectors. This approximation induces (1) manifold drift violating SO(3) constraints, (2) broken equivariance under coordinate transformations, and (3) non-geodesic trajectories with excessive kinematic cost. We introduce $\textbf{Lie Diffuser Actor (LDA)}$, a diffusion framework operating intrinsically on SE(3). Our method injects noise through left-invariant SDEs, predicts scores in the tangent space, and retracts samples via the exponential map. This formulation eliminates manifold drift by construction while guaranteeing coordinate-frame equivariance and geodesic optimality. On CALVIN ABC$\rightarrow$D, LDA improves average task length from $3.27$ to $3.51$ ($+7.3\%$). We further validate our method on real robot and the results show that our methodology outperforms the baseline on majority tasks.