The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

作者: Bing-Cheng Chuang, I-Hsuan Chu, Bor-Jiun Lin, YuanFu Yang, Min Sun, Chun-Yi Lee

分类: cs.RO, cs.LG

发布日期: 2026-06-01

备注: ICML 2026 Accepted

💡 一句话要点

提出Lie Diffuser Actor以解决视觉语言动作策略中的欧几里得谬误问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言 动作策略 扩散模型 机器人操作 几何优化 流形学习 深度学习

📋 核心要点

现有的扩散模型在处理机器人操作时存在欧几里得谬误，导致流形漂移和运动效率低下。
提出的Lie Diffuser Actor通过在SE(3)上进行扩散，避免了流形漂移并保证了坐标变换下的等变性。
实验结果表明，LDA在CALVIN ABC$ ightarrow$D任务中平均任务长度提升了7.3%，并在真实机器人上表现优于基线。

📝 摘要（中文）

基于扩散的视觉-语言-动作策略在机器人操作中取得了显著成功，但存在一种基本的几何错误，称为欧几里得谬误：将SE(3)姿态表示为平坦的$ extbf{R}^{12}$向量。这种近似导致了流形漂移、坐标变换下的破坏等变性以及过高的运动成本。本文提出了$ extbf{Lie Diffuser Actor (LDA)}$，一个在SE(3)上内在操作的扩散框架。该方法通过左不变随机微分方程注入噪声，在切空间中预测分数，并通过指数映射回收样本。该构造消除了流形漂移，同时保证了坐标框架的变性和测地线最优性。在CALVIN ABC$ ightarrow$D上，LDA将平均任务长度从$3.27$提升至$3.51$（+7.3%）。我们进一步在真实机器人上验证了该方法，结果显示在大多数任务上优于基线。

🔬 方法详解

问题定义：本文旨在解决现有视觉语言动作策略中将SE(3)姿态错误地表示为$ extbf{R}^{12}$向量所引发的欧几里得谬误，导致流形漂移和运动成本过高等问题。

核心思路：提出的Lie Diffuser Actor (LDA)框架在SE(3)上内在操作，通过左不变随机微分方程注入噪声，确保了坐标变换下的等变性和测地线最优性。

技术框架：LDA的整体架构包括三个主要模块：噪声注入模块、分数预测模块和样本回收模块。噪声通过左不变SDEs注入，分数在切空间中预测，样本通过指数映射进行回收。

关键创新：LDA的最大创新在于其在SE(3)上的内在操作，消除了流形漂移问题，并确保了在坐标变换下的等变性，这与传统方法的欧几里得表示形成了本质区别。

关键设计：在设计中，采用了左不变随机微分方程作为噪声注入机制，损失函数设计为优化切空间中的分数预测，网络结构则基于深度学习框架进行构建，以适应复杂的机器人操作任务。

🖼️ 关键图片

📊 实验亮点

实验结果显示，LDA在CALVIN ABC$ ightarrow$D任务中将平均任务长度从3.27提升至3.51，提升幅度达到7.3%。在真实机器人实验中，LDA在大多数任务上优于基线，验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括机器人操作、自动化制造和智能家居等。通过提高机器人在复杂环境中的操作能力，LDA有望推动智能机器人技术的发展，并在实际应用中提升效率和安全性。

📄 摘要（原文）

Diffusion-based Vision-Language-Action policies achieve remarkable success in robotic manipulation, yet commit a fundamental geometric error we term the $\textbf{Euclidean Fallacy}$: representing SE(3) poses as flat $\mathbb{R}^{12}$ vectors. This approximation induces (1) manifold drift violating SO(3) constraints, (2) broken equivariance under coordinate transformations, and (3) non-geodesic trajectories with excessive kinematic cost. We introduce $\textbf{Lie Diffuser Actor (LDA)}$, a diffusion framework operating intrinsically on SE(3). Our method injects noise through left-invariant SDEs, predicts scores in the tangent space, and retracts samples via the exponential map. This formulation eliminates manifold drift by construction while guaranteeing coordinate-frame equivariance and geodesic optimality. On CALVIN ABC$\rightarrow$D, LDA improves average task length from $3.27$ to $3.51$ ($+7.3\%$). We further validate our method on real robot and the results show that our methodology outperforms the baseline on majority tasks.

The Lie We Tell: Correcting the Euclidean Fallacy in Vision Language Action Policies via Score Matching on Tangent Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理