CURVE: Learning Causality-Inspired Invariant Representations for Robust Scene Understanding via Uncertainty-Guided Regularization
作者: Yue Liang, Jiatong Du, Ziyi Yang, Yanjun Huang, Hong Chen
分类: cs.CV, cs.AI
发布日期: 2026-01-28
💡 一句话要点
提出CURVE框架,通过不确定性引导的正则化学习因果不变表示,提升场景理解的鲁棒性。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 场景图 因果推断 领域泛化 不确定性建模 结构正则化
📋 核心要点
- 场景图容易过拟合虚假相关性,导致分布外泛化能力差,这是场景理解面临的核心问题。
- CURVE框架通过变分不确定性建模和不确定性引导的结构正则化,抑制环境特定关系,学习因果不变表示。
- 实验表明,CURVE在零样本迁移和低数据sim-to-real适应中表现出色,能学习领域稳定的稀疏拓扑。
📝 摘要(中文)
本文提出CURVE,一个受因果关系启发的框架,它结合了变分不确定性建模和不确定性引导的结构正则化,以抑制高方差、环境特定的关系,从而解决场景图对虚假相关的过度拟合问题,提高其在分布外泛化能力。具体来说,我们应用原型条件解偏来解耦不变的交互动态和环境相关的变化,从而促进稀疏且领域稳定的拓扑结构。经验证表明,CURVE在零样本迁移和低数据量的sim-to-real适应中,能够学习领域稳定的稀疏拓扑,并提供可靠的不确定性估计,以支持分布偏移下的风险预测。
🔬 方法详解
问题定义:场景图作为一种结构化的场景抽象,在场景理解中发挥重要作用。然而,现有的场景图模型容易受到数据集中虚假相关性的影响,导致模型在新的、未见过的环境或领域中表现不佳,泛化能力严重受限。问题的核心在于模型学习到的关系依赖于特定的环境,而非场景中对象之间内在的、因果相关的交互。
核心思路:CURVE的核心思路是学习因果不变表示,即从场景图中解耦出与环境无关的、本质的交互动态,并抑制那些与特定环境相关的、虚假的关联。通过这种方式,模型可以更好地泛化到新的领域,因为它关注的是场景中对象之间真正的因果关系,而不是表面上的相关性。
技术框架:CURVE框架主要包含以下几个模块:1) 变分不确定性建模:利用变分推断来估计场景图中关系的不确定性,从而识别出高方差、环境特定的关系。2) 原型条件解偏:通过原型学习,将交互动态从环境相关的变化中解耦出来,学习领域不变的表示。3) 不确定性引导的结构正则化:利用估计的不确定性来引导场景图的结构学习,抑制高方差的关系,促进稀疏且领域稳定的拓扑结构。
关键创新:CURVE的关键创新在于将因果推断的思想融入到场景图学习中,通过不确定性建模和结构正则化,显式地解耦不变的交互动态和环境相关的变化。与传统的场景图模型相比,CURVE更加关注学习场景中对象之间真正的因果关系,而不是表面上的相关性,从而提高了模型的泛化能力。
关键设计:CURVE的关键设计包括:1) 使用变分自编码器(VAE)来建模关系的不确定性。2) 采用原型学习来解耦交互动态和环境变化,原型可以理解为不同环境下的关系表示的中心。3) 设计了一种基于不确定性的正则化项,用于惩罚高方差的关系,促进稀疏的场景图结构。损失函数由重构损失、KL散度和正则化损失组成,共同优化模型。
🖼️ 关键图片
📊 实验亮点
CURVE在零样本迁移和低数据量的sim-to-real适应任务中取得了显著的性能提升。实验结果表明,CURVE能够学习到领域稳定的稀疏拓扑结构,并提供可靠的不确定性估计,从而提高了模型在分布偏移下的泛化能力。具体的性能数据(例如,在特定数据集上的准确率提升)未知,但摘要强调了其在领域泛化方面的优势。
🎯 应用场景
CURVE在机器人导航、自动驾驶、视频监控等领域具有广泛的应用前景。通过学习领域不变的场景表示,CURVE可以提高机器人在不同环境下的感知能力,使其能够更好地理解周围的世界并做出合理的决策。此外,CURVE还可以用于提高图像识别、目标检测等任务的鲁棒性,使其在面对光照变化、遮挡等挑战时仍能保持良好的性能。
📄 摘要(原文)
Scene graphs provide structured abstractions for scene understanding, yet they often overfit to spurious correlations, severely hindering out-of-distribution generalization. To address this limitation, we propose CURVE, a causality-inspired framework that integrates variational uncertainty modeling with uncertainty-guided structural regularization to suppress high-variance, environment-specific relations. Specifically, we apply prototype-conditioned debiasing to disentangle invariant interaction dynamics from environment-dependent variations, promoting a sparse and domain-stable topology. Empirically, we evaluate CURVE in zero-shot transfer and low-data sim-to-real adaptation, verifying its ability to learn domain-stable sparse topologies and provide reliable uncertainty estimates to support risk prediction under distribution shifts.