Context as Prior: Bayesian-Inspired Intent Inference for Non-Speaking Agents with a Household Cat Testbed

📄 arXiv: 2604.27445v1 📥 PDF

作者: Wenqian Zhang, Zehao Wang

分类: cs.CV

发布日期: 2026-04-30

备注: Accepted to the CVPR 2026 Animal Workshop


💡 一句话要点

CatSignal:提出基于贝叶斯的意图推断框架,用于理解非语言智能体在家庭环境中的行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 意图推断 非语言智能体 贝叶斯推断 上下文建模 多模态融合

📋 核心要点

  1. 现有方法难以有效利用上下文信息进行非语言智能体的意图推断,容易产生基于上下文捷径的错误预测。
  2. CatSignal框架将空间上下文建模为先验约束,结合行为观察,利用贝叶斯思想进行意图推断。
  3. 实验表明,该方法在准确率上优于其他融合方法,并能有效减少上下文驱动的捷径失败。

📝 摘要(中文)

现实环境中,许多智能体无法通过语言可靠地表达目标,例如宠物、婴幼儿等。在这种情况下,必须从富含上下文信息的不完整行为观察中推断意图。这带来了一个核心歧义:可观察的行为通常是嘈杂或不明确的,而上下文提供了强大的先验信息,但如果使用不当,也可能导致脆弱的捷径预测。本文提出了CatSignal,一个受贝叶斯启发的概率框架,用于多模态意图推断,该框架将空间上下文建模为先验约束,并将行为观察建模为证据。该方法没有将上下文视为普通的输入特征,而是使用上下文门控的专家乘积(Product-of-Experts)公式,从上下文、姿态动态和声音线索中计算后验意图分布。本文在家庭猫环境中实例化了该公式,作为非语言智能体意图推断的一个概念验证。在多模态家猫数据集上的留一视频交叉验证中,所提出的先验引导融合方法实现了77.72%的最佳整体准确率,优于特征拼接(71.83%)和更强的后期融合基线。更重要的是,它大大减少了歧义情况下上下文驱动的捷径失败。虽然更简单的融合策略在Macro-F1和选择性预测方面仍然具有竞争力,但所提出的模型提供了最强的整体准确率和对基于上下文的捷径崩溃的最佳抑制。

🔬 方法详解

问题定义:论文旨在解决非语言智能体(如宠物猫)的意图推断问题。现有方法在处理此类问题时,往往难以有效利用环境上下文信息,容易将上下文作为捷径,导致在行为不明确时产生错误的意图预测。例如,猫经常在厨房附近活动,如果简单地将“在厨房附近”与“想吃东西”关联,则可能忽略猫只是路过的情况。

核心思路:论文的核心思路是将环境上下文视为一种先验知识,并将其融入到意图推断的过程中。借鉴贝叶斯推断的思想,将上下文信息作为先验概率,行为观察(姿态、声音等)作为证据,通过融合先验和证据来计算后验概率,从而更准确地推断智能体的意图。这种方法可以有效避免过度依赖上下文信息而导致的捷径预测。

技术框架:CatSignal框架主要包含以下几个模块:1) 上下文编码模块:用于提取环境上下文特征,例如猫所处的位置、周围的物体等。2) 行为观察编码模块:用于提取猫的行为特征,包括姿态动态(例如移动速度、方向)和声音线索(例如叫声)。3) 专家乘积(Product-of-Experts)融合模块:这是框架的核心,使用上下文门控的专家乘积公式,将上下文先验和行为证据进行融合,计算后验意图分布。该模块利用多个“专家”分别对不同的意图进行预测,然后通过乘积的方式将这些预测结果进行组合,从而得到最终的意图分布。上下文门控机制用于调节上下文先验的影响程度,避免过度依赖上下文信息。

关键创新:该论文的关键创新在于将贝叶斯推断的思想引入到非语言智能体的意图推断中,并将环境上下文建模为先验知识。与传统的将上下文作为普通输入特征的方法不同,CatSignal框架通过专家乘积的方式,将上下文先验和行为证据进行融合,从而更有效地利用上下文信息,并避免了上下文驱动的捷径预测。

关键设计:在专家乘积融合模块中,每个“专家”可以是一个神经网络,用于预测特定意图的概率。上下文门控机制可以通过一个额外的神经网络来实现,该网络根据上下文特征来调节每个专家的权重。损失函数可以采用交叉熵损失函数,用于衡量预测意图分布与真实意图分布之间的差异。数据集采用多模态数据,包括猫的姿态、声音和环境上下文信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CatSignal框架在多模态家猫数据集上取得了77.72%的整体准确率,显著优于特征拼接(71.83%)和更强的后期融合基线。更重要的是,该方法能够有效减少上下文驱动的捷径失败,在歧义情况下表现出更强的鲁棒性。虽然在Macro-F1和选择性预测方面,一些简单的融合策略仍然具有竞争力,但CatSignal框架在整体准确率和抑制上下文捷径方面表现最佳。

🎯 应用场景

该研究成果可应用于多种场景,例如:智能家居中宠物行为理解与监控、婴幼儿行为分析与辅助看护、以及其他无法通过语言进行有效沟通的智能体的意图推断。通过准确理解非语言智能体的意图,可以实现更智能、更人性化的交互体验,例如自动喂食宠物、及时响应婴儿的需求等。未来,该技术有望在人机交互、机器人辅助等领域发挥重要作用。

📄 摘要(原文)

Many agents in real-world environments cannot reliably communicate their goals through language, including household pets, pre-verbal infants, and other non-speaking embodied agents. In such settings, intent must be inferred from incomplete behavioral observations in context-rich environments. This creates a core ambiguity: observable behavior is often noisy or underspecified, while context provides strong prior information but can also induce brittle shortcut predictions if used naively. We present CatSignal, a Bayesian-inspired probabilistic framework for multimodal intent inference that models spatial context as a prior-like constraint and behavioral observations as evidence. Rather than treating context as an ordinary input feature, our method uses a context-gated Product-of-Experts formulation to compute posterior-like intent distributions from context, pose dynamics, and acoustic cues. We instantiate this formulation in a household cat setting as a focused proof-of-concept for intent inference in non-speaking agents. Under Leave-One-Video-Out evaluation on a multimodal domestic cat dataset, the proposed prior-guided fusion achieves the best overall accuracy of 77.72%, outperforming feature concatenation (71.83%) and stronger late-fusion baselines. More importantly, it substantially reduces context-driven shortcut failures in ambiguous cases. While simpler fusion strategies remain competitive in Macro-F1 and selective prediction, the proposed model provides the strongest overall accuracy and the best suppression of context-based shortcut collapse.