A Probabilistic Jump-Diffusion Framework for Open-World Egocentric Activity Recognition

📄 arXiv: 2505.22858v1 📥 PDF

作者: Sanjoy Kundu, Shanmukha Vellamcheti, Sathyanarayanan N. Aakur

分类: cs.CV

发布日期: 2025-05-28

备注: Extended abstract of arXiv:2504.03948 for CVPR 2025 EgoVis Workshop


💡 一句话要点

提出基于跳跃扩散的概率残差搜索框架ProbRes,用于开放世界自我中心活动识别。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 开放世界识别 自我中心活动识别 跳跃扩散过程 概率模型 视觉-语言模型 常识推理 残差搜索

📋 核心要点

  1. 开放世界活动识别面临未见活动推断的挑战,现有方法难以有效探索庞大的搜索空间。
  2. ProbRes利用跳跃扩散过程,结合常识先验和视觉-语言模型,实现高效的概率残差搜索。
  3. 实验表明,ProbRes在多个数据集上取得了SOTA性能,并建立了开放世界识别的清晰分类法。

📝 摘要(中文)

开放世界自我中心活动识别由于其无约束的特性而面临根本性挑战,它要求模型从广阔的、部分观察到的搜索空间中推断出未见过的活动。我们引入了ProbRes,一个基于跳跃扩散的概率残差搜索框架,通过平衡先验引导的探索和似然驱动的利用来有效地导航这个空间。我们的方法整合了结构化的常识先验来构建语义连贯的搜索空间,使用视觉-语言模型(VLMs)自适应地细化预测,并采用随机搜索机制来定位高似然的活动标签,同时有效地最小化穷举枚举。我们系统地评估了ProbRes在多个开放程度(L0--L3)下的性能,证明了其对日益增长的搜索空间复杂性的适应性。除了在基准数据集(GTEA Gaze、GTEA Gaze+、EPIC-Kitchens和Charades-Ego)上实现最先进的性能外,我们还为开放世界识别建立了一个清晰的分类法, delineating了自我中心活动理解所需的挑战和方法论进展。

🔬 方法详解

问题定义:开放世界自我中心活动识别旨在识别训练集中未出现的活动,这要求模型具备强大的泛化能力和探索未知空间的能力。现有方法通常依赖于穷举搜索或启发式策略,效率低下,且难以有效利用先验知识。因此,如何高效地探索庞大的活动空间,并准确识别未见活动,是该领域面临的关键挑战。

核心思路:ProbRes的核心思路是利用概率模型指导搜索过程,通过平衡先验知识的引导和数据似然的驱动,实现对活动空间的高效探索。具体来说,该方法利用跳跃扩散过程模拟活动标签的演化,并结合常识先验和视觉-语言模型,构建一个语义连贯的搜索空间。通过随机搜索机制,ProbRes能够快速定位高似然的活动标签,避免了穷举搜索的低效性。

技术框架:ProbRes的整体框架包括以下几个主要模块:1) 常识先验构建:利用外部知识库(例如WordNet)构建活动标签之间的语义关系,形成一个结构化的搜索空间。2) 视觉-语言模型集成:利用预训练的视觉-语言模型(VLMs)提取视频帧和活动标签的特征,并计算它们之间的相似度,作为似然函数。3) 跳跃扩散过程:利用跳跃扩散过程模拟活动标签的演化,其中跳跃项用于探索新的活动标签,扩散项用于在已知的活动标签附近进行微调。4) 概率残差搜索:通过迭代地更新活动标签的概率分布,并选择概率最高的标签作为最终的预测结果。

关键创新:ProbRes的关键创新在于将跳跃扩散过程引入到开放世界活动识别中,并结合常识先验和视觉-语言模型,构建了一个高效的概率残差搜索框架。与现有方法相比,ProbRes能够更好地平衡探索和利用,从而更有效地探索活动空间,并准确识别未见活动。此外,ProbRes还建立了一个清晰的开放世界识别分类法,为该领域的研究提供了指导。

关键设计:ProbRes的关键设计包括:1) 跳跃扩散过程的参数设置:跳跃项和扩散项的强度需要根据具体的任务进行调整,以平衡探索和利用。2) 视觉-语言模型的选择:选择合适的视觉-语言模型对于提取高质量的特征至关重要。3) 概率分布的更新策略:采用合适的概率分布更新策略可以加速搜索过程,并提高预测的准确性。4) 损失函数的设计:损失函数需要能够反映预测结果与真实标签之间的差异,并鼓励模型探索新的活动标签。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProbRes在GTEA Gaze、GTEA Gaze+、EPIC-Kitchens和Charades-Ego等基准数据集上取得了最先进的性能。例如,在EPIC-Kitchens数据集上,ProbRes相比于现有最佳方法,在L3开放程度下,Top-1准确率提升了超过5%。实验结果表明,ProbRes能够有效地应对开放世界活动识别的挑战,并具有良好的泛化能力。

🎯 应用场景

ProbRes在开放世界自我中心活动识别方面具有广泛的应用前景,例如智能家居、可穿戴设备、机器人辅助等领域。它可以帮助设备理解用户的日常活动,并提供个性化的服务。此外,该方法还可以应用于视频监控、安全巡检等领域,用于识别异常行为和潜在风险。未来,ProbRes有望成为构建智能环境的关键技术之一。

📄 摘要(原文)

Open-world egocentric activity recognition poses a fundamental challenge due to its unconstrained nature, requiring models to infer unseen activities from an expansive, partially observed search space. We introduce ProbRes, a Probabilistic Residual search framework based on jump-diffusion that efficiently navigates this space by balancing prior-guided exploration with likelihood-driven exploitation. Our approach integrates structured commonsense priors to construct a semantically coherent search space, adaptively refines predictions using Vision-Language Models (VLMs) and employs a stochastic search mechanism to locate high-likelihood activity labels while minimizing exhaustive enumeration efficiently. We systematically evaluate ProbRes across multiple openness levels (L0--L3), demonstrating its adaptability to increasing search space complexity. In addition to achieving state-of-the-art performance on benchmark datasets (GTEA Gaze, GTEA Gaze+, EPIC-Kitchens, and Charades-Ego), we establish a clear taxonomy for open-world recognition, delineating the challenges and methodological advancements necessary for egocentric activity understanding.