Infinite Gaze Generation for Videos with Autoregressive Diffusion

📄 arXiv: 2603.24938v1 📥 PDF

作者: Jenna Kang, Colin Groth, Tong Wu, Finley Torrens, Patsorn Sangkloy, Gordon Wetzstein, Qi Sun

分类: cs.CV

发布日期: 2026-03-26


💡 一句话要点

提出基于自回归扩散模型的无限注视生成框架,用于预测任意长度视频中的人类注视轨迹。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 注视预测 自回归模型 扩散模型 长程依赖 视频理解

📋 核心要点

  1. 现有注视预测方法难以捕捉原始注视的精细时间动态,且受限于短时窗口,无法建模长程依赖。
  2. 论文提出一种基于自回归扩散模型的生成框架,用于合成具有连续时空坐标的无限视野注视轨迹。
  3. 实验结果表明,该方法在长程时空精度和轨迹真实性方面显著优于现有方法。

📝 摘要(中文)

预测视频中的人类注视对于推进场景理解和多模态交互至关重要。传统的显著性图提供空间概率分布,扫视路径提供有序的注视点,但两者都常常忽略了原始注视的精细时间动态。此外,现有模型通常局限于短时窗口(约3-5秒),无法捕捉真实世界内容中固有的长程行为依赖。我们提出了一个生成框架,用于任意长度视频中的无限视野原始注视预测。通过利用自回归扩散模型,我们合成了具有连续空间坐标和高分辨率时间戳的注视轨迹。我们的模型以显著性感知的视觉潜在空间为条件。定量和定性评估表明,我们的方法在长程时空精度和轨迹真实性方面显著优于现有方法。

🔬 方法详解

问题定义:论文旨在解决视频中人类注视预测的问题,特别是现有方法在捕捉长程时间依赖和生成真实注视轨迹方面的不足。现有方法,如显著性图和扫视路径,要么忽略了注视的时间动态,要么无法处理长视频中的复杂行为模式。因此,需要一种能够生成具有连续时空坐标且具有长程一致性的注视轨迹的方法。

核心思路:论文的核心思路是利用自回归扩散模型来生成注视轨迹。扩散模型擅长生成高质量的样本,而自回归的特性使得模型能够捕捉长程时间依赖。通过将视频的视觉信息编码到显著性感知的潜在空间中,并将其作为扩散模型的条件,模型可以生成与视频内容相关的注视轨迹。

技术框架:该框架包含以下主要模块:1) 视频编码器:将视频帧编码到视觉潜在空间中,并提取显著性特征。2) 自回归扩散模型:以视觉潜在空间为条件,逐步生成注视轨迹。该模型采用自回归结构,即当前时刻的注视预测依赖于之前的注视轨迹。3) 注视解码器:将扩散模型生成的潜在表示解码为具体的注视坐标和时间戳。

关键创新:该方法最重要的创新点在于将自回归扩散模型应用于无限视野的注视生成。与现有方法相比,该方法能够生成具有连续时空坐标和长程一致性的注视轨迹,从而更真实地模拟人类的注视行为。此外,利用显著性感知的视觉潜在空间作为条件,使得生成的注视轨迹与视频内容更加相关。

关键设计:在自回归扩散模型中,使用了高斯噪声作为扩散过程的噪声,并采用U-Net结构作为去噪网络。损失函数包括扩散模型的标准损失函数以及用于鼓励生成轨迹与真实轨迹相似的正则化项。在训练过程中,采用了对抗训练的方式来提高生成轨迹的真实性。具体参数设置和网络结构细节未在摘要中详细说明,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在长程时空精度和轨迹真实性方面显著优于现有方法。具体性能数据和对比基线未在摘要中给出,需要在论文全文中查找。摘要强调了该方法在生成具有连续时空坐标和长程一致性的注视轨迹方面的优势。

🎯 应用场景

该研究成果可应用于多个领域,如人机交互、虚拟现实、广告效果评估和用户行为分析。通过预测用户的注视点,可以优化界面设计,提高用户体验,并更好地理解用户的兴趣和意图。在机器人领域,可以帮助机器人更好地理解人类的行为,从而实现更自然的人机交互。

📄 摘要(原文)

Predicting human gaze in video is fundamental to advancing scene understanding and multimodal interaction. While traditional saliency maps provide spatial probability distributions and scanpaths offer ordered fixations, both abstractions often collapse the fine-grained temporal dynamics of raw gaze. Furthermore, existing models are typically constrained to short-term windows ($\approx$ 3-5s), failing to capture the long-range behavioral dependencies inherent in real-world content. We present a generative framework for infinite-horizon raw gaze prediction in videos of arbitrary length. By leveraging an autoregressive diffusion model, we synthesize gaze trajectories characterized by continuous spatial coordinates and high-resolution timestamps. Our model is conditioned on a saliency-aware visual latent space. Quantitative and qualitative evaluations demonstrate that our approach significantly outperforms existing approaches in long-range spatio-temporal accuracy and trajectory realism.