GazeQwen: Lightweight Gaze-Conditioned LLM Modulation for Streaming Video Understanding
作者: Trong Thang Pham, Hien Nguyen, Ngan Le
分类: cs.CV, cs.AI
发布日期: 2026-03-26
🔗 代码/项目: GITHUB
💡 一句话要点
GazeQwen:基于注视感知的轻量级LLM调制方法,用于流视频理解
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 眼动注视 多模态学习 大型语言模型 参数高效
📋 核心要点
- 现有MLLM在视频理解中未能有效利用眼动注视信息,限制了其对人类视觉注意机制的模拟。
- GazeQwen通过轻量级的注视重采样器和隐藏状态调制,将注视信息注入到LLM中,提升了模型的注视感知能力。
- 实验表明,GazeQwen在StreamGaze基准测试中显著优于其他开源和闭源模型,证明了该方法的有效性。
📝 摘要(中文)
当前的多模态大型语言模型(MLLM)无法有效地利用眼动注视信息进行视频理解,即使通过视觉覆盖或文本描述提供注视线索。我们提出了GazeQwen,一种参数高效的方法,通过隐藏状态调制使开源MLLM具备注视感知能力。其核心是一个紧凑的注视重采样器(约1-5M可训练参数),它将V-JEPA 2.1视频特征与源自注视的 positional encoding 编码在一起,并通过前向钩子产生注入到选定的LLM解码器层中的加性残差。一个可选的第二训练阶段将低秩适配器(LoRA)添加到LLM,以实现更紧密的集成。在StreamGaze基准测试的所有10个任务上进行评估,GazeQwen达到了63.9%的准确率,比使用注视作为视觉提示的相同Qwen2.5-VL-7B骨干网络高出+16.1个百分点,比GPT-4o高出+10.5个百分点,是所有测试的开源和专有模型中的最高分。这些结果表明,学习在LLM中注入注视的位置比扩展模型大小或设计更好的提示更有效。所有代码和检查点都可以在https://github.com/phamtrongthang123/gazeqwen 获得。
🔬 方法详解
问题定义:现有方法在处理视频理解任务时,无法充分利用眼动注视信息。即使将注视信息作为视觉提示或文本描述提供给MLLM,模型也难以有效利用这些信息。这导致模型无法准确理解人类在观看视频时的关注点,从而影响视频理解的准确性和效率。现有方法要么需要大量的参数调整,要么提示工程复杂,难以有效利用注视信息。
核心思路:GazeQwen的核心思路是通过一个轻量级的注视重采样器,将视频特征和注视信息进行编码,然后通过隐藏状态调制的方式,将这些信息注入到LLM的解码器层中。这种方法避免了直接修改LLM的结构,而是通过添加残差的方式,让LLM能够更好地利用注视信息。这样设计的目的是在不显著增加模型参数量的情况下,提升模型对注视信息的感知能力。
技术框架:GazeQwen的整体框架包括以下几个主要模块:1) V-JEPA 2.1视频特征提取器:用于提取视频的视觉特征。2) 注视重采样器:将视频特征和注视信息(包括fixation-derived positional encodings)进行编码,生成加性残差。3) LLM解码器层:通过前向钩子,将注视重采样器生成的残差注入到选定的LLM解码器层中。4) 可选的LoRA模块:用于进一步微调LLM,实现更紧密的集成。整个流程是,首先提取视频特征和注视信息,然后通过注视重采样器生成残差,最后将残差注入到LLM中进行视频理解。
关键创新:GazeQwen的关键创新在于其参数高效的注视信息注入方法。与直接修改LLM结构或使用复杂的提示工程不同,GazeQwen通过一个轻量级的注视重采样器,将注视信息以残差的形式注入到LLM的隐藏状态中。这种方法不仅参数量小,而且能够有效地提升模型对注视信息的感知能力。此外,GazeQwen还探索了在LLM中注入注视信息的最佳位置,发现学习注入位置比简单地扩大模型规模或改进提示更有效。
关键设计:GazeQwen的关键设计包括:1) 注视重采样器的结构:采用紧凑的网络结构,参数量控制在1-5M之间。2) positional encodings 的设计:使用fixation-derived positional encodings来编码注视信息的位置。3) 前向钩子的使用:通过前向钩子,将残差注入到LLM的选定解码器层中。4) 可选的LoRA模块:用于进一步微调LLM,实现更紧密的集成。损失函数未知,网络结构细节未知。
🖼️ 关键图片
📊 实验亮点
GazeQwen在StreamGaze基准测试中取得了显著的成果,达到了63.9%的准确率,比使用注视作为视觉提示的相同Qwen2.5-VL-7B骨干网络高出+16.1个百分点,比GPT-4o高出+10.5个百分点。这些结果表明,GazeQwen能够有效地利用眼动注视信息进行视频理解,并且在性能上优于其他开源和闭源模型。
🎯 应用场景
GazeQwen在视频理解领域具有广泛的应用前景,例如:智能监控、人机交互、教育培训、广告推荐等。通过理解人类在观看视频时的关注点,可以提升视频分析的准确性和效率,从而实现更智能化的应用。例如,在智能监控中,可以根据监控人员的注视点,自动识别潜在的安全威胁。在人机交互中,可以根据用户的注视点,提供更个性化的服务。
📄 摘要(原文)
Current multimodal large language models (MLLMs) cannot effectively utilize eye-gaze information for video understanding, even when gaze cues are supplied via visual overlays or text descriptions. We introduce GazeQwen, a parameter efficient approach that equips an open-source MLLM with gaze awareness through hidden-state modulation. At its core is a compact gaze resampler (~1-5 M trainable parameters) that encodes V-JEPA 2.1 video features together with fixation-derived positional encodings and produces additive residuals injected into selected LLM decoder layers via forward hooks. An optional second training stage adds low-rank adapters (LoRA) to the LLM for tighter integration. Evaluated on all 10 tasks of the StreamGaze benchmark, GazeQwen reaches 63.9% accuracy, a +16.1 point gain over the same Qwen2.5-VL-7B backbone with gaze as visual prompts and +10.5 points over GPT-4o, the highest score among all open-source and proprietary models tested. These results suggest that learning where to inject gaze within an LLM is more effective than scaling model size or engineering better prompts. All code and checkpoints are available at https://github.com/phamtrongthang123/gazeqwen .