FaVChat: Hierarchical Prompt-Query Guided Facial Video Understanding with Data-Efficient GRPO

📄 arXiv: 2503.09158 📥 PDF

作者: Fufangchen Zhao, Songbai Tan, Xuerui Qiu, Linrui Xun, Wenhao Jiang, Jinkai Zheng, Hehe Fan, Jian Gao, Danfeng Yan, Ming Li

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

FaVChat:利用层级提示查询引导的面部视频理解与数据高效GRPO

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面部视频理解 视觉大语言模型 提示引导学习 强化学习 数据高效学习

📋 核心要点

  1. 现有VLLM在面部视频理解中缺乏对提示信息的感知,导致关键面部细节的丢失。
  2. FaVChat通过层级提示引导的特征提取,动态融合多层次特征,提升面部细节推理能力。
  3. 数据高效GRPO策略通过强化学习选择高价值样本,显著提升数据稀缺场景下的模型性能。

📝 摘要(中文)

现有的视频大语言模型(VLLM)主要依赖于提示不可知的视觉编码器,这些编码器提取非目标性的面部表示,而忽略了查询信息,导致关键线索的丢失。为了解决这个问题,我们提出了FaVChat,这是第一个专为推理细微的视觉和动态面部线索而设计的VLLM。FaVChat引入了一个层级的、提示引导的视觉特征提取框架,该框架在三个互补的层面上强调与问题相关的信息。这些多层次的特征被动态融合并注入到LLM中,从而实现更准确的面部细节推理。为了进一步提高数据稀缺情况下的学习效率,我们提出了数据高效的GRPO,这是一种强化学习策略,它迭代地识别高实用性的样本,并通过每个实例的效用估计来最大化每个实例的贡献,从而在有限的监督下显著提高性能。我们构建了一个大规模的基准数据集FaVChat 170K,包含大约6万个高质量的面部视频和17万个关注细粒度面部细节的问题-答案对。大量的实验,包括在四个面部理解任务上的零样本评估,表明FaVChat始终优于现有的VLLM。

🔬 方法详解

问题定义:现有视频大语言模型在处理面部视频理解任务时,通常使用与提示无关的视觉编码器,提取的面部特征缺乏针对性,忽略了与问题相关的关键面部细节信息,导致推理精度下降。尤其是在数据稀缺的情况下,模型的泛化能力受到限制。

核心思路:FaVChat的核心思路是构建一个提示引导的视觉特征提取框架,使模型能够根据问题动态地关注相关的面部区域和特征。同时,利用数据高效的强化学习策略,在有限的数据集上最大化模型的学习效率,提升模型的泛化能力。

技术框架:FaVChat的整体框架包含以下几个主要模块:1) 层级提示引导的视觉特征提取模块:该模块从不同层次提取面部特征,并根据问题提示进行加权融合。2) 大语言模型(LLM):用于接收融合后的视觉特征和问题提示,进行推理并生成答案。3) 数据高效GRPO模块:利用强化学习策略,选择高价值样本并优化模型参数。

关键创新:FaVChat的关键创新在于:1) 提出了层级提示引导的视觉特征提取框架,能够根据问题动态地关注相关的面部区域和特征。2) 提出了数据高效GRPO策略,通过强化学习选择高价值样本,提升数据稀缺场景下的模型性能。

关键设计:在层级提示引导的视觉特征提取模块中,采用了多层卷积神经网络提取不同尺度的面部特征,并使用注意力机制根据问题提示对不同层次的特征进行加权融合。在数据高效GRPO模块中,使用奖励函数来评估样本的价值,并使用策略梯度算法优化模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FaVChat在四个面部理解任务上进行了零样本评估,结果表明FaVChat始终优于现有的VLLM。具体来说,在FaVChat 170K数据集上,FaVChat的性能显著优于其他基线模型,证明了其在细粒度面部理解方面的优越性。数据高效GRPO策略在有限数据下也显著提升了模型性能。

🎯 应用场景

FaVChat在人机交互、情感识别、安全监控等领域具有广泛的应用前景。例如,可以用于智能客服系统中,通过分析用户的面部表情来理解用户的情感状态,从而提供更个性化的服务。此外,还可以应用于安全监控领域,通过识别可疑人员的面部表情来预防犯罪行为的发生。该研究的未来影响在于推动了VLLM在细粒度面部理解任务上的发展。

📄 摘要(原文)

Existing video large language models (VLLMs) primarily leverage prompt agnostic visual encoders, which extract untargeted facial representations without awareness of the queried information, leading to the loss of task critical cues. To address this challenge, we propose FaVChat, the first VLLM designed for reasoning over subtle visual and dynamic facial cues. FaVChat introduces a hierarchical, prompt guided visual feature extraction framework that emphasizes question relevant information at three complementary levels. These multi level features are dynamically fused and injected into the LLM, enabling more accurate facial details reasoning To further improve learning efficiency under data scarcity, we propose Data Efficient GRPO, a reinforcement learning strategy that iteratively identifies high utility samples and maximizes the contribution of each instance via per instance utility estimation, substantially enhancing performance gains under limited supervision. We construct a large scale benchmark dataset FaVChat 170K, comprising approximately 60K high quality facial videos and 170K question answer pairs focusing on fine grained facial details. Extensive experiments, including zero shot evaluations on four facial understanding tasks, demonstrate that FaVChat consistently outperforms existing VLLMs.