Face-Guided Sentiment Boundary Enhancement for Weakly-Supervised Temporal Sentiment Localization

📄 arXiv: 2603.14750v1 📥 PDF

作者: Cailing Han, Zhangbin Li, Jinxing Zhou, Wei Qian, Jingjing Hu, Yanghao Zhou, Zhangling Duan, Dan Guo

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

提出FSENet,利用面部特征增强弱监督时序情感定位的边界识别能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时序情感定位 弱监督学习 面部特征 多模态融合 对比学习 伪标签生成 视频理解

📋 核心要点

  1. 现有P-WTSL方法难以精确识别情感边界,限制了情感定位的准确性。
  2. FSENet通过整合面部特征,并设计对比学习策略,增强模型对情感边界的识别能力。
  3. 实验表明,FSENet在不同监督设置下均优于现有方法,展现出良好的泛化性能。

📝 摘要(中文)

本文提出了一种用于点级弱监督时序情感定位(P-WTSL)的Face-guided Sentiment Boundary Enhancement Network (FSENet)。该方法旨在解决P-WTSL中情感边界不精确的挑战,利用细粒度的面部特征来指导情感定位。FSENet首先引入了Face-guided Sentiment Discovery (FSD)模块,通过双分支建模将面部特征整合到多模态交互中,从而有效提取情感刺激线索。然后,提出了Point-aware Sentiment Semantics Contrast (PSSC)策略,通过对比学习区分标注点附近候选点(帧级别)的情感语义,从而增强模型识别情感边界的能力。最后,设计了Boundary-aware Sentiment Pseudo-label Generation (BSPG)方法,将稀疏的点标注转换为时间上平滑的监督伪标签。在基准数据集上的大量实验和可视化结果表明了该框架的有效性,在完全监督、视频级别和点级别弱监督下均实现了最先进的性能,展示了FSENet在不同标注设置下的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决点级弱监督时序情感定位(P-WTSL)中情感边界不精确的问题。现有的P-WTSL方法仅依赖于时间戳级别的情感标注,缺乏对情感边界的细粒度监督,导致模型难以准确识别情感片段的起始和结束时间点。

核心思路:论文的核心思路是利用面部特征作为情感表达的重要线索,指导模型学习更精确的情感边界。通过将面部特征融入多模态情感分析中,并设计对比学习策略,增强模型对情感语义的理解和区分能力,从而提高情感定位的准确性。

技术框架:FSENet包含三个主要模块:Face-guided Sentiment Discovery (FSD)模块、Point-aware Sentiment Semantics Contrast (PSSC)策略和Boundary-aware Sentiment Pseudo-label Generation (BSPG)方法。FSD模块负责提取和融合面部特征,PSSC策略通过对比学习增强情感边界的区分能力,BSPG方法生成时间上平滑的伪标签,用于训练模型。整体流程是:输入多模态视频数据和点级情感标注,通过FSD模块提取面部特征并进行多模态融合,然后利用PSSC策略进行对比学习,最后通过BSPG方法生成伪标签,并使用伪标签训练模型。

关键创新:论文的关键创新在于将面部特征引入到弱监督时序情感定位任务中,并设计了相应的模块和策略来有效利用这些特征。与现有方法相比,FSENet能够更准确地捕捉情感表达,并更好地识别情感边界。此外,PSSC策略和BSPG方法也为弱监督学习提供了新的思路。

关键设计:FSD模块采用双分支结构,分别处理面部特征和其他模态的特征,然后进行融合。PSSC策略使用InfoNCE损失函数进行对比学习,区分标注点附近候选点的情感语义。BSPG方法采用高斯核函数生成时间上平滑的伪标签。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FSENet在benchmark数据集上取得了state-of-the-art的性能,在完全监督、视频级别和点级别弱监督三种设置下均优于现有方法。例如,在点级别弱监督设置下,FSENet的性能提升显著,表明其在弱监督学习方面具有优势。实验结果还表明,FSENet能够有效地利用面部特征,提高情感定位的准确性。

🎯 应用场景

该研究成果可应用于智能视频分析、情感计算、人机交互等领域。例如,可以用于分析电影、电视剧等视频内容中的情感变化,帮助用户更好地理解剧情;也可以用于开发情感机器人,使其能够更好地理解人类的情感需求,并做出相应的回应。此外,该技术还可以应用于舆情监控、心理健康评估等领域。

📄 摘要(原文)

Point-level weakly-supervised temporal sentiment localization (P-WTSL) aims to detect sentiment-relevant segments in untrimmed multimodal videos using timestamp sentiment annotations, which greatly reduces the costly frame-level labeling. To further tackle the challenges of imprecise sentiment boundaries in P-WTSL, we propose the Face-guided Sentiment Boundary Enhancement Network (\textbf{FSENet}), a unified framework that leverages fine-grained facial features to guide sentiment localization. Specifically, our approach \textit{first} introduces the Face-guided Sentiment Discovery (FSD) module, which integrates facial features into multimodal interaction via dual-branch modeling for effective sentiment stimuli clues; We \textit{then} propose the Point-aware Sentiment Semantics Contrast (PSSC) strategy to discriminate sentiment semantics of candidate points (frame-level) near annotation points via contrastive learning, thereby enhancing the model's ability to recognize sentiment boundaries. At \textit{last}, we design the Boundary-aware Sentiment Pseudo-label Generation (BSPG) approach to convert sparse point annotations into temporally smooth supervisory pseudo-labels. Extensive experiments and visualizations on the benchmark demonstrate the effectiveness of our framework, achieving state-of-the-art performance under full supervision, video-level, and point-level weak supervision, thereby showcasing the strong generalization ability of our FSENet across different annotation settings.