Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector

作者: Hongbo Wang, Junyu Lu, Yan Han, Kai Ma, Liang Yang, Hongfei Lin

分类: cs.CV, cs.CL

发布日期: 2024-09-08 (更新: 2024-09-10)

备注: Under review in ICASSP 2025

💡 一句话要点

构建中文视频PUA多模态数据集并提出MultiPCL检测器，提升PUA识别效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: PUA检测 多模态学习 中文视频 面部表情识别 毒性言论 微侵犯 数据集构建

📋 核心要点

现有毒性言论研究主要关注公开攻击性言论，忽略了PUA这种隐蔽的微侵犯形式，且缺乏相关中文数据集。
提出PCLMM数据集和MultiPCL检测器，利用视频中的面部表情等视觉信息，辅助识别PUA。
实验表明，MultiPCL检测器通过融合多模态信息，有效提升了PUA的识别准确率，验证了模态互补的有效性。

📝 摘要（中文）

PUA（Patronizing and Condescending Language，即带有优越感和屈尊意味的语言）是一种歧视性的有害言论，针对弱势群体，威胁线上和线下的安全。目前，毒性言论研究主要集中在公开的攻击性言论上，而PUA这种微侵犯形式仍未得到充分探索。此外，强势群体对弱势群体的歧视性面部表情和态度可能比口头暗示更具影响力，但这些框架特征往往被忽视。本文提出了PCLMM数据集，这是首个中文PUA多模态数据集，包含来自Bilibili的715个带注释的视频，具有高质量的PUA面部帧跨度。同时，提出了MultiPCL检测器，该检测器具有用于PUA识别的面部表情检测模块，证明了模态互补在这种具有挑战性的任务中的有效性。这项工作为推进有害言论领域中的微侵犯检测做出了重要贡献。

🔬 方法详解

问题定义：论文旨在解决中文视频中PUA（Patronizing and Condescending Language）的检测问题。现有方法主要集中在文本层面的毒性言论识别，忽略了PUA这种更隐蔽的微侵犯形式，并且缺乏针对中文视频的多模态数据集。此外，现有方法很少考虑视频中人物的面部表情等视觉信息，而这些信息对于判断PUA至关重要。

核心思路：论文的核心思路是构建一个包含视频、文本和面部表情等多模态信息的中文PUA数据集，并设计一个能够有效融合这些模态信息的检测器。通过利用面部表情等视觉信息，可以更好地捕捉PUA的细微特征，从而提高检测的准确率。

技术框架：MultiPCL检测器主要包含以下几个模块：1) 视频特征提取模块，用于提取视频帧的视觉特征；2) 文本特征提取模块，用于提取视频字幕的文本特征；3) 面部表情检测模块，用于检测视频中人物的面部表情；4) 多模态融合模块，用于将提取到的视觉特征、文本特征和面部表情特征进行融合；5) 分类器，用于判断视频是否包含PUA。整体流程是先分别提取各个模态的特征，然后将这些特征融合起来，最后通过分类器进行判断。

关键创新：论文的关键创新在于：1) 构建了首个中文PUA多模态数据集PCLMM，为PUA检测研究提供了数据基础；2) 提出了MultiPCL检测器，该检测器能够有效融合视频、文本和面部表情等多模态信息，从而提高PUA检测的准确率。特别地，面部表情检测模块的引入是该方法的一个重要创新点，它能够捕捉到PUA的细微视觉特征。

关键设计：在面部表情检测模块中，论文可能采用了预训练的面部表情识别模型，例如ResNet或VGG等，并在PCLMM数据集上进行微调。多模态融合模块可能采用了注意力机制，以便更好地关注不同模态中的重要信息。损失函数可能采用了交叉熵损失函数，用于训练分类器。具体的参数设置和网络结构在论文中应该有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

论文构建了包含715个视频的PCLMM数据集，并提出了MultiPCL检测器。实验结果表明，MultiPCL检测器通过融合多模态信息，显著提升了PUA的识别准确率，相较于仅使用文本信息的基线方法，性能提升明显（具体数值未知）。这验证了多模态信息融合在PUA检测任务中的有效性。

🎯 应用场景

该研究成果可应用于在线视频平台的内容审核，自动检测和过滤包含PUA的视频，从而保护弱势群体，维护健康的社区环境。此外，该技术还可以用于社交媒体平台的舆情监控，及时发现和处理PUA等有害言论，防止其蔓延。

📄 摘要（原文）

Patronizing and Condescending Language (PCL) is a form of discriminatory toxic speech targeting vulnerable groups, threatening both online and offline safety. While toxic speech research has mainly focused on overt toxicity, such as hate speech, microaggressions in the form of PCL remain underexplored. Additionally, dominant groups' discriminatory facial expressions and attitudes toward vulnerable communities can be more impactful than verbal cues, yet these frame features are often overlooked. In this paper, we introduce the PCLMM dataset, the first Chinese multimodal dataset for PCL, consisting of 715 annotated videos from Bilibili, with high-quality PCL facial frame spans. We also propose the MultiPCL detector, featuring a facial expression detection module for PCL recognition, demonstrating the effectiveness of modality complementarity in this challenging task. Our work makes an important contribution to advancing microaggression detection within the domain of toxic speech.

Towards Patronizing and Condescending Language in Chinese Videos: A Multimodal Dataset and Detector

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理