CHASM: Unveiling Covert Advertisements on Chinese Social Media
作者: Jingyi Zheng, Tianyi Hu, Yule Liu, Zhen Sun, Zongmin Zhang, Zifan Peng, Wenhan Dong, Xinlei He
分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.CY
发布日期: 2026-04-22
备注: NeuIPS 2025 (Datasets and Benchmarks Track)
💡 一句话要点
提出CHASM数据集,用于评估多模态大语言模型在中文社交媒体隐蔽广告检测中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐蔽广告检测 多模态大语言模型 社交媒体审核 数据集构建 中文社交媒体
📋 核心要点
- 现有社交媒体审核的大语言模型评测基准忽略了隐蔽广告这一严重威胁,此类广告伪装成普通帖子诱导消费。
- 论文构建了CHASM数据集,旨在评估多模态大语言模型在检测中文社交媒体隐蔽广告方面的能力。
- 实验表明现有模型效果不佳,在CHASM上微调开源模型可显著提升性能,但仍面临评论线索和结构差异等挑战。
📝 摘要(中文)
本文提出了CHASM,一个用于评估多模态大语言模型(MLLM)检测社交媒体隐蔽广告能力的首创数据集。隐蔽广告伪装成普通帖子,欺骗消费者购买,引发严重的伦理和法律问题。CHASM是一个高质量、匿名化、人工标注的数据集,包含4,992个实例,基于中国社交媒体平台小红书的真实场景。数据集在严格的隐私保护和质量控制协议下收集和标注,包含许多与隐蔽广告非常相似的产品体验分享帖子,使得数据集具有挑战性。实验结果表明,在零样本和上下文学习设置下,当前MLLM在检测隐蔽广告方面不够可靠。通过在CHASM上微调开源MLLM,性能得到显著提升。然而,检测评论中的细微线索以及视觉和文本结构的差异仍然存在挑战。本文提供了深入的错误分析,并概述了未来的研究方向,希望这项研究能够促使研究界和平台管理者开发更精确的防御措施来应对这种新兴威胁。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在中文社交媒体平台(如小红书)上检测隐蔽广告能力不足的问题。现有方法缺乏针对性的数据集,难以有效评估和提升模型在该任务上的表现。隐蔽广告通常伪装成用户分享或推荐,与正常内容难以区分,给检测带来了挑战。
核心思路:论文的核心思路是构建一个高质量、人工标注的中文社交媒体隐蔽广告数据集CHASM,用于评估和提升MLLM的检测能力。通过提供包含大量真实场景和挑战性案例的数据集,促进模型学习隐蔽广告的特征和模式。
技术框架:CHASM数据集的构建流程主要包括数据收集、匿名化处理、人工标注和质量控制。数据来源于中国社交媒体平台小红书,涵盖多种产品和场景。匿名化处理旨在保护用户隐私。人工标注由专业标注人员进行,标注结果包括是否为隐蔽广告以及相关理由。质量控制通过多轮审核和一致性检查确保标注质量。
关键创新:该论文的关键创新在于构建了首个专门针对中文社交媒体隐蔽广告检测的多模态数据集CHASM。该数据集包含大量与真实隐蔽广告相似的帖子,具有很高的挑战性,能够有效评估MLLM的检测能力。此外,论文还对现有MLLM在CHASM上的表现进行了深入分析,并提出了未来的研究方向。
关键设计:CHASM数据集包含4,992个实例,每个实例包括帖子文本、图片和评论。标注任务要求标注人员判断帖子是否为隐蔽广告,并给出判断理由。为了保证标注质量,论文采用了多轮审核和一致性检查机制。此外,论文还设计了多种评估指标,用于衡量MLLM在CHASM上的检测性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在CHASM数据集上的零样本和上下文学习性能均不理想,表明其在隐蔽广告检测方面存在不足。通过在CHASM数据集上微调开源MLLM,模型的检测性能得到显著提升,但仍有改进空间。例如,检测评论中的细微线索以及视觉和文本结构的差异仍然是挑战。
🎯 应用场景
该研究成果可应用于社交媒体平台的内容审核,帮助平台自动检测和过滤隐蔽广告,保护用户权益。同时,该数据集可以促进多模态大语言模型在社交媒体内容理解和欺诈检测等领域的研究,提升模型的鲁棒性和泛化能力。未来,可以进一步扩展数据集,并探索更有效的隐蔽广告检测方法。
📄 摘要(原文)
Current benchmarks for evaluating large language models (LLMs) in social media moderation completely overlook a serious threat: covert advertisements, which disguise themselves as regular posts to deceive and mislead consumers into making purchases, leading to significant ethical and legal concerns. In this paper, we present the CHASM, a first-of-its-kind dataset designed to evaluate the capability of Multimodal Large Language Models (MLLMs) in detecting covert advertisements on social media. CHASM is a high-quality, anonymized, manually curated dataset consisting of 4,992 instances, based on real-world scenarios from the Chinese social media platform Rednote. The dataset was collected and annotated under strict privacy protection and quality control protocols. It includes many product experience sharing posts that closely resemble covert advertisements, making the dataset particularly challenging.The results show that under both zero-shot and in-context learning settings, none of the current MLLMs are sufficiently reliable for detecting covert advertisements.Our further experiments revealed that fine-tuning open-source MLLMs on our dataset yielded noticeable performance gains. However, significant challenges persist, such as detecting subtle cues in comments and differences in visual and textual structures.We provide in-depth error analysis and outline future research directions. We hope our study can serve as a call for the research community and platform moderators to develop more precise defenses against this emerging threat.