Content Fuzzing for Escaping Information Cocoons on Digital Social Media
作者: Yifeng He, Ziye Tang, Hao Chen
分类: cs.CL, cs.SI
发布日期: 2026-04-07
备注: accepted to findings of ACL 2026
💡 一句话要点
提出ContentFuzz,通过内容模糊化突破社交媒体信息茧房
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 信息茧房 内容模糊化 立场检测 大型语言模型 社交媒体 内容推荐 语义保持
📋 核心要点
- 社交媒体的信息茧房效应限制了用户接触多元观点,现有立场检测模型加剧了这一问题。
- ContentFuzz通过置信度引导的内容模糊化,在保留语义的同时改变机器识别的立场标签,突破信息茧房。
- 实验表明,ContentFuzz能有效改变立场检测模型的分类结果,同时保证内容语义的完整性。
📝 摘要(中文)
社交媒体上的信息茧房限制了用户接触不同观点的帖子。现代平台使用立场检测作为推荐和排序流程中的重要信号,这可能导致帖子主要推送给观点相似的受众,减少了跨领域接触。这限制了不同意见的传播,阻碍了建设性讨论。我们从内容创建者的角度出发,研究如何修改内容以触达现有兴趣集群之外的受众。我们提出了ContentFuzz,一个置信度引导的模糊化框架,它在保留人类可理解意图的同时重写帖子,并诱导不同的机器推断立场标签。ContentFuzz旨在将帖子路由到其原始信息茧房之外。我们的方法引导大型语言模型(LLM)使用来自立场检测模型的置信度反馈来生成保留语义的重写。在两个语种的三个数据集上,针对四个代表性的立场检测模型进行评估,ContentFuzz有效地改变了机器分类的立场标签,同时保持了与原始内容相关的语义完整性。
🔬 方法详解
问题定义:论文旨在解决社交媒体平台上由于立场检测算法造成的“信息茧房”问题。现有方法倾向于将内容推送给观点相似的用户,限制了不同观点的传播。痛点在于如何让内容突破现有用户群体,触达更广泛的受众,促进多元观点的交流。
核心思路:论文的核心思路是,通过对内容进行细微的修改(模糊化),在不改变人类理解的语义的前提下,诱导立场检测模型给出不同的立场判断。这样,内容就可以被推荐给不同立场的用户群体,从而突破信息茧房。
技术框架:ContentFuzz框架主要包含以下几个模块:1) 原始帖子输入;2) 大型语言模型(LLM)进行内容重写,生成多个候选版本;3) 立场检测模型对候选版本进行立场判断,并给出置信度;4) 基于置信度的反馈机制,引导LLM生成更符合目标立场的内容;5) 选择语义相似度最高的重写版本作为最终输出。
关键创新:ContentFuzz的关键创新在于,它利用立场检测模型的置信度作为反馈信号,指导LLM进行内容生成。这种方法能够有效地控制内容修改的方向,确保修改后的内容能够诱导模型给出不同的立场判断,同时保持语义的完整性。与传统的数据增强方法不同,ContentFuzz不是简单地增加数据量,而是有针对性地修改内容,以达到突破信息茧房的目的。
关键设计:ContentFuzz使用大型语言模型(LLM)作为内容生成器,例如GPT系列模型。立场检测模型可以是任何现有的立场检测模型,例如基于Transformer的模型。置信度反馈机制采用强化学习的思想,根据立场检测模型的置信度调整LLM的生成策略。语义相似度可以使用BERTScore等指标进行评估,确保重写后的内容与原始内容在语义上保持一致。
🖼️ 关键图片
📊 实验亮点
ContentFuzz在三个数据集和四个立场检测模型上进行了评估,实验结果表明,该方法能够有效地改变机器分类的立场标签,同时保持与原始内容相关的语义完整性。具体而言,ContentFuzz能够显著降低目标立场检测模型的置信度,并提高其他立场检测模型的置信度,从而实现突破信息茧房的目的。性能提升幅度未知,原文未提供具体数值。
🎯 应用场景
ContentFuzz可应用于社交媒体平台的内容推荐和排序系统,帮助内容创作者突破信息茧房,触达更广泛的受众。它还可以用于舆情分析和引导,促进不同观点之间的交流和理解。此外,该方法还可以应用于其他文本分类任务,例如情感分析和主题分类,提高模型的鲁棒性和泛化能力。
📄 摘要(原文)
Information cocoons on social media limit users' exposure to posts with diverse viewpoints. Modern platforms use stance detection as an important signal in recommendation and ranking pipelines, which can route posts primarily to like-minded audiences and reduce cross-cutting exposure. This restricts the reach of dissenting opinions and hinders constructive discourse. We take the creator's perspective and investigate how content can be revised to reach beyond existing affinity clusters. We present ContentFuzz, a confidence-guided fuzzing framework that rewrites posts while preserving their human-interpreted intent and induces different machine-inferred stance labels. ContentFuzz aims to route posts beyond their original cocoons. Our method guides a large language model (LLM) to generate meaning-preserving rewrites using confidence feedback from stance detection models. Evaluated on four representative stance detection models across three datasets in two languages, ContentFuzz effectively changes machine-classified stance labels, while maintaining semantic integrity with respect to the original content.