PolicySim: An LLM-Based Agent Social Simulation Sandbox for Proactive Policy Optimization

📄 arXiv: 2603.19649v1 📥 PDF

作者: Renhong Huang, Ning Tang, Jiarong Xu, Yuxuan Cao, Qingqian Tu, Sheng Guo, Bo Zheng, Huiyuan Liu, Yang Yang

分类: cs.SI, cs.AI

发布日期: 2026-03-20


💡 一句话要点

PolicySim:基于LLM的社交模拟沙箱,用于主动优化平台策略

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 社交模拟 大型语言模型 平台策略优化 上下文Bandit 用户行为建模

📋 核心要点

  1. 现有平台策略评估主要依赖A/B测试,存在滞后性和高成本问题,无法在部署前有效识别潜在风险。
  2. PolicySim构建基于LLM的社交模拟沙箱,通过用户代理和自适应干预模块,模拟用户行为与平台干预的双向动态。
  3. 实验证明PolicySim能准确模拟平台生态,支持有效的干预策略优化,为平台策略的预先评估提供有力工具。

📝 摘要(中文)

社交平台是信息交流的中心枢纽,用户行为和平台干预共同塑造舆论。然而,推荐和内容过滤等干预策略可能会无意中放大回音室效应和两极分化,带来严重的社会风险。因此,主动评估此类政策的影响至关重要。现有的方法主要依赖于被动的在线A/B测试,风险只有在部署后才能识别,导致风险识别的延迟和高成本。基于LLM的社交模拟提供了一种有希望的部署前替代方案,但当前的方法在真实地模拟平台干预和纳入平台反馈方面存在不足。弥合这些差距对于构建可操作的框架来评估和优化平台策略至关重要。为此,我们提出了PolicySim,一个基于LLM的社交模拟沙箱,用于主动评估干预策略。PolicySim通过两个关键组件来建模用户行为和平台干预之间的双向动态:(1) 通过监督式微调(SFT)和直接偏好优化(DPO)进行改进的用户代理模块,以实现平台特定的行为真实性;(2) 采用上下文bandit和消息传递的自适应干预模块,以捕获动态网络结构。实验表明,PolicySim可以准确地模拟微观和宏观层面的平台生态系统,并支持有效的干预策略。

🔬 方法详解

问题定义:社交平台上的干预策略(如推荐、过滤)可能加剧回音室效应和极化现象,现有A/B测试方法成本高、滞后性强,无法在部署前有效评估策略风险。因此,需要一种能够预先评估平台策略影响的模拟方法。

核心思路:利用大型语言模型(LLM)构建社交模拟环境,模拟用户行为和平台干预之间的动态交互。通过训练LLM模拟用户行为,并设计自适应干预模块模拟平台策略,从而在部署前评估策略效果。

技术框架:PolicySim包含两个主要模块:用户代理模块和自适应干预模块。用户代理模块负责模拟用户在社交平台上的行为,通过SFT和DPO进行训练,使其更贴近真实用户行为。自适应干预模块模拟平台策略,采用上下文bandit算法和消息传递机制,根据用户行为动态调整干预策略。整体流程是:用户代理产生行为,自适应干预模块根据行为进行干预,用户代理根据干预结果调整后续行为,形成闭环反馈。

关键创新:PolicySim的关键创新在于其双向动态建模能力,能够同时模拟用户行为和平台干预,并捕捉两者之间的相互影响。此外,通过SFT和DPO训练用户代理,使其更具平台特定行为的真实性。与现有方法相比,PolicySim能够更全面、更准确地评估平台策略的影响。

关键设计:用户代理模块使用LLM作为基础模型,通过SFT和DPO进行微调,使其能够模拟用户在特定平台上的行为模式。自适应干预模块采用上下文bandit算法,根据用户行为和网络结构动态调整干预策略。消息传递机制用于在用户之间传播信息,模拟社交网络中的信息扩散过程。具体的参数设置和损失函数选择取决于具体的平台和任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PolicySim能够准确模拟平台生态系统,在微观层面(用户行为预测)和宏观层面(舆论演化趋势)均表现良好。通过对比不同的干预策略,PolicySim能够有效评估策略效果,并为策略优化提供指导。具体性能数据和对比基线在论文中详细展示,证明了PolicySim的有效性和优越性。

🎯 应用场景

PolicySim可用于评估和优化社交平台的内容推荐、信息过滤、社区管理等策略,帮助平台在部署前识别潜在风险,避免负面社会影响。此外,该方法还可应用于舆情分析、虚假信息传播研究、在线社区治理等领域,为构建健康、积极的在线社交环境提供技术支持。

📄 摘要(原文)

Social platforms serve as central hubs for information exchange, where user behaviors and platform interventions jointly shape opinions. However, intervention policies like recommendation and content filtering, can unintentionally amplify echo chambers and polarization, posing significant societal risks. Proactively evaluating the impact of such policies is therefore crucial. Existing approaches primarily rely on reactive online A/B testing, where risks are identified only after deployment, making risk identification delayed and costly. LLM-based social simulations offer a promising pre-deployment alternative, but current methods fall short in realistically modeling platform interventions and incorporating feedback from the platform. Bridging these gaps is essential for building actionable frameworks to assess and optimize platform policies. To this end, we propose PolicySim, an LLM-based social simulation sandbox for the proactive assessment and optimization of intervention policies. PolicySim models the bidirectional dynamics between user behavior and platform interventions through two key components: (1) a user agent module refined via supervised fine-tuning (SFT) and direct preference optimization (DPO) to achieve platform-specific behavioral realism; and (2) an adaptive intervention module that employs a contextual bandit with message passing to capture dynamic network structures. Experiments show that PolicySim can accurately simulate platform ecosystems at both micro and macro levels and support effective intervention policy.