InterveneBench: Benchmarking LLMs for Intervention Reasoning and Causal Study Design in Real Social Systems

📄 arXiv: 2603.15542v1 📥 PDF

作者: Shaojie Shi, Zhengyu Shi, Lingran Zheng, Xinyu Su, Anna Xie, Bohao Lv, Rui Xu, Zijian Chen, Zhichao Chen, Guolei Liu, Naifu Zhang, Mingjian Dong, Zhuo Quan, Bohao Chen, Teqi Hao, Yuan Qi, Yinghui Xu, Libo Wu

分类: cs.CY, cs.AI

发布日期: 2026-03-16

备注: 35pages,3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

InterveneBench:评估LLM在真实社会系统中干预推理和因果研究设计能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 因果推理 社会科学 基准测试 政策干预 多智能体系统 InterveneBench

📋 核心要点

  1. 现有基准测试无法有效评估LLM在现实社会情境中进行干预推理和因果研究设计的能力。
  2. 论文提出InterveneBench基准,包含744项社会科学研究,用于评估LLM在政策干预下的推理能力。
  3. 论文进一步提出多智能体框架STRIDES,显著提升了LLM在InterveneBench上的性能表现。

📝 摘要(中文)

社会科学中的因果推断依赖于以干预为中心的端到端研究设计推理,这种推理扎根于现实世界的政策干预。然而,目前的基准测试未能评估大型语言模型(LLM)的这种能力。我们提出了InterveneBench,一个旨在评估LLM在真实社会环境中进行此类推理的基准。InterveneBench中的每个实例都源自一项实证社会科学研究,要求模型在没有预定义的因果图或结构方程的情况下,对政策干预和识别假设进行推理。InterveneBench包含来自不同政策领域的744项同行评审研究。实验结果表明,最先进的LLM在这种设置下表现不佳。为了解决这个限制,我们进一步提出了一个多智能体框架STRIDES。它在最先进的推理模型上实现了显著的性能提升。我们的代码和数据可在https://github.com/Sii-yuning/STRIDES 获得。

🔬 方法详解

问题定义:现有的大型语言模型在社会科学领域的因果推理能力不足,尤其是在涉及现实政策干预的场景下。现有的基准测试通常依赖于预定义的因果图或结构方程,无法真实反映社会科学研究中复杂的干预推理过程。因此,需要一个更贴近实际社会情境的基准来评估LLM的干预推理能力。

核心思路:论文的核心思路是构建一个基于真实社会科学研究的基准测试,即InterveneBench。该基准测试要求LLM在没有预定义的因果图或结构方程的情况下,根据实际的政策干预案例进行推理,从而评估其在复杂社会情境下的因果推理能力。此外,论文还提出了一个多智能体框架STRIDES,通过模拟多个智能体之间的协作,提升LLM的推理性能。

技术框架:STRIDES框架是一个多智能体系统,包含多个具有不同角色的智能体,例如问题理解智能体、假设生成智能体、证据搜索智能体和结论推理智能体。这些智能体通过协作完成InterveneBench中的任务。具体流程如下:首先,问题理解智能体分析输入的社会科学研究案例;然后,假设生成智能体基于案例生成可能的干预假设;接着,证据搜索智能体搜索相关的证据来支持或反驳这些假设;最后,结论推理智能体基于证据进行推理,得出结论。

关键创新:InterveneBench基准测试的创新之处在于其真实性和复杂性。它基于真实的社会科学研究案例,要求LLM在没有预定义信息的情况下进行推理,更贴近实际应用场景。STRIDES框架的创新之处在于其多智能体协作机制,通过模拟多个智能体之间的交互,提升了LLM的推理能力。这种多智能体协作的方式可以有效分解复杂问题,并利用不同智能体的优势来提高整体性能。

关键设计:STRIDES框架中的每个智能体都采用了预训练的语言模型作为基础模型,并针对特定任务进行了微调。例如,问题理解智能体使用BERT模型进行微调,假设生成智能体使用GPT模型进行微调。智能体之间的协作通过消息传递机制实现,每个智能体可以将自己的推理结果传递给其他智能体,从而实现信息的共享和协同推理。具体的损失函数和网络结构根据每个智能体的任务进行设计,例如,假设生成智能体使用交叉熵损失函数来优化生成的假设。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的LLM在InterveneBench基准测试上表现不佳,表明其在复杂社会情境下的因果推理能力仍有待提高。然而,通过引入STRIDES多智能体框架,LLM的性能得到了显著提升,证明了多智能体协作在解决复杂推理问题上的有效性。具体的性能提升幅度在论文中进行了详细的量化分析。

🎯 应用场景

该研究成果可应用于社会科学研究的辅助工具开发,帮助研究人员更好地理解和分析政策干预的效果。此外,该基准测试和多智能体框架可以促进LLM在社会科学领域的应用,例如政策评估、社会预测和决策支持。未来,该研究可以扩展到其他领域,例如医疗健康和金融领域。

📄 摘要(原文)

Causal inference in social science relies on end-to-end, intervention-centered research-design reasoning grounded in real-world policy interventions, but current benchmarks fail to evaluate this capability of large language models (LLMs). We present InterveneBench, a benchmark designed to assess such reasoning in realistic social settings. Each instance in InterveneBench is derived from an empirical social science study and requires models to reason about policy interventions and identification assumptions without access to predefined causal graphs or structural equations. InterveneBench comprises 744 peer-reviewed studies across diverse policy domains. Experimental results show that state-of-the-art LLMs struggle under this setting. To address this limitation, we further propose a multi-agent framework, STRIDES. It achieves significant performance improvements over state-of-the-art reasoning models. Our code and data are available at https://github.com/Sii-yuning/STRIDES.