Accelerating Social Science Research via Agentic Hypothesization and Experimentation
作者: Jishu Sen Gupta, Harini SI, Somesh Kumar Singh, Syed Mohamad Tawseeq, Yaman Kumar Singla, David Doermann, Rajiv Ratn Shah, Balaji Krishnamurthy
分类: cs.AI, cs.CL
发布日期: 2026-02-08
💡 一句话要点
提出EXPERIGEN框架,通过智能体假设生成与实验加速社会科学研究。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会科学研究 智能体框架 假设生成 实验验证 贝叶斯优化 端到端发现 A/B测试
📋 核心要点
- 现有数据驱动的社会科学研究依赖迭代循环,速度慢,且缺乏端到端科学发现的支持。
- EXPERIGEN框架通过生成器提出假设,实验者评估假设的两阶段搜索,实现端到端发现。
- 实验表明,EXPERIGEN发现更多统计显著的假设,预测性更高,并通过专家评审和A/B测试验证。
📝 摘要(中文)
数据驱动的社会科学研究本质上是缓慢的,依赖于观察、假设生成和实验验证的迭代循环。虽然最近的数据驱动方法有望加速这一过程的某些部分,但它们在很大程度上未能支持端到端的科学发现。为了解决这一差距,我们引入了EXPERIGEN,一个智能体框架,通过受贝叶斯优化启发的两阶段搜索来实现端到端的发现,其中生成器提出候选假设,实验者对它们进行经验评估。在多个领域,EXPERIGEN始终如一地发现比先前方法多2-4倍的具有统计意义的假设,并且预测性高7-17%。除了统计性能之外,假设必须是新颖的、有经验依据的和可操作的,以推动真正的科学进步。为了评估这些质量,我们对机器生成的假设进行了专家评审,收集了资深教员的反馈。在审查的25个假设中,88%被评为中等或高度新颖,70%被认为具有影响力且值得追求,并且大多数表现出与高级研究生水平研究相当的严谨性。最后,认识到最终验证需要真实世界的证据,我们进行了LLM生成的假设的首次A/B测试,观察到具有统计意义的结果,p小于1e-6,并且具有344%的巨大效应量。
🔬 方法详解
问题定义:论文旨在解决社会科学研究中,数据驱动的假设生成和验证过程缓慢且缺乏端到端支持的问题。现有方法通常只能加速部分流程,无法有效支持从假设提出到实验验证的完整科学发现过程。研究人员需要一种能够自动生成高质量、可验证且具有实际意义的假设的工具,以加速社会科学研究的进程。
核心思路:论文的核心思路是构建一个基于智能体的框架,该框架能够模拟科学家进行假设生成和实验验证的过程。该框架采用贝叶斯优化启发的两阶段搜索策略,通过生成器智能体提出候选假设,并通过实验者智能体对这些假设进行经验评估。这种设计旨在自动化并加速假设生成和验证的迭代过程,从而提高社会科学研究的效率和质量。
技术框架:EXPERIGEN框架包含两个主要模块:生成器(Generator)和实验者(Experimenter)。生成器负责提出候选假设,它利用历史数据和领域知识,生成一系列可能的假设。实验者负责评估这些假设的有效性,它通过统计分析和实验验证,确定哪些假设具有统计意义和实际价值。这两个模块通过一个迭代循环进行交互,生成器根据实验者的反馈不断优化其假设生成策略,从而提高假设的质量和有效性。
关键创新:EXPERIGEN的关键创新在于其端到端的自动化假设生成和验证流程。与现有方法相比,EXPERIGEN能够自动完成从假设提出到实验验证的整个过程,无需人工干预。此外,该框架采用贝叶斯优化启发的搜索策略,能够更有效地探索假设空间,找到更优的假设。通过专家评审和A/B测试,验证了该框架生成假设的新颖性、影响力和实际价值。
关键设计:EXPERIGEN框架的关键设计包括:1) 使用贝叶斯优化来指导假设生成过程,平衡探索和利用,以找到有希望的假设;2) 设计实验者模块,使用统计测试和机器学习模型来评估假设的有效性;3) 采用领域专家评审来评估生成假设的新颖性和影响力;4) 进行A/B测试来验证生成假设在实际应用中的效果。具体的参数设置、损失函数和网络结构等技术细节未在摘要中详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
EXPERIGEN在多个领域发现的统计显著假设比现有方法多2-4倍,预测性提高7-17%。专家评审显示,88%的生成假设被评为中等或高度新颖,70%被认为具有影响力。LLM生成的假设的A/B测试结果显示,p值小于1e-6,效应量高达344%。这些结果表明EXPERIGEN在假设生成和验证方面具有显著优势。
🎯 应用场景
EXPERIGEN框架可应用于各种社会科学研究领域,例如经济学、社会学、心理学等。它可以帮助研究人员更快地发现新的社会现象和规律,并为政策制定提供科学依据。该框架还可以用于分析复杂的社会问题,例如贫困、犯罪和教育不平等,并为解决这些问题提供新的思路和方法。未来,该框架有望成为社会科学研究的重要工具,推动社会科学的进步。
📄 摘要(原文)
Data-driven social science research is inherently slow, relying on iterative cycles of observation, hypothesis generation, and experimental validation. While recent data-driven methods promise to accelerate parts of this process, they largely fail to support end-to-end scientific discovery. To address this gap, we introduce EXPERIGEN, an agentic framework that operationalizes end-to-end discovery through a Bayesian optimization inspired two-phase search, in which a Generator proposes candidate hypotheses and an Experimenter evaluates them empirically. Across multiple domains, EXPERIGEN consistently discovers 2-4x more statistically significant hypotheses that are 7-17 percent more predictive than prior approaches, and naturally extends to complex data regimes including multimodal and relational datasets. Beyond statistical performance, hypotheses must be novel, empirically grounded, and actionable to drive real scientific progress. To evaluate these qualities, we conduct an expert review of machine-generated hypotheses, collecting feedback from senior faculty. Among 25 reviewed hypotheses, 88 percent were rated moderately or strongly novel, 70 percent were deemed impactful and worth pursuing, and most demonstrated rigor comparable to senior graduate-level research. Finally, recognizing that ultimate validation requires real-world evidence, we conduct the first A/B test of LLM-generated hypotheses, observing statistically significant results with p less than 1e-6 and a large effect size of 344 percent.