Predicting Causal Effects from Natural Language Queries using Structured Representations

作者: Giuliano Martinelli, Piriyakorn Piriyatamwong, Abelardo Carlos Martinez Lorenzo, Jasmin Baier, Riccardo Orlando, Satvik Garg, Sharif Kazemi, Linxi Wang, Arianna Legovini, Samuel Fraiberger

分类: cs.CL, cs.AI

发布日期: 2026-05-28

备注: 18 pages

💡 一句话要点

提出Query2Effect基准和两阶段框架，利用自然语言查询预测因果效应。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 因果效应预测 自然语言查询 结构化表示 大型语言模型 领域外泛化

📋 核心要点

随机对照试验成本高昂，因此需要从现有数据预测因果效应，但现有方法效果有限。
论文提出两阶段框架，先将自然语言查询转化为结构化表示，再预测因果效应大小。
实验表明，微调能显著提升预测性能，且该框架具有良好的领域外泛化能力。

📝 摘要（中文）

随机对照试验是医学和社会科学的基石，因为它们能够可靠地估计因果效应。然而，进行这些试验既昂贵又耗时，因此激发了人们对从现有实验证据中预测因果效应的兴趣。大型语言模型（LLM）的最新进展已证明其在知识密集型任务中表现出色，这引发了一个问题：这些模型是否可以用于预测因果效应的大小。为了研究这个问题，我们引入了Query2Effect，这是一个新的大规模基准，包含超过72,000个自然语言问题，这些问题与实验描述对齐，旨在通过改变查询的特异性（包括隐式性、抽象性和模糊性）来模拟真实的信息寻求场景。然后，我们提出了一个两步框架，该框架首先生成查询的合成结构化表示，然后使用监督编码器模型预测效应大小。实验表明，微调在提高预测性能方面起着至关重要的作用，与开箱即用的LLM相比，绝对误差降低了-27%到-71%。我们的两步框架有利于领域外泛化，突出了将语义解释与数值效应估计分离的好处。

🔬 方法详解

问题定义：论文旨在解决从自然语言查询中预测因果效应大小的问题。现有方法，如直接使用大型语言模型（LLM），在处理复杂、模糊的查询时效果不佳，且缺乏结构化信息利用，导致预测精度较低，泛化能力不足。

核心思路：论文的核心思路是将因果效应预测任务分解为两个步骤：首先，将自然语言查询转化为结构化的表示形式，例如三元组或知识图谱；然后，利用这些结构化信息，通过监督学习模型预测效应大小。这种分解的目的是将语义理解和数值预测分离，从而提高模型的鲁棒性和泛化能力。

技术框架：整体框架包含两个主要阶段：1) 查询结构化表示生成：使用LLM或专门训练的模型将自然语言查询转换为结构化的表示形式。2) 因果效应预测：使用监督编码器模型，例如Transformer或BERT，将结构化表示作为输入，预测因果效应的大小。框架的关键在于中间的结构化表示，它充当了自然语言查询和数值预测之间的桥梁。

关键创新：论文的关键创新在于提出了一个两阶段的框架，将自然语言理解和数值预测分离。通过引入结构化表示，模型能够更好地理解查询的语义，并利用这些信息进行更准确的预测。此外，Query2Effect基准的提出也为该领域的研究提供了新的资源。

关键设计：在查询结构化表示生成阶段，可以使用不同的LLM进行微调，以提高生成质量。在因果效应预测阶段，可以使用不同的编码器模型，并调整其网络结构和参数，以优化预测性能。损失函数通常采用均方误差（MSE）或平均绝对误差（MAE），以衡量预测值与真实值之间的差异。Query2Effect基准包含多种类型的查询，涵盖不同的隐式性、抽象性和模糊性，这有助于评估模型的鲁棒性。

📊 实验亮点

实验结果表明，经过微调的LLM在Query2Effect基准上表现显著优于未微调的LLM，绝对误差降低了27%到71%。两阶段框架在领域外泛化方面表现出色，证明了结构化表示的有效性。这些结果表明，该方法在预测因果效应方面具有很大的潜力。

🎯 应用场景

该研究成果可应用于医疗、社会科学等领域，辅助研究人员快速评估干预措施的潜在效果，加速科学发现。例如，医生可以通过自然语言查询，预测某种药物对特定患者群体的疗效，从而制定更个性化的治疗方案。此外，该技术还可用于政策制定，评估不同政策措施的潜在影响。

📄 摘要（原文）

Randomized controlled trials are a cornerstone of medicine and the social sciences as they enable reliable estimates of causal effects. However, they are costly and time-consuming to conduct, motivating interest in predicting causal effects from existing experimental evidence. Recent advances in large language models (LLMs) have demonstrated strong performance on knowledge-intensive tasks, raising the question of whether these models can be used for forecasting causal effect sizes. To investigate this, we introduce Query2Effect, a new large-scale benchmark consisting of more than 72,000 natural language questions aligned with experiment descriptions, created to simulate realistic information-seeking scenarios by varying query specificity along dimensions of implicitness, abstraction, and ambiguity. We then propose a two-step framework that first generates a synthetic structured representation of a query before predicting effect size using a supervised encoder model. Experiments show that finetuning plays a crucial role in improving prediction performance, with absolute error reducing by -27% up to -71% compared to prompted out-of-the-box LLMs, and that our two-step framework is beneficial for out-of-domain generalization, highlighting the benefits of separating semantic interpretation from numerical effect estimation.

Predicting Causal Effects from Natural Language Queries using Structured Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理