Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization

作者: Patrick Cooper, Alvaro Velasquez

分类: cs.LG, cs.AI

发布日期: 2026-02-02

备注: 9 pages, 5 figures

💡 一句话要点

提出ACE，通过直接偏好优化学习因果干预策略，提升实验设计效率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 因果发现 实验设计 强化学习 直接偏好优化 序列决策

📋 核心要点

传统因果实验设计方法无法有效利用历史实验数据，导致干预策略效率低下。
ACE通过直接偏好优化，学习干预策略，避免了非平稳奖励带来的不稳定问题。
实验结果表明，ACE在多种场景下显著优于传统方法，并能自主发现理论指导的干预策略。

📝 摘要（中文）

发现因果关系需要控制实验，但实验人员面临一个序列决策问题：每次干预都会揭示信息，从而指导下一步尝试。传统方法（如随机抽样、贪婪信息最大化和循环覆盖）孤立地对待每个决策，无法从经验中学习自适应策略。我们提出了主动因果实验者（ACE），它将实验设计学习为一个序列策略。我们的关键见解是，虽然绝对信息增益随着知识的积累而减少（导致基于价值的强化学习不稳定），但候选干预之间的相对比较始终有意义。ACE通过直接偏好优化利用这一点，从成对干预比较中学习，而不是从非平稳的奖励幅度中学习。在合成基准、物理模拟和经济数据中，ACE在相同的干预预算下，比基线方法提高了70-71%（p < 0.001，Cohen's d ~ 2）。值得注意的是，学习到的策略自主地发现，对撞机制需要对父变量进行集中的干预，这是一种理论上合理的策略，完全是从经验中产生的。这表明基于偏好的学习可以恢复有原则的实验策略，用学习到的领域适应来补充理论。

🔬 方法详解

问题定义：论文旨在解决因果发现中，如何高效地进行实验干预的问题。现有方法，如随机抽样、贪婪信息最大化等，将每次干预决策孤立看待，无法从历史实验数据中学习，导致实验效率低下，尤其是在复杂因果关系中。

核心思路：论文的核心思路是将实验设计视为一个序列决策问题，并使用强化学习来学习最优的干预策略。关键在于，避免直接预测干预的绝对价值，而是通过比较不同干预的相对偏好来学习，从而克服了因果发现过程中奖励非平稳的问题。这种相对比较在知识积累过程中更稳定。

技术框架：ACE的整体框架包含以下几个主要模块：1）环境交互模块，负责执行干预并观察结果；2）策略网络，负责根据当前状态选择干预；3）偏好学习模块，负责从成对干预比较中学习策略。具体流程是，策略网络生成多个候选干预，然后通过环境交互获得这些干预的结果，并进行两两比较，根据比较结果更新策略网络。

关键创新：ACE最重要的创新点在于使用直接偏好优化（Direct Preference Optimization, DPO）来学习干预策略。与传统的基于价值的强化学习方法不同，DPO直接从人类（或模拟器）的偏好数据中学习策略，避免了中间奖励函数的设计，并能更好地处理非平稳奖励问题。这使得ACE能够更有效地学习因果干预策略。

关键设计：ACE的关键设计包括：1）使用神经网络作为策略网络，输入是当前状态，输出是干预的概率分布；2）使用成对比较数据来训练策略网络，损失函数基于Bradley-Terry模型，鼓励选择更受偏好的干预；3）使用探索策略来平衡探索和利用，例如ε-greedy策略或Boltzmann探索。

📊 实验亮点

ACE在合成基准、物理模拟和经济数据等多个实验中，均显著优于基线方法。在相同的干预预算下，ACE比基线方法提高了70-71%（p < 0.001，Cohen's d ~ 2）。更重要的是，ACE能够自主发现理论指导的干预策略，例如，对撞机制需要对父变量进行集中的干预。这些结果表明，ACE能够有效地学习因果干预策略，并具有很强的泛化能力。

🎯 应用场景

ACE可应用于多个领域，例如：药物发现（优化临床试验设计）、经济学（设计政策干预）、社会科学（研究社会现象的因果关系）、机器人学习（自主探索环境）。通过学习高效的干预策略，ACE能够加速因果关系的发现，并为决策提供更可靠的依据，具有重要的实际价值和广泛的应用前景。

📄 摘要（原文）

Discovering causal relationships requires controlled experiments, but experimentalists face a sequential decision problem: each intervention reveals information that should inform what to try next. Traditional approaches such as random sampling, greedy information maximization, and round-robin coverage treat each decision in isolation, unable to learn adaptive strategies from experience. We propose Active Causal Experimentalist (ACE), which learns experimental design as a sequential policy. Our key insight is that while absolute information gains diminish as knowledge accumulates (making value-based RL unstable), relative comparisons between candidate interventions remain meaningful throughout. ACE exploits this via Direct Preference Optimization, learning from pairwise intervention comparisons rather than non-stationary reward magnitudes. Across synthetic benchmarks, physics simulations, and economic data, ACE achieves 70-71% improvement over baselines at equal intervention budgets (p < 0.001, Cohen's d ~ 2). Notably, the learned policy autonomously discovers that collider mechanisms require concentrated interventions on parent variables, a theoretically-grounded strategy that emerges purely from experience. This suggests preference-based learning can recover principled experimental strategies, complementing theory with learned domain adaptation.

Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理