Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization
作者: Patrick Cooper, Alvaro Velasquez
分类: cs.LG, cs.AI
发布日期: 2026-02-02
备注: 9 pages, 5 figures
💡 一句话要点
提出ACE,通过直接偏好优化学习因果干预策略,提升实验设计效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 因果发现 实验设计 强化学习 直接偏好优化 序列决策
📋 核心要点
- 传统因果实验设计方法无法有效利用历史实验数据,导致干预策略效率低下。
- ACE通过直接偏好优化,学习干预策略,避免了非平稳奖励带来的不稳定问题。
- 实验结果表明,ACE在多种场景下显著优于传统方法,并能自主发现理论指导的干预策略。
📝 摘要(中文)
发现因果关系需要控制实验,但实验人员面临一个序列决策问题:每次干预都会揭示信息,从而指导下一步尝试。传统方法(如随机抽样、贪婪信息最大化和循环覆盖)孤立地对待每个决策,无法从经验中学习自适应策略。我们提出了主动因果实验者(ACE),它将实验设计学习为一个序列策略。我们的关键见解是,虽然绝对信息增益随着知识的积累而减少(导致基于价值的强化学习不稳定),但候选干预之间的相对比较始终有意义。ACE通过直接偏好优化利用这一点,从成对干预比较中学习,而不是从非平稳的奖励幅度中学习。在合成基准、物理模拟和经济数据中,ACE在相同的干预预算下,比基线方法提高了70-71%(p < 0.001,Cohen's d ~ 2)。值得注意的是,学习到的策略自主地发现,对撞机制需要对父变量进行集中的干预,这是一种理论上合理的策略,完全是从经验中产生的。这表明基于偏好的学习可以恢复有原则的实验策略,用学习到的领域适应来补充理论。
🔬 方法详解
问题定义:论文旨在解决因果发现中,如何高效地进行实验干预的问题。现有方法,如随机抽样、贪婪信息最大化等,将每次干预决策孤立看待,无法从历史实验数据中学习,导致实验效率低下,尤其是在复杂因果关系中。
核心思路:论文的核心思路是将实验设计视为一个序列决策问题,并使用强化学习来学习最优的干预策略。关键在于,避免直接预测干预的绝对价值,而是通过比较不同干预的相对偏好来学习,从而克服了因果发现过程中奖励非平稳的问题。这种相对比较在知识积累过程中更稳定。
技术框架:ACE的整体框架包含以下几个主要模块:1)环境交互模块,负责执行干预并观察结果;2)策略网络,负责根据当前状态选择干预;3)偏好学习模块,负责从成对干预比较中学习策略。具体流程是,策略网络生成多个候选干预,然后通过环境交互获得这些干预的结果,并进行两两比较,根据比较结果更新策略网络。
关键创新:ACE最重要的创新点在于使用直接偏好优化(Direct Preference Optimization, DPO)来学习干预策略。与传统的基于价值的强化学习方法不同,DPO直接从人类(或模拟器)的偏好数据中学习策略,避免了中间奖励函数的设计,并能更好地处理非平稳奖励问题。这使得ACE能够更有效地学习因果干预策略。
关键设计:ACE的关键设计包括:1)使用神经网络作为策略网络,输入是当前状态,输出是干预的概率分布;2)使用成对比较数据来训练策略网络,损失函数基于Bradley-Terry模型,鼓励选择更受偏好的干预;3)使用探索策略来平衡探索和利用,例如ε-greedy策略或Boltzmann探索。
📊 实验亮点
ACE在合成基准、物理模拟和经济数据等多个实验中,均显著优于基线方法。在相同的干预预算下,ACE比基线方法提高了70-71%(p < 0.001,Cohen's d ~ 2)。更重要的是,ACE能够自主发现理论指导的干预策略,例如,对撞机制需要对父变量进行集中的干预。这些结果表明,ACE能够有效地学习因果干预策略,并具有很强的泛化能力。
🎯 应用场景
ACE可应用于多个领域,例如:药物发现(优化临床试验设计)、经济学(设计政策干预)、社会科学(研究社会现象的因果关系)、机器人学习(自主探索环境)。通过学习高效的干预策略,ACE能够加速因果关系的发现,并为决策提供更可靠的依据,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Discovering causal relationships requires controlled experiments, but experimentalists face a sequential decision problem: each intervention reveals information that should inform what to try next. Traditional approaches such as random sampling, greedy information maximization, and round-robin coverage treat each decision in isolation, unable to learn adaptive strategies from experience. We propose Active Causal Experimentalist (ACE), which learns experimental design as a sequential policy. Our key insight is that while absolute information gains diminish as knowledge accumulates (making value-based RL unstable), relative comparisons between candidate interventions remain meaningful throughout. ACE exploits this via Direct Preference Optimization, learning from pairwise intervention comparisons rather than non-stationary reward magnitudes. Across synthetic benchmarks, physics simulations, and economic data, ACE achieves 70-71% improvement over baselines at equal intervention budgets (p < 0.001, Cohen's d ~ 2). Notably, the learned policy autonomously discovers that collider mechanisms require concentrated interventions on parent variables, a theoretically-grounded strategy that emerges purely from experience. This suggests preference-based learning can recover principled experimental strategies, complementing theory with learned domain adaptation.