MaD Physics: Evaluating information seeking under constraints in physical environments
作者: Moksh Jain, Mehdi Bennani, Johannes Bausch, Yuri Chervonyi, Bogdan Georgiev, Simon Osindero, Nenad Tomašev
分类: cs.AI, cs.LG
发布日期: 2026-05-11
备注: 64 pages, 10 figures. Project page: https://mad-physics.github.io/
💡 一句话要点
提出MaD Physics基准,旨在评估智能体在物理环境约束下的信息获取与科学发现能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 科学发现 主动学习 物理模拟 基准测试 序列决策 资源约束 多模态推理
📋 核心要点
- 现有基准多关注静态知识或无约束实验,无法模拟真实科学研究中资源受限、需权衡测量质量与数量的复杂场景。
- 提出MaD Physics基准,通过修改物理定律构建三个实验环境,强制智能体在有限预算内进行主动探索与科学推断。
- 实验评估了四款Gemini模型,发现其在结构化数据采集与科学推理方面存在显著局限,为未来模型改进提供了方向。
📝 摘要(中文)
科学发现本质上是一个资源受限的过程,需要在测量质量与数量之间进行权衡。现有的科学发现基准多局限于静态知识推理或无约束的实验设计,缺乏对受限条件下测量与规划能力的评估。为此,本文提出了“测量与发现物理”(MaD Physics)基准,旨在评估智能体在测量质量和数量受限的情况下,进行信息获取与科学推断的能力。该基准包含三个基于不同物理定律的环境,并通过修改物理定律以防止模型利用既有知识进行作弊。在每轮试验中,智能体需在预算耗尽前进行测量,并推断物理定律以预测系统未来状态。研究通过四款Gemini模型对该基准进行了测试,揭示了模型在结构化探索与数据采集方面的不足,并指明了提升科学推理能力的路径。
🔬 方法详解
问题定义:科学发现的核心挑战在于如何在物理资源(如时间、成本、设备精度)受限的情况下,通过最优的测量策略获取信息,从而推断出潜在的物理定律。现有基准忽略了这种“主动探索”与“资源约束”的耦合关系。
核心思路:通过构建包含三个不同物理定律的受控环境,将科学发现过程转化为一个序列决策问题。为了避免模型利用训练数据中的先验知识,论文采用了“修改物理定律”的策略,确保智能体必须通过实时观测来学习规律。
技术框架:该基准包含三个阶段:首先是观测阶段,智能体在预算内自主决定测量位置与精度;其次是推断阶段,智能体基于观测数据总结物理模型;最后是预测阶段,智能体利用推断出的模型对系统未来状态进行预测。
关键创新:引入了“受限信息获取”评估范式,将科学发现能力拆解为数据采集策略与模型推断能力。通过修改物理定律,有效规避了模型对已知科学常识的依赖,实现了对智能体真实科学推理能力的纯净评估。
关键设计:基准设计了严格的预算机制(Budgeting),限制了测量次数与精度等级。同时,通过多模态输入与上下文学习(In-context Learning)接口,支持评估不同架构模型在处理物理实验数据时的泛化能力与逻辑推理深度。
🖼️ 关键图片
📊 实验亮点
研究通过对Gemini 2.5 Flash Lite、Flash、Pro及3 Flash四款模型的基准测试,量化了模型在科学推理上的表现。实验结果表明,尽管模型在通用任务上表现出色,但在处理需要结构化探索和长期规划的物理实验时,仍存在显著的性能瓶颈,特别是在数据采集策略的有效性上表现欠佳,为后续模型在科学领域的微调与架构优化提供了明确的基准参考。
🎯 应用场景
该研究在自动化科学实验室(Self-driving Labs)领域具有重要价值,可用于训练能够自主设计实验、优化测量参数的AI科学家。此外,该基准还可应用于机器人主动感知、复杂系统建模以及在资源受限环境下进行决策的智能系统开发,推动AI从单纯的知识检索向真正的科学发现演进。
📄 摘要(原文)
Scientific discovery is fundamentally a resource-constrained process that requires navigating complex trade-offs between the quality and quantity of measurements due to physical and cost constraints. Measurements drive the scientific process by revealing novel phenomena to improve our understanding. Existing benchmarks for evaluating agents for scientific discovery focus on either static knowledge-based reasoning or unconstrained experimental design tasks, and do not capture the ability to make measurements and plan under constraints. To bridge this gap, we propose Measuring and Discovering Physics (MaD Physics), a benchmark to evaluate the ability of agents to make informative measurements and conclusions subject to constraints on the quality and quantity of measurements. The benchmark consists of three environments, each based on a distinct physical law. To mitigate contamination from existing knowledge, MaD Physics includes altered physical laws. In each trial, the agent makes measurements of the system until it exhausts an allotted budget and then the agent has to infer the underlying physical law to make predictions about the state of the system in the future. MaD Physics evaluates two fundamental capabilities of scientific agents: inferring models from data and planning under constraints. We also demonstrate how MaD Physics can be used to evaluate other capabilities such as multimodality and in-context learning. We benchmark agents on MaD Physics using four Gemini models (2.5 Flash Lite, 2.5 Flash, 2.5 Pro, and 3 Flash), identifying shortcomings in their structured exploration and data collection capabilities and highlighting directions to improve their scientific reasoning.