ARMOR: An Agentic Framework for Reaction Feasibility Prediction via Adaptive Utility-aware Multi-tool Reasoning
作者: Ye Liu, Botao Yu, Xinyi Ling, Daniel Adu-Ampratwum, Xia Ning
分类: cs.AI, cs.MA
发布日期: 2026-05-08
💡 一句话要点
提出ARMOR代理框架,通过自适应效用感知多工具推理解决化学反应可行性预测难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 化学反应预测 代理框架 多工具推理 大语言模型 计算化学 记忆增强 自适应决策
📋 核心要点
- 现有方法依赖单一工具或简单的启发式聚合,难以应对不同化学反应中工具性能的剧烈波动与预测冲突。
- ARMOR框架通过显式建模工具效用,构建层级化调用机制,并引入记忆增强推理来动态解决工具间的预测冲突。
- 实验证明ARMOR在处理复杂冲突反应时具有显著优势,性能全面超越现有的单工具及多工具集成基线模型。
📝 摘要(中文)
化学反应可行性预测是计算化学的核心问题,近期人工智能特别是大语言模型的发展为该领域提供了多种工具。然而,单一工具在不同反应中的表现差异巨大,难以在所有场景下保持稳健。为解决如何有效整合多工具以提升预测准确性的挑战,本文提出了ARMOR框架。该框架通过显式建模工具的特定效用,实现工具的自适应优先级排序,并解决潜在的工具冲突。与依赖简单聚合或启发式分配的现有方法不同,ARMOR将工具组织为层级结构,优先调用高性能工具,并通过记忆增强推理解决冲突。在公开数据集上的实验表明,ARMOR在处理冲突预测时表现尤为突出,显著优于现有的单工具及多工具聚合基线方法。
🔬 方法详解
问题定义:论文旨在解决化学反应可行性预测中“工具性能异质性”的问题。现有方法往往盲目依赖单一模型或简单的投票机制,无法根据特定反应的化学特征动态选择最优工具,导致在复杂反应中预测准确率受限。
核心思路:核心思想是将多工具集成转化为一个“代理决策”过程。通过学习每个工具在不同化学上下文下的效用模式,实现工具的自适应优先级排序,并在出现冲突时利用记忆增强机制进行深度推理,而非简单的加权平均。
技术框架:ARMOR框架包含三个核心模块:工具效用建模模块(评估工具在特定反应下的置信度)、层级化调度器(根据效用动态分配工具优先级)、以及记忆增强推理引擎(负责整合多工具输出并解决冲突,输出最终预测结果)。
关键创新:最重要的创新在于引入了“效用感知”的层级化推理机制。它不仅考虑了工具的平均性能,还通过模式识别捕捉了工具在特定化学空间内的优势,实现了从“静态集成”到“动态代理推理”的范式转变。
关键设计:该框架采用了基于记忆增强的冲突解决策略,通过存储历史推理路径和成功案例,辅助模型在多工具预测不一致时进行逻辑推演,从而在不确定性较高的反应中实现更稳健的决策。
🖼️ 关键图片
📊 实验亮点
实验结果显示,ARMOR在公开基准数据集上显著优于所有对比基线,包括单一工具模型及现有的集成方法。特别是在工具预测结果存在冲突的“困难样本”上,ARMOR展现了极强的鲁棒性与准确性,证明了其通过记忆增强推理有效整合互补信息的能力,在提升预测上限方面具有显著优势。
🎯 应用场景
该研究主要应用于计算化学与药物研发领域,特别是在高通量筛选、合成路径规划及反应条件优化中具有重要价值。通过更精准地预测反应可行性,ARMOR能有效降低实验试错成本,加速新药发现与材料科学的研发进程,并为复杂化学系统的自动化决策提供技术支撑。
📄 摘要(原文)
Reaction feasibility prediction, as a fundamental problem in computational chemistry, has benefited from diverse tools enabled by recent advances in artificial intelligence, particularly large language models. However, the performance of individual tools varies substantially across reactions, making it difficult for any single tool to consistently perform well across all cases. This raises a critical challenge: how to effectively leverage multiple tools to obtain more accurate feasibility predictions. To address this, we propose ARMOR, an agentic framework that explicitly models tool-specific utilities, adaptively prioritizes tools, and further resolves the potential tool conflicts to produce the final prediction for each reaction. Unlike existing approaches that rely on simple aggregation or heuristic assignment over various tools, ARMOR organizes tools into a hierarchy that prioritizes top-performing tools and defers others when needed, characterizes their strengths through tool-specific patterns, and resolves conflicts via memoryaugmented reasoning. Extensive experiments on a public dataset demonstrate that ARMOR consistently outperforms strong baselines, including single-tool methods as well as various tool aggregation and tool selection approaches. Further analysis shows that the improvements are particularly significant on reactions with conflicting tool predictions, highlighting the effectiveness of ARMOR in leveraging the complementary strengths of multiple tools. The code is available via https://anonymous.4open.science/r/ARMOR-E13F.