From Blind Guess to Informed Judgment: Teaching LLMs to Evaluate Materials by Building Knowledge-Augmented Preference Signals

作者: Yeyong Yu, Wenya Hu, Xing Wu, Quan Qian

分类: cs.CL

发布日期: 2026-05-28

备注: 33 pages, 5 figures

💡 一句话要点

MaterEval：构建知识增强偏好信号，指导LLM进行材料评估

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 材料发现 大型语言模型 偏好学习 知识增强 高熵合金

📋 核心要点

材料发现面临瓶颈，现有方法难以对大量候选材料进行可靠评估，缺乏专家知识和可解释性。
MaterEval框架通过构建知识增强的偏好信号，引导LLM学习专家规则，实现更准确和可信的材料评估。
实验表明，小型开源LLM在HEA评估中，准确性和一致性显著提升，性能接近闭源LLM，降低了成本。

📝 摘要（中文）

随着候选材料生成和高通量实验的进步，材料发现的主要瓶颈正从属性预测转向对大量候选材料进行可靠评估。我们提出了一个知识增强偏好信号框架MaterEval，它可以自动为同一候选材料生成两个评估：一个遵循专家规则并提供支持证据的知情判断，以及一个移除规则的盲猜。通过将这两个评估配对作为偏好数据，我们引导原本缺乏材料特定标准的大型语言模型（LLM）从直觉判断转向由明确证据支持的可靠评估。为了平衡吞吐量、成本和可靠性，我们进一步引入了一种快速-慢速推理方案，将大规模快速筛选与小规模子集的深入审查分离。以高熵合金（HEA）评估为例，我们表明，在没有外部检索且仅依赖于内部能力的情况下，小型开源LLM在准确性、结论一致性和证据辨别方面取得了显著提高，接近于基于规则的闭源LLM的性能。这些结果表明，专家规则可以系统地转化为可学习的偏好信号，从而为自主材料发现循环提供低成本且可部署的评估模块。

🔬 方法详解

问题定义：论文旨在解决材料发现领域中，对大量候选材料进行可靠评估的难题。现有方法，如传统的属性预测，难以满足高通量实验的需求，并且缺乏专家知识的指导和可解释性，导致评估结果不够准确和可信。

核心思路：论文的核心思路是将专家规则转化为可学习的偏好信号，通过对比知情判断（遵循专家规则）和盲猜（移除规则）两种评估结果，构建偏好数据，从而引导LLM学习材料评估的内在逻辑。这种方法利用了LLM的泛化能力，使其能够从偏好数据中学习到材料评估的隐含知识。

技术框架：MaterEval框架包含以下几个主要模块：1) 数据生成模块：针对同一候选材料，生成知情判断和盲猜两种评估结果。知情判断基于专家规则，并提供支持证据；盲猜则移除规则，模拟LLM的初始状态。2) 偏好信号构建模块：将知情判断和盲猜配对，构建偏好数据，用于训练LLM。3) LLM训练模块：使用偏好数据训练LLM，使其学习专家规则和材料评估的内在逻辑。4) 快速-慢速推理模块：采用两阶段评估策略，首先进行大规模快速筛选，然后对筛选出的子集进行深入审查，以平衡吞吐量、成本和可靠性。

关键创新：最重要的技术创新点在于将专家规则转化为可学习的偏好信号，从而能够有效地引导LLM学习材料评估的内在逻辑。与现有方法相比，MaterEval不需要外部检索，而是利用LLM内部的知识和推理能力，实现了更高效和可扩展的材料评估。

关键设计：论文采用对比学习的方式训练LLM，损失函数旨在最大化知情判断的得分，同时最小化盲猜的得分。快速-慢速推理模块中，快速筛选阶段采用简单的规则或模型，而深入审查阶段则采用更复杂的LLM进行评估。具体的参数设置和网络结构未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在没有外部检索的情况下，小型开源LLM在HEA评估中，准确性、结论一致性和证据辨别方面取得了显著提高，性能接近于基于规则的闭源LLM。这表明专家规则可以有效地转化为可学习的偏好信号，并且LLM可以通过学习这些信号来提升材料评估能力。

🎯 应用场景

该研究成果可应用于各种材料发现领域，例如高熵合金、催化剂、电池材料等。通过构建低成本且可部署的评估模块，可以加速自主材料发现循环，降低实验成本，并提高新材料的发现效率。该方法还有潜力扩展到其他需要专家知识的评估任务中。

📄 摘要（原文）

As candidate generation and high-throughput experimentation advance, the primary bottleneck in materials discovery is shifting from property prediction to making reliable evaluations among massive candidate sets. We propose a Knowledge-Augmented Preference Signals Framework, MaterEval, that automatically produces, for the same candidate, two evaluations: an informed judgment that follows expert rules and provides supporting evidence, and a rule-removed blind guess. By pairing the two evaluations as preference data, we guide general-purpose large language models (LLMs), originally lacking materials-specific criteria, from intuitive judgment toward reliable evaluation supported by explicit evidence. To balance throughput, cost, and reliability, we further introduce a fast-slow reasoning scheme that decouples large-scale rapid screening from in-depth review on a small subset. Using high-entropy alloy (HEA) assessment as a case study, we show that, without external retrieval and relying solely on internalized capabilities, small open-source LLMs achieve substantial gains in accuracy, conclusion consistency, and evidence discrimination, approaching the performance of rule-based closed-source LLMs. These results demonstrate that expert rules can be systematically transformed into learnable preference signals, enabling a low-cost and deployable evaluation module for autonomous materials discovery loops.

From Blind Guess to Informed Judgment: Teaching LLMs to Evaluate Materials by Building Knowledge-Augmented Preference Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理