Evolutionary Search for Automated Design of Uncertainty Quantification Methods

作者: Mikhail Seleznyov, Daniil Korbut, Viktor Moskvoretskii, Oleg Somov, Alexander Panchenko, Elena Tutubalina

分类: cs.CL, cs.AI

发布日期: 2026-04-07

💡 一句话要点

利用LLM驱动的进化搜索自动设计不确定性量化方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 不确定性量化 大型语言模型 进化搜索 自动化设计 幻觉检测

📋 核心要点

现有不确定性量化（UQ）方法主要依赖领域知识和启发式方法手工设计，限制了其可扩展性和通用性。
本文提出利用LLM驱动的进化搜索，自动发现无监督的UQ方法，这些方法以Python程序的形式表示。
实验表明，进化出的方法在原子声明验证任务上优于人工设计的基线，且具备良好的分布外泛化能力。

📝 摘要（中文）

本文提出了一种利用大型语言模型（LLM）驱动的进化搜索方法，用于自动发现无监督的不确定性量化（UQ）方法，这些方法被表示为Python程序。与传统的手工设计方法不同，该方法旨在提高UQ方法的可扩展性和通用性。在原子声明验证任务上，进化出的方法优于人工设计的强基线方法，在9个数据集上实现了高达6.7%的相对ROC-AUC提升，并且具有强大的分布外泛化能力。定性分析表明，不同的LLM采用了不同的进化策略。实验结果表明，LLM驱动的进化搜索是自动、可解释的幻觉检测器设计的一种有前景的范例。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）不确定性量化（UQ）方法设计的问题。现有方法主要依赖人工设计，受限于领域知识和启发式方法，难以扩展到新的LLM和任务，且缺乏通用性。此外，人工设计的UQ方法可能存在偏差，难以充分利用LLM的内在能力。

核心思路：论文的核心思路是利用LLM作为代码生成器，通过进化搜索算法自动生成UQ方法的Python程序。这种方法将UQ方法的设计过程转化为一个搜索问题，利用LLM的强大代码生成能力探索更广阔的UQ方法空间，从而发现更有效、更通用的UQ方法。

技术框架：该方法主要包含以下几个阶段：1) 初始化种群：随机生成一组Python程序，作为初始的UQ方法集合。2) 评估：在给定的数据集上评估每个UQ方法的性能。3) 选择：根据性能指标（如ROC-AUC）选择表现最好的UQ方法。4) 变异：利用LLM对选定的UQ方法进行变异，生成新的UQ方法。变异操作包括代码修改、参数调整等。5) 重复步骤2-4，直到达到预定的迭代次数或性能指标。

关键创新：最重要的技术创新点在于利用LLM驱动的进化搜索自动设计UQ方法。与传统的手工设计方法相比，该方法能够自动探索更广阔的UQ方法空间，发现更有效、更通用的UQ方法。此外，该方法还可以根据不同的LLM和任务自动调整UQ方法的设计，从而提高UQ方法的适应性。

关键设计：论文中，LLM被用作代码生成器，负责生成和变异UQ方法的Python程序。进化搜索算法负责指导搜索过程，选择表现最好的UQ方法，并利用LLM对其进行变异。性能指标（如ROC-AUC）用于评估UQ方法的性能。论文还对不同的LLM（如Claude和GPT）进行了实验，发现它们采用了不同的进化策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM驱动的进化搜索方法能够自动发现优于人工设计的UQ方法。在原子声明验证任务上，进化出的方法在9个数据集上实现了高达6.7%的相对ROC-AUC提升，并且具有强大的分布外泛化能力。定性分析表明，不同的LLM采用了不同的进化策略，例如Claude倾向于设计高特征数量的线性估计器，而GPT倾向于更简单、更易于解释的位置加权方案。

🎯 应用场景

该研究成果可应用于各种需要不确定性量化的LLM应用场景，例如：自动内容审核、虚假信息检测、医疗诊断辅助等。通过自动设计高效的UQ方法，可以提高LLM应用的可靠性和安全性，降低风险，并促进LLM在更多领域的应用。

📄 摘要（原文）

Uncertainty quantification (UQ) methods for large language models are predominantly designed by hand based on domain knowledge and heuristics, limiting their scalability and generality. We apply LLM-powered evolutionary search to automatically discover unsupervised UQ methods represented as Python programs. On the task of atomic claim verification, our evolved methods outperform strong manually-designed baselines, achieving up to 6.7% relative ROC-AUC improvement across 9 datasets while generalizing robustly out-of-distribution. Qualitative analysis reveals that different LLMs employ qualitatively distinct evolutionary strategies: Claude models consistently design high-feature-count linear estimators, while Gpt-oss-120B gravitates toward simpler and more interpretable positional weighting schemes. Surprisingly, only Sonnet 4.5 and Opus 4.5 reliably leverage increased method complexity to improve performance -- Opus 4.6 shows an unexpected regression relative to its predecessor. Overall, our results indicate that LLM-powered evolutionary search is a promising paradigm for automated, interpretable hallucination detector design.

Evolutionary Search for Automated Design of Uncertainty Quantification Methods

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理