Evolutionary Search for Automated Design of Uncertainty Quantification Methods

📄 arXiv: 2604.03473 📥 PDF

作者: Mikhail Seleznyov, Daniil Korbut, Viktor Moskvoretskii, Oleg Somov, Alexander Panchenko, Elena Tutubalina

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

利用LLM驱动的进化搜索自动设计不确定性量化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 不确定性量化 大型语言模型 进化搜索 自动化设计 幻觉检测

📋 核心要点

  1. 现有不确定性量化(UQ)方法主要依赖领域知识和启发式方法手工设计,限制了其可扩展性和通用性。
  2. 本文提出利用LLM驱动的进化搜索,自动发现无监督的UQ方法,这些方法以Python程序的形式表示。
  3. 实验表明,进化出的方法在原子声明验证任务上优于人工设计的基线,且具备良好的分布外泛化能力。

📝 摘要(中文)

本文提出了一种利用大型语言模型(LLM)驱动的进化搜索方法,用于自动发现无监督的不确定性量化(UQ)方法,这些方法被表示为Python程序。与传统的手工设计方法不同,该方法旨在提高UQ方法的可扩展性和通用性。在原子声明验证任务上,进化出的方法优于人工设计的强基线方法,在9个数据集上实现了高达6.7%的相对ROC-AUC提升,并且具有强大的分布外泛化能力。定性分析表明,不同的LLM采用了不同的进化策略。实验结果表明,LLM驱动的进化搜索是自动、可解释的幻觉检测器设计的一种有前景的范例。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)不确定性量化(UQ)方法设计的问题。现有方法主要依赖人工设计,受限于领域知识和启发式方法,难以扩展到新的LLM和任务,且缺乏通用性。此外,人工设计的UQ方法可能存在偏差,难以充分利用LLM的内在能力。

核心思路:论文的核心思路是利用LLM作为代码生成器,通过进化搜索算法自动生成UQ方法的Python程序。这种方法将UQ方法的设计过程转化为一个搜索问题,利用LLM的强大代码生成能力探索更广阔的UQ方法空间,从而发现更有效、更通用的UQ方法。

技术框架:该方法主要包含以下几个阶段:1) 初始化种群:随机生成一组Python程序,作为初始的UQ方法集合。2) 评估:在给定的数据集上评估每个UQ方法的性能。3) 选择:根据性能指标(如ROC-AUC)选择表现最好的UQ方法。4) 变异:利用LLM对选定的UQ方法进行变异,生成新的UQ方法。变异操作包括代码修改、参数调整等。5) 重复步骤2-4,直到达到预定的迭代次数或性能指标。

关键创新:最重要的技术创新点在于利用LLM驱动的进化搜索自动设计UQ方法。与传统的手工设计方法相比,该方法能够自动探索更广阔的UQ方法空间,发现更有效、更通用的UQ方法。此外,该方法还可以根据不同的LLM和任务自动调整UQ方法的设计,从而提高UQ方法的适应性。

关键设计:论文中,LLM被用作代码生成器,负责生成和变异UQ方法的Python程序。进化搜索算法负责指导搜索过程,选择表现最好的UQ方法,并利用LLM对其进行变异。性能指标(如ROC-AUC)用于评估UQ方法的性能。论文还对不同的LLM(如Claude和GPT)进行了实验,发现它们采用了不同的进化策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM驱动的进化搜索方法能够自动发现优于人工设计的UQ方法。在原子声明验证任务上,进化出的方法在9个数据集上实现了高达6.7%的相对ROC-AUC提升,并且具有强大的分布外泛化能力。定性分析表明,不同的LLM采用了不同的进化策略,例如Claude倾向于设计高特征数量的线性估计器,而GPT倾向于更简单、更易于解释的位置加权方案。

🎯 应用场景

该研究成果可应用于各种需要不确定性量化的LLM应用场景,例如:自动内容审核、虚假信息检测、医疗诊断辅助等。通过自动设计高效的UQ方法,可以提高LLM应用的可靠性和安全性,降低风险,并促进LLM在更多领域的应用。

📄 摘要(原文)

Uncertainty quantification (UQ) methods for large language models are predominantly designed by hand based on domain knowledge and heuristics, limiting their scalability and generality. We apply LLM-powered evolutionary search to automatically discover unsupervised UQ methods represented as Python programs. On the task of atomic claim verification, our evolved methods outperform strong manually-designed baselines, achieving up to 6.7% relative ROC-AUC improvement across 9 datasets while generalizing robustly out-of-distribution. Qualitative analysis reveals that different LLMs employ qualitatively distinct evolutionary strategies: Claude models consistently design high-feature-count linear estimators, while Gpt-oss-120B gravitates toward simpler and more interpretable positional weighting schemes. Surprisingly, only Sonnet 4.5 and Opus 4.5 reliably leverage increased method complexity to improve performance -- Opus 4.6 shows an unexpected regression relative to its predecessor. Overall, our results indicate that LLM-powered evolutionary search is a promising paradigm for automated, interpretable hallucination detector design.