Mitigating Legibility Tax with Decoupled Prover-Verifier Games

📄 arXiv: 2602.23248 📥 PDF

作者: Yegon Kim, Juho Lee

分类: cs.AI

发布日期: 2026-02-28


💡 一句话要点

提出解耦的证明者-验证者博弈,缓解大语言模型的可读性税问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 可检查性 证明者-验证者博弈 解耦训练

📋 核心要点

  1. 现有证明者-验证者博弈存在“可读性税”问题,即为了可检查性牺牲了模型准确性。
  2. 核心思想是将正确性与可检查性解耦,训练翻译器将求解器的结果转化为可检查形式。
  3. 通过解耦的证明者-验证者博弈,训练出忠实且可检查的翻译器,缓解可读性税。

📝 摘要(中文)

随着大型语言模型能力的不断增强,确保其输出能够被能力较弱的系统轻松检查至关重要。证明者-验证者博弈可以用来提高模型输出的可检查性,但与仅训练以最大化正确性的基线相比,准确性有所下降,这种现象被称为可读性税。我们提出了一种解决方案,将正确性与可检查性条件解耦,转而训练一个“翻译器”模型,将固定求解器模型的解决方案转换为可检查的形式。这允许我们首先训练求解器以最大化正确性,然后训练翻译器将求解器翻译成可检查的形式,同时保留求解器的答案。为了适应这种新的翻译目标,我们制定了一个解耦的证明者-验证者博弈,其中均衡对应于忠实且可检查的翻译器。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)输出的可检查性问题。现有的证明者-验证者博弈虽然提高了可检查性,但会牺牲模型的准确性,即存在“可读性税”。这种权衡限制了LLM在需要高可信度和可解释性的场景中的应用。

核心思路:论文的核心思路是将求解器(Solver)的训练目标(最大化正确性)与翻译器(Translator)的训练目标(生成可检查的输出)解耦。首先训练一个高性能的求解器,然后训练一个翻译器将求解器的输出转换成易于验证的形式,同时保持求解器的答案不变。

技术框架:整体框架包含两个主要模块:求解器和翻译器。求解器负责生成问题的解决方案,翻译器负责将解决方案转换成可检查的形式。训练过程分为两个阶段:首先独立训练求解器以最大化正确性,然后使用解耦的证明者-验证者博弈训练翻译器。该博弈包含证明者(翻译器)和验证者,目标是找到一个均衡状态,使得翻译器能够生成既忠实于求解器答案又易于验证的输出。

关键创新:最关键的创新在于解耦了正确性和可检查性,避免了传统证明者-验证者博弈中存在的“可读性税”。通过引入翻译器,可以将求解器的性能与可检查性优化分离开来,从而在保证准确性的前提下提高可检查性。与现有方法的本质区别在于,现有方法通常将正确性和可检查性作为统一的优化目标,而本文将其解耦,分别优化。

关键设计:论文提出了一个解耦的证明者-验证者博弈,其损失函数的设计至关重要。损失函数需要同时考虑翻译器的忠实性(即翻译后的答案与求解器的答案一致)和可检查性(即验证者能够轻松验证翻译后的答案)。具体的损失函数形式未知,但可以推测其包含两部分:一部分衡量翻译后的答案与原始答案的差异,另一部分衡量验证者验证翻译后答案的难度。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

由于论文摘要中没有明确给出实验结果,因此无法总结具体的性能数据、对比基线和提升幅度。需要阅读论文全文才能了解实验细节和结果。但是,从摘要中可以推断,该方法旨在缓解“可读性税”,因此实验结果应该会显示在可检查性提高的同时,准确性没有显著下降。

🎯 应用场景

该研究成果可应用于需要高可信度和可解释性的大语言模型应用场景,例如金融风控、医疗诊断、法律咨询等。通过提高模型输出的可检查性,可以增强用户对模型的信任,并促进模型在这些关键领域的应用。未来,该方法可以扩展到其他类型的模型和任务中。

📄 摘要(原文)

As large language models become increasingly capable, it is critical that their outputs can be easily checked by less capable systems. Prover-verifier games can be used to improve checkability of model outputs, but display a degradation in accuracy compared to a baseline trained only to maximize correctness -- a phenonemon named legibility tax. We propose a solution by decoupling the correctness from the checkability condition and instead training a "translator" model that turns a fixed solver model's solution into a checkable form. This allows us to first train the solver to maximize correctness, and then train the translator to translate the solver into a checkable form while retaining the solver's answer. To accommodate this new objective of translation, we formulate a decoupled prover-verifier game where the equilibria correspond to faithful and checkable translators.