Mitigating Legibility Tax with Decoupled Prover-Verifier Games
作者: Yegon Kim, Juho Lee
分类: cs.AI
发布日期: 2026-02-26
💡 一句话要点
提出解耦的证明者-验证者博弈,缓解大模型输出可验证性与准确性之间的权衡问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可验证性 证明者-验证者博弈 解耦训练 可读性税
📋 核心要点
- 现有证明者-验证者方法在提高模型输出可验证性的同时,会牺牲模型本身的准确性,即存在“可读性税”。
- 论文提出解耦的证明者-验证者博弈,训练一个翻译器模型,将求解器的输出转换为可检查的形式,从而分离正确性和可检查性。
- 通过解耦训练,可以在不牺牲求解器准确性的前提下,提高模型输出的可验证性,缓解“可读性税”问题。
📝 摘要(中文)
随着大型语言模型能力的不断增强,确保其输出能够被能力较弱的系统轻松验证至关重要。证明者-验证者博弈可以用来提高模型输出的可检查性,但与仅训练以最大化正确性的基线相比,准确性有所下降,这种现象被称为“可读性税”。我们提出了一种解决方案,将正确性与可检查性条件解耦,转而训练一个“翻译器”模型,将固定求解器模型的解决方案转换为可检查的形式。这允许我们首先训练求解器以最大化正确性,然后训练翻译器将求解器的输出翻译成可检查的形式,同时保留求解器的答案。为了适应这种新的翻译目标,我们构建了一个解耦的证明者-验证者博弈,其中均衡对应于忠实且可检查的翻译器。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)输出的可验证性问题。现有的证明者-验证者博弈方法虽然可以提高输出的可验证性,但通常会导致模型准确性的下降,即“可读性税”。这种权衡限制了LLM在需要高可信度和可解释性的场景中的应用。
核心思路:论文的核心思路是将正确性(求解器的准确性)和可检查性(输出的可验证性)解耦。通过训练一个独立的“翻译器”模型,将求解器的输出转换为易于验证的形式,从而避免直接优化求解器的可检查性,减少对求解器准确性的影响。
技术框架:整体框架包含两个主要模块:一个预训练的“求解器”模型和一个“翻译器”模型。求解器负责生成问题的解决方案,翻译器则负责将求解器的输出转换为可验证的形式。训练过程分为两个阶段:首先,训练求解器以最大化正确性;然后,固定求解器,训练翻译器以生成可检查的输出,同时保持与求解器输出的一致性。论文构建了一个解耦的证明者-验证者博弈,用于训练翻译器。
关键创新:最关键的创新在于将正确性和可检查性解耦,并通过独立的翻译器模型来实现可验证性。与传统的证明者-验证者方法相比,这种解耦方式避免了直接优化求解器的可检查性,从而减少了对求解器准确性的影响。
关键设计:论文设计了一个解耦的证明者-验证者博弈,其中翻译器的目标是生成既忠实于求解器输出,又易于验证的输出。具体的损失函数设计需要根据具体的任务和模型结构进行调整,但通常会包含两部分:一部分用于衡量翻译器输出与求解器输出的一致性,另一部分用于衡量翻译器输出的可检查性。具体的网络结构选择取决于求解器和翻译器的类型,可以是Transformer或其他适合序列到序列任务的模型。
🖼️ 关键图片
📊 实验亮点
论文提出的解耦证明者-验证者博弈能够有效缓解“可读性税”问题,在提高模型输出可验证性的同时,保持甚至提升了模型的准确性。具体的实验结果(具体数值未知)表明,与传统的证明者-验证者方法相比,该方法在可验证性和准确性之间取得了更好的平衡。
🎯 应用场景
该研究成果可应用于需要高可信度和可解释性的领域,例如金融风控、医疗诊断、法律咨询等。通过提高模型输出的可验证性,可以增强用户对模型决策的信任,并促进模型在这些领域的广泛应用。未来的研究可以探索更有效的翻译器训练方法,以及如何将该方法应用于更复杂的任务。
📄 摘要(原文)
As large language models become increasingly capable, it is critical that their outputs can be easily checked by less capable systems. Prover-verifier games can be used to improve checkability of model outputs, but display a degradation in accuracy compared to a baseline trained only to maximize correctness -- a phenonemon named legibility tax. We propose a solution by decoupling the correctness from the checkability condition and instead training a "translator" model that turns a fixed solver model's solution into a checkable form. This allows us to first train the solver to maximize correctness, and then train the translator to translate the solver into a checkable form while retaining the solver's answer. To accommodate this new objective of translation, we formulate a decoupled prover-verifier game where the equilibria correspond to faithful and checkable translators.