Mitigating Legibility Tax with Decoupled Prover-Verifier Games

作者: Yegon Kim, Juho Lee

分类: cs.AI

发布日期: 2026-02-26

💡 一句话要点

提出解耦的证明者-验证者博弈，缓解大模型输出可验证性与准确性之间的权衡问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可验证性 证明者-验证者博弈 解耦训练 可读性税

📋 核心要点

现有证明者-验证者方法在提高模型输出可验证性的同时，会牺牲模型本身的准确性，即存在“可读性税”。
论文提出解耦的证明者-验证者博弈，训练一个翻译器模型，将求解器的输出转换为可检查的形式，从而分离正确性和可检查性。
通过解耦训练，可以在不牺牲求解器准确性的前提下，提高模型输出的可验证性，缓解“可读性税”问题。

📝 摘要（中文）

随着大型语言模型能力的不断增强，确保其输出能够被能力较弱的系统轻松验证至关重要。证明者-验证者博弈可以用来提高模型输出的可检查性，但与仅训练以最大化正确性的基线相比，准确性有所下降，这种现象被称为“可读性税”。我们提出了一种解决方案，将正确性与可检查性条件解耦，转而训练一个“翻译器”模型，将固定求解器模型的解决方案转换为可检查的形式。这允许我们首先训练求解器以最大化正确性，然后训练翻译器将求解器的输出翻译成可检查的形式，同时保留求解器的答案。为了适应这种新的翻译目标，我们构建了一个解耦的证明者-验证者博弈，其中均衡对应于忠实且可检查的翻译器。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）输出的可验证性问题。现有的证明者-验证者博弈方法虽然可以提高输出的可验证性，但通常会导致模型准确性的下降，即“可读性税”。这种权衡限制了LLM在需要高可信度和可解释性的场景中的应用。

核心思路：论文的核心思路是将正确性（求解器的准确性）和可检查性（输出的可验证性）解耦。通过训练一个独立的“翻译器”模型，将求解器的输出转换为易于验证的形式，从而避免直接优化求解器的可检查性，减少对求解器准确性的影响。

技术框架：整体框架包含两个主要模块：一个预训练的“求解器”模型和一个“翻译器”模型。求解器负责生成问题的解决方案，翻译器则负责将求解器的输出转换为可验证的形式。训练过程分为两个阶段：首先，训练求解器以最大化正确性；然后，固定求解器，训练翻译器以生成可检查的输出，同时保持与求解器输出的一致性。论文构建了一个解耦的证明者-验证者博弈，用于训练翻译器。

关键创新：最关键的创新在于将正确性和可检查性解耦，并通过独立的翻译器模型来实现可验证性。与传统的证明者-验证者方法相比，这种解耦方式避免了直接优化求解器的可检查性，从而减少了对求解器准确性的影响。

关键设计：论文设计了一个解耦的证明者-验证者博弈，其中翻译器的目标是生成既忠实于求解器输出，又易于验证的输出。具体的损失函数设计需要根据具体的任务和模型结构进行调整，但通常会包含两部分：一部分用于衡量翻译器输出与求解器输出的一致性，另一部分用于衡量翻译器输出的可检查性。具体的网络结构选择取决于求解器和翻译器的类型，可以是Transformer或其他适合序列到序列任务的模型。

🖼️ 关键图片

📊 实验亮点

论文提出的解耦证明者-验证者博弈能够有效缓解“可读性税”问题，在提高模型输出可验证性的同时，保持甚至提升了模型的准确性。具体的实验结果（具体数值未知）表明，与传统的证明者-验证者方法相比，该方法在可验证性和准确性之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于需要高可信度和可解释性的领域，例如金融风控、医疗诊断、法律咨询等。通过提高模型输出的可验证性，可以增强用户对模型决策的信任，并促进模型在这些领域的广泛应用。未来的研究可以探索更有效的翻译器训练方法，以及如何将该方法应用于更复杂的任务。

📄 摘要（原文）

As large language models become increasingly capable, it is critical that their outputs can be easily checked by less capable systems. Prover-verifier games can be used to improve checkability of model outputs, but display a degradation in accuracy compared to a baseline trained only to maximize correctness -- a phenonemon named legibility tax. We propose a solution by decoupling the correctness from the checkability condition and instead training a "translator" model that turns a fixed solver model's solution into a checkable form. This allows us to first train the solver to maximize correctness, and then train the translator to translate the solver into a checkable form while retaining the solver's answer. To accommodate this new objective of translation, we formulate a decoupled prover-verifier game where the equilibria correspond to faithful and checkable translators.

Mitigating Legibility Tax with Decoupled Prover-Verifier Games

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理