On scalable oversight with weak LLMs judging strong LLMs

作者: Zachary Kenton, Noah Y. Siegel, János Kramár, Jonah Brown-Cohen, Samuel Albanie, Jannis Bulian, Rishabh Agarwal, David Lindner, Yunhao Tang, Noah D. Goodman, Rohin Shah

分类: cs.LG

发布日期: 2024-07-05 (更新: 2024-07-12)

备注: 15 pages (53 including appendices). V2: minor correction to Figure 3; add Figure A.9 comparing open vs assigned consultancy; add a reference

💡 一句话要点

利用弱LLM作为裁判，评估强LLM的可扩展监督框架研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 可扩展监督 大型语言模型 AI安全 辩论 咨询 信息不对称 AI评估

📋 核心要点

现有AI监督方法难以扩展到超人AI，需要更有效的监督机制。
论文探索辩论和咨询两种可扩展监督协议，利用弱LLM作为裁判评估强LLM。
实验表明，辩论在信息不对称的QA任务中优于直接问答，且更强的辩论者能提升裁判准确性。

📝 摘要（中文）

本文研究了可扩展监督协议，旨在使人类能够准确地监督超人AI。我们研究了辩论（两个AI竞争以说服裁判）、咨询（单个AI试图说服提出问题的裁判）以及直接问答的基线方法（裁判直接回答问题而无需AI）。我们使用大型语言模型（LLM）作为AI代理和人类裁判的替代品，裁判模型弱于代理模型。我们在一系列裁判和代理之间的不对称性上进行了基准测试，将先前关于具有信息不对称的单个抽取式QA任务的研究扩展到包括数学、编码、逻辑和多模态推理不对称性。我们发现，当咨询者被随机分配为正确/错误答案辩护时，辩论在所有任务中都优于咨询。将辩论与直接问答进行比较，结果取决于任务类型：在具有信息不对称的抽取式QA任务中，辩论优于直接问答，但在没有信息不对称的其他任务中，结果好坏参半。先前的工作为辩论者/咨询者分配了一个要辩护的答案。当我们允许他们选择要辩护的答案时，我们发现裁判在辩论中比在咨询中更少被错误的答案说服。此外，我们发现更强的辩论者模型可以提高裁判的准确性，但不如之前的研究那样显著。

🔬 方法详解

问题定义：论文旨在解决如何有效监督能力超越人类的AI系统的问题。现有方法，例如直接问答，在面对超人AI时，人类裁判难以判断答案的正确性，因为人类可能缺乏相关知识或推理能力。这限制了AI系统的安全部署和发展。

核心思路：论文的核心思路是利用多个AI代理之间的互动，通过辩论或咨询的方式，让弱于代理的裁判（LLM）能够更好地评估强代理的答案。通过设计合适的协议，即使裁判自身不具备所有问题的专业知识，也能通过观察代理之间的互动来判断答案的合理性。

技术框架：论文主要研究三种框架：1) 直接问答：裁判直接回答问题；2) 咨询：一个AI代理（咨询者）尝试说服裁判，裁判可以提问；3) 辩论：两个AI代理（辩论者）就一个问题的不同答案进行辩论，裁判根据辩论内容做出判断。实验中，使用不同的LLM作为代理和裁判，并设计了多种任务，包括抽取式QA、数学、编码、逻辑和多模态推理。

关键创新：论文的关键创新在于探索了利用弱LLM作为裁判来监督强LLM的可行性。与以往研究不同，本文不仅关注信息不对称的QA任务，还扩展到更广泛的任务类型，并研究了不同监督协议（辩论和咨询）的性能。此外，论文还允许辩论者/咨询者选择自己要辩护的答案，更贴近实际应用场景。

关键设计：论文的关键设计包括：1) 任务选择：选择了多种不同类型的任务，以评估监督协议的泛化能力；2) 模型选择：使用了不同规模和能力的LLM作为代理和裁判，以模拟不同程度的能力不对称；3) 评估指标：使用了裁判的准确率作为评估指标，衡量监督协议的有效性；4) 辩论策略：允许辩论者选择自己要辩护的答案，并研究了不同辩论策略对裁判准确率的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在具有信息不对称的抽取式QA任务中，辩论优于直接问答。在其他任务中，结果取决于具体任务类型。当允许辩论者选择自己要辩护的答案时，裁判在辩论中更少被错误的答案说服。更强的辩论者模型可以提高裁判的准确性，但提升幅度不如之前的研究显著。

🎯 应用场景

该研究成果可应用于AI安全领域，例如构建更安全的AI助手、自动驾驶系统和金融风险管理系统。通过可扩展的监督协议，可以降低AI系统出错的风险，提高系统的可靠性和安全性。未来，该方法有望应用于更复杂的AI系统，例如通用人工智能。

📄 摘要（原文）

Scalable oversight protocols aim to enable humans to accurately supervise superhuman AI. In this paper we study debate, where two AI's compete to convince a judge; consultancy, where a single AI tries to convince a judge that asks questions; and compare to a baseline of direct question-answering, where the judge just answers outright without the AI. We use large language models (LLMs) as both AI agents and as stand-ins for human judges, taking the judge models to be weaker than agent models. We benchmark on a diverse range of asymmetries between judges and agents, extending previous work on a single extractive QA task with information asymmetry, to also include mathematics, coding, logic and multimodal reasoning asymmetries. We find that debate outperforms consultancy across all tasks when the consultant is randomly assigned to argue for the correct/incorrect answer. Comparing debate to direct question answering, the results depend on the type of task: in extractive QA tasks with information asymmetry debate outperforms direct question answering, but in other tasks without information asymmetry the results are mixed. Previous work assigned debaters/consultants an answer to argue for. When we allow them to instead choose which answer to argue for, we find judges are less frequently convinced by the wrong answer in debate than in consultancy. Further, we find that stronger debater models increase judge accuracy, though more modestly than in previous studies.

On scalable oversight with weak LLMs judging strong LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理