Can We Trust a Black-box LLM? LLM Untrustworthy Boundary Detection via Bias-Diffusion and Multi-Agent Reinforcement Learning

📄 arXiv: 2604.05483v1 📥 PDF

作者: Xiaotian Zhou, Di Tang, Xiaofeng Wang, Xiaozhong Liu

分类: cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出GMRL-BD算法,通过偏差扩散和多智能体强化学习检测LLM不可信边界

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 不可信边界检测 多智能体强化学习 知识图谱 偏差扩散

📋 核心要点

  1. 现有LLM在特定主题上可能产生偏差,但缺乏有效方法识别其可信边界,限制了实际应用。
  2. 提出GMRL-BD算法,利用知识图谱和多智能体强化学习,高效探索LLM的不可信主题边界。
  3. 实验表明GMRL-BD算法仅需少量查询即可有效检测LLM的不可信边界,并构建了包含多种LLM偏差主题的新数据集。

📝 摘要(中文)

大型语言模型(LLM)在回答各种主题的问题方面表现出很高的能力。然而,这些模型有时会产生有偏见、意识形态化或不正确的回答,如果不能清楚地了解哪些主题的答案是可信的,这将限制它们的应用。本研究提出了一种名为GMRL-BD的新算法,旨在识别给定LLM的不可信边界(在主题方面),该算法以黑盒方式访问LLM,并在特定的查询约束下进行。基于从维基百科派生的通用知识图(KG),我们的算法结合了多个强化学习智能体,以有效地识别LLM可能产生有偏见答案的主题(KG中的一些节点)。实验证明了该算法的效率,只需对LLM进行有限的查询即可检测到不可信边界。此外,我们还发布了一个新的数据集,其中包含流行的LLM,包括Llama2、Vicuna、Falcon、Qwen2、Gemma2和Yi-1.5,以及指示每个LLM可能存在偏差的主题的标签。

🔬 方法详解

问题定义:论文旨在解决如何高效识别黑盒LLM在哪些主题上会产生不可信回答的问题。现有方法通常需要大量的查询和标注,成本高昂,且难以覆盖所有潜在的偏差主题。因此,需要一种能够在有限查询条件下,快速准确地定位LLM不可信边界的方法。

核心思路:论文的核心思路是利用知识图谱(KG)来表示主题空间,并采用多智能体强化学习(MARL)来探索KG,寻找LLM容易产生偏差的节点(主题)。通过偏差扩散机制,可以从已知的偏差节点推断出相邻节点的偏差可能性,从而加速探索过程。

技术框架:GMRL-BD算法的整体框架包括以下几个主要模块:1) 知识图谱构建:基于维基百科构建通用知识图谱,节点代表主题,边代表主题之间的关系。2) 多智能体强化学习:多个智能体在知识图谱上进行探索,每个智能体代表一种探索策略。3) 偏差扩散:利用已知的偏差信息,通过图神经网络等方法,预测相邻节点的偏差可能性。4) 查询与评估:智能体选择节点进行查询,并根据LLM的回答评估该节点是否存在偏差。5) 奖励函数设计:根据评估结果,设计奖励函数,引导智能体探索更有可能存在偏差的节点。

关键创新:该论文的关键创新在于将多智能体强化学习和偏差扩散机制相结合,用于探索LLM的不可信边界。与传统的单智能体强化学习相比,多智能体可以并行探索不同的主题,提高探索效率。偏差扩散机制可以利用已知的偏差信息,加速探索过程,减少查询次数。

关键设计:在多智能体强化学习中,每个智能体采用独立的策略网络,并共享一个全局的奖励函数。奖励函数的设计至关重要,需要平衡探索和利用,鼓励智能体探索未知的节点,同时利用已知的偏差信息。偏差扩散机制可以采用图卷积网络(GCN)等图神经网络,学习节点的表示,并预测节点的偏差可能性。查询策略的设计也需要考虑查询成本和信息增益,选择最有可能揭示偏差的查询。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GMRL-BD算法在检测LLM不可信边界方面具有很高的效率,仅需少量查询即可达到较高的准确率。与基线方法相比,GMRL-BD算法在相同查询次数下,能够检测到更多的偏差主题。此外,该论文还发布了一个包含多种LLM偏差主题的新数据集,为后续研究提供了benchmark。

🎯 应用场景

该研究成果可应用于LLM安全评估、内容审核、智能客服等领域。通过识别LLM的不可信边界,可以避免LLM在敏感或错误的主题上产生误导性或有害的回答,提高LLM的可靠性和安全性。此外,该方法还可以用于评估不同LLM的偏差程度,为用户选择合适的LLM提供参考。

📄 摘要(原文)

Large Language Models (LLMs) have shown a high capability in answering questions on a diverse range of topics. However, these models sometimes produce biased, ideologized or incorrect responses, limiting their applications if there is no clear understanding of which topics their answers can be trusted. In this research, we introduce a novel algorithm, named as GMRL-BD, designed to identify the untrustworthy boundaries (in terms of topics) of a given LLM, with black-box access to the LLM and under specific query constraints. Based on a general Knowledge Graph (KG) derived from Wikipedia, our algorithm incorporates with multiple reinforcement learning agents to efficiently identify topics (some nodes in KG) where the LLM is likely to generate biased answers. Our experiments demonstrated the efficiency of our algorithm, which can detect the untrustworthy boundary with just limited queries to the LLM. Additionally, we have released a new dataset containing popular LLMs including Llama2, Vicuna, Falcon, Qwen2, Gemma2 and Yi-1.5, along with labels indicating the topics on which each LLM is likely to be biased.