Why Trust in AI May Be Inevitable

📄 arXiv: 2502.20701v1 📥 PDF

作者: Nghi Truong, Phanish Puranam, Ilia Testlin

分类: cs.AI, cs.CY, cs.HC

发布日期: 2025-02-28


💡 一句话要点

AI信任或不可避免:解释失败导致人类默认信任AI

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 AI信任 可解释性AI 知识网络 大型语言模型

📋 核心要点

  1. 现有方法依赖解释来建立人对AI的信任,但忽略了解释本身可能失败的情况。
  2. 论文将解释形式化为知识网络搜索,揭示即使在理想条件下,由于时间限制,解释也可能失败。
  3. 研究表明,AI系统复杂性增加可能导致人类放弃对解释的追求,转而默认信任AI,存在潜在风险。

📝 摘要(中文)

在人机交互中,解释通常被认为是建立对AI系统信任的必要条件。然而,本文认为信任可能是一种先决条件,因为有时解释是不可能的。这一结论源于将解释形式化为知识网络中的搜索过程,解释者必须在有限时间内找到共享概念与待解释概念之间的路径。模型表明,即使在理论上的理想条件下——参与者理性、诚实、积极、能够完美沟通且拥有重叠知识——解释也可能失败。这是因为成功的解释不仅需要共享知识的存在,还需要在时间限制内找到连接路径,因此,在发现共享知识之前停止解释尝试可能是理性的。这一结果对人机交互具有重要意义:随着AI系统,特别是大型语言模型,变得更加复杂并能够生成表面上令人信服但虚假的解释,人类可能会默认信任而不是要求真正的解释。这会带来错位信任和不完全知识整合的风险。

🔬 方法详解

问题定义:论文旨在解决人机交互中,人类对AI信任建立的问题。现有方法普遍认为,通过提供解释可以增强人类对AI的信任。然而,这些方法忽略了一个关键问题:在某些情况下,由于知识结构复杂、搜索时间有限等因素,AI可能无法提供有效的解释。这导致人类可能因为缺乏解释而难以信任AI,或者接受了不准确的解释。

核心思路:论文的核心思路是将解释过程建模为在知识网络中寻找路径的过程。解释者(AI或人类)需要在共享知识网络中,找到从已知概念到待解释概念的连接路径。由于搜索空间巨大且时间有限,即使存在可行的解释路径,解释者也可能无法在规定时间内找到。因此,信任可能成为一种先决条件,即在缺乏充分解释的情况下,人类可能不得不选择信任AI。

技术框架:论文构建了一个形式化的模型来描述解释过程。该模型包含以下关键要素:知识网络(表示共享知识),解释者(尝试寻找解释路径的智能体),目标概念(需要解释的概念),以及时间限制。解释者通过在知识网络中搜索,试图找到从已知概念到目标概念的路径。搜索过程受到时间限制,如果超过时间限制仍未找到有效路径,则解释失败。模型假设参与者是理性的、诚实的、积极的,并且可以完美沟通,但仍然存在解释失败的可能性。

关键创新:论文最重要的技术创新在于将解释过程形式化为知识网络搜索问题,并证明即使在理想条件下,由于时间限制,解释也可能失败。这挑战了传统观点,即解释是建立信任的必要条件。论文还强调了大型语言模型可能生成虚假解释的风险,以及人类可能因此默认信任AI的潜在后果。

关键设计:论文的关键设计在于对知识网络的抽象表示,以及对解释者搜索过程的建模。具体的技术细节包括:知识网络的节点表示概念,边表示概念之间的关系;搜索算法可以是任何有效的图搜索算法,如深度优先搜索或广度优先搜索;时间限制可以根据实际情况进行调整。模型没有涉及具体的参数设置或损失函数,因为其重点在于理论分析而非具体的算法实现。

📊 实验亮点

论文通过形式化模型证明,即使在理想条件下,解释也可能失败,从而挑战了“解释是建立信任的必要条件”的传统观点。这一结论对人机交互设计和AI伦理具有重要启示意义,提醒人们关注AI系统可能产生的虚假解释以及由此带来的潜在风险。

🎯 应用场景

该研究成果对人机交互设计、AI伦理和信任管理具有重要意义。它可以帮助我们更好地理解人类如何与AI系统互动,以及如何设计更值得信任的AI系统。此外,该研究还提醒我们警惕AI系统可能提供的虚假解释,并鼓励我们发展更可靠的AI解释方法。

📄 摘要(原文)

In human-AI interactions, explanation is widely seen as necessary for enabling trust in AI systems. We argue that trust, however, may be a pre-requisite because explanation is sometimes impossible. We derive this result from a formalization of explanation as a search process through knowledge networks, where explainers must find paths between shared concepts and the concept to be explained, within finite time. Our model reveals that explanation can fail even under theoretically ideal conditions - when actors are rational, honest, motivated, can communicate perfectly, and possess overlapping knowledge. This is because successful explanation requires not just the existence of shared knowledge but also finding the connection path within time constraints, and it can therefore be rational to cease attempts at explanation before the shared knowledge is discovered. This result has important implications for human-AI interaction: as AI systems, particularly Large Language Models, become more sophisticated and able to generate superficially compelling but spurious explanations, humans may default to trust rather than demand genuine explanations. This creates risks of both misplaced trust and imperfect knowledge integration.