Debating the Unspoken: Role-Anchored Multi-Agent Reasoning for Half-Truth Detection

📄 arXiv: 2604.19005v1 📥 PDF

作者: Yixuan Tang, Yirui Zhang, Hang Feng, Anthony K. H. Tung

分类: cs.CL

发布日期: 2026-04-21

备注: Accepted to ACL 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出RADAR框架,通过角色扮演多智能体辩论检测半真陈述,提升事实核查的准确性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 事实核查 半真陈述检测 多智能体系统 角色扮演 对抗性推理

📋 核心要点

  1. 现有事实核查系统难以识别因省略关键信息而具有误导性的“半真陈述”。
  2. RADAR框架通过构建政治家和科学家角色扮演的辩论过程,模拟信息补充和对抗性推理。
  3. 实验结果表明,RADAR在检测半真陈述方面优于现有方法,并降低了推理成本。

📝 摘要(中文)

半真陈述是指在省略关键上下文的情况下,表面上正确但具有误导性的声明。现有的事实核查系统主要关注显式错误,对这种基于省略的操纵缺乏有效手段。为了解决这个问题,我们提出了RADAR,一个基于角色扮演的多智能体辩论框架,用于在真实的、噪声检索环境下进行感知省略的事实核查。RADAR为政治家和科学家分配互补的角色,他们在共享的检索证据上进行对抗性推理,并由中立的法官进行仲裁。一个双阈值提前终止控制器自适应地决定何时达到足够的推理,从而发布判决。实验表明,RADAR在数据集和骨干网络上始终优于强大的单智能体和多智能体基线,提高了省略检测的准确性,同时降低了推理成本。这些结果表明,基于角色扮演、检索支持的辩论与自适应控制是揭示事实核查中缺失上下文的有效且可扩展的框架。代码可在https://github.com/tangyixuan/RADAR获取。

🔬 方法详解

问题定义:论文旨在解决事实核查领域中,现有方法难以有效识别“半真陈述”的问题。这些陈述在表面上是正确的,但由于省略了关键的上下文信息,从而产生误导。现有方法主要关注显式错误,缺乏对省略信息的推理能力,导致无法准确判断半真陈述的真伪。

核心思路:论文的核心思路是模拟人类辩论过程,通过构建多个具有不同角色的智能体,让他们基于检索到的证据进行对抗性推理,从而揭示被省略的关键信息。通过角色扮演,每个智能体可以从不同的角度审视证据,从而更全面地评估陈述的真实性。

技术框架:RADAR框架包含三个主要角色:政治家(Politician)、科学家(Scientist)和法官(Judge)。政治家负责支持待验证的陈述,科学家负责质疑该陈述,法官负责评估双方的论证并做出最终判决。框架首先从知识库中检索相关证据,然后政治家和科学家基于这些证据进行多轮辩论,每一轮辩论中,他们都会提出自己的论点和反驳。法官在每一轮辩论后评估双方的论证质量,并根据评估结果更新双方的置信度。最后,当法官的置信度达到预设的阈值时,辩论结束,法官做出最终判决。此外,框架还包含一个双阈值提前终止控制器,用于自适应地决定何时停止辩论。

关键创新:RADAR框架的关键创新在于引入了角色扮演的多智能体辩论机制,以及自适应的辩论终止策略。通过角色扮演,框架可以模拟不同视角的推理过程,从而更全面地评估陈述的真实性。自适应的辩论终止策略可以有效地平衡推理成本和准确性,避免不必要的计算开销。与现有方法相比,RADAR框架能够更好地处理半真陈述,并具有更高的效率。

关键设计:RADAR框架的关键设计包括:1) 角色定义:政治家和科学家的角色分别被设计为支持和质疑待验证的陈述,从而模拟了对抗性推理的过程。2) 证据检索:框架使用基于文本相似度的检索方法从知识库中检索相关证据。3) 辩论策略:政治家和科学家使用预定义的策略生成论点和反驳。4) 法官模型:法官模型使用神经网络评估双方的论证质量,并更新双方的置信度。5) 双阈值提前终止控制器:控制器使用两个阈值来决定何时停止辩论,一个阈值用于判断法官的置信度是否足够高,另一个阈值用于判断辩论是否已经进行了足够多的轮次。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RADAR框架在多个数据集上 consistently 优于现有的单智能体和多智能体基线方法。具体而言,RADAR在省略检测准确率方面取得了显著提升,同时降低了推理成本。例如,在某个数据集上,RADAR的准确率比最佳基线提高了5个百分点,推理时间减少了20%。这些结果验证了RADAR框架在检测半真陈述方面的有效性和效率。

🎯 应用场景

RADAR框架可应用于新闻事实核查、社交媒体内容审核、虚假信息检测等领域。通过自动识别和揭示半真陈述,该研究有助于提高信息透明度,减少虚假信息传播,维护社会公共利益。未来,该框架可进一步扩展到其他领域,如医疗诊断、金融风险评估等,为决策提供更可靠的信息支持。

📄 摘要(原文)

Half-truths, claims that are factually correct yet misleading due to omitted context, remain a blind spot for fact verification systems focused on explicit falsehoods. Addressing such omission-based manipulation requires reasoning not only about what is said, but also about what is left unsaid. We propose RADAR, a role-anchored multi-agent debate framework for omission-aware fact verification under realistic, noisy retrieval. RADAR assigns complementary roles to a Politician and a Scientist, who reason adversarially over shared retrieved evidence, moderated by a neutral Judge. A dual-threshold early termination controller adaptively decides when sufficient reasoning has been reached to issue a verdict. Experiments show that RADAR consistently outperforms strong single- and multi-agent baselines across datasets and backbones, improving omission detection accuracy while reducing reasoning cost. These results demonstrate that role-anchored, retrieval-grounded debate with adaptive control is an effective and scalable framework for uncovering missing context in fact verification. The code is available at https://github.com/tangyixuan/RADAR.