RAAR: Retrieval Augmented Agentic Reasoning for Cross-Domain Misinformation Detection

📄 arXiv: 2601.04853v1 📥 PDF

作者: Zhiwei Liu, Runteng Guo, Baojie Qu, Yuechen Jiang, Min Peng, Qianqian Xie, Sophia Ananiadou

分类: cs.CL

发布日期: 2026-01-08

🔗 代码/项目: GITHUB


💡 一句话要点

提出RAAR框架,通过检索增强的Agent协同推理解决跨领域虚假信息检测难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨领域虚假信息检测 检索增强 Agent协同推理 多Agent系统 可验证推理

📋 核心要点

  1. 现有跨领域虚假信息检测方法依赖单一视角线索,难以泛化到具有挑战性或代表性不足的领域。
  2. RAAR框架通过检索多视角源领域证据,并构建可验证的多步骤推理路径,实现跨领域知识迁移和系统推理。
  3. 实验结果表明,RAAR显著提升了基础模型的能力,并在跨领域虚假信息检测任务上优于其他方法。

📝 摘要(中文)

本文提出了一种用于跨领域虚假信息检测的检索增强型Agent推理框架RAAR。针对跨领域知识和论述差异大的挑战,以及现有方法依赖单一视角线索和难以泛化到弱势领域的局限性,RAAR通过检索与目标样本语义、情感和写作风格对齐的多视角源领域证据,实现跨领域迁移。RAAR还构建了可验证的多步骤推理路径,通过专门的多Agent协作,由特定视角的Agent产生互补分析,并通过总结Agent在验证器指导下整合这些分析,克服了单视角建模和缺乏系统推理的问题。RAAR进一步应用监督微调和强化学习来训练单个多任务验证器,以增强验证和推理能力。基于RAAR,训练了RAAR-8b和RAAR-14b模型。在三个跨领域虚假信息检测任务上的评估表明,RAAR显著增强了基础模型的能力,并优于其他跨领域方法、先进的LLM和基于LLM的自适应方法。

🔬 方法详解

问题定义:跨领域虚假信息检测面临知识和论述差异大的挑战。现有方法通常依赖单一视角线索,难以泛化到具有挑战性或代表性不足的领域。大型语言模型(LLM)虽然在复杂任务上有效,但受限于同分布数据,跨领域泛化能力不足。

核心思路:RAAR的核心思路是利用检索增强和多Agent协同推理,弥合源领域和目标领域之间的差距。通过检索与目标样本相关的多视角源领域证据,为模型提供更丰富的上下文信息。通过多Agent协同推理,模拟人类专家从不同角度分析问题,并进行综合判断。

技术框架:RAAR框架包含以下几个主要模块:1) 检索模块:根据目标样本的语义、情感和写作风格,从源领域数据中检索相关的多视角证据。2) 多Agent推理模块:由多个特定视角的Agent对检索到的证据进行分析,每个Agent负责一个特定的分析维度(例如,事实核查、情感分析、写作风格分析)。3) 总结Agent:整合各个Agent的分析结果,生成最终的判断。4) 验证器:对总结Agent的判断进行验证,并提供反馈,指导Agent进行更准确的推理。

关键创新:RAAR的关键创新在于:1) 提出了一种检索增强的Agent协同推理框架,能够有效解决跨领域虚假信息检测问题。2) 设计了一种多Agent协同推理机制,模拟人类专家从不同角度分析问题,并进行综合判断。3) 引入了一个可训练的验证器,能够对Agent的推理过程进行监督和指导,提高推理的准确性。

关键设计:RAAR使用预训练语言模型作为基础模型,并在此基础上进行微调。检索模块使用余弦相似度来衡量目标样本和源领域证据之间的相关性。多Agent推理模块中的每个Agent都使用一个独立的神经网络模型。验证器使用一个多任务学习模型,同时进行虚假信息检测和推理路径验证。

📊 实验亮点

RAAR在三个跨领域虚假信息检测任务上进行了评估,实验结果表明,RAAR显著增强了基础模型的能力,并优于其他跨领域方法、先进的LLM和基于LLM的自适应方法。例如,RAAR-8b和RAAR-14b模型在多个数据集上取得了SOTA结果,相较于基线模型有显著的性能提升。

🎯 应用场景

RAAR框架可应用于新闻媒体、社交平台等领域,用于自动检测和识别跨领域传播的虚假信息,提高信息的可信度和可靠性。该研究有助于构建更安全、更健康的网络环境,减少虚假信息对社会造成的负面影响,并为未来的AI驱动的信息安全系统提供借鉴。

📄 摘要(原文)

Cross-domain misinformation detection is challenging, as misinformation arises across domains with substantial differences in knowledge and discourse. Existing methods often rely on single-perspective cues and struggle to generalize to challenging or underrepresented domains, while reasoning large language models (LLMs), though effective on complex tasks, are limited to same-distribution data. To address these gaps, we introduce RAAR, the first retrieval-augmented agentic reasoning framework for cross-domain misinformation detection. To enable cross-domain transfer beyond same-distribution assumptions, RAAR retrieves multi-perspective source-domain evidence aligned with each target sample's semantics, sentiment, and writing style. To overcome single-perspective modeling and missing systematic reasoning, RAAR constructs verifiable multi-step reasoning paths through specialized multi-agent collaboration, where perspective-specific agents produce complementary analyses and a summary agent integrates them under verifier guidance. RAAR further applies supervised fine-tuning and reinforcement learning to train a single multi-task verifier to enhance verification and reasoning capabilities. Based on RAAR, we trained the RAAR-8b and RAAR-14b models. Evaluation on three cross-domain misinformation detection tasks shows that RAAR substantially enhances the capabilities of the base models and outperforms other cross-domain methods, advanced LLMs, and LLM-based adaptation approaches. The project will be released at https://github.com/lzw108/RAAR.