VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration

作者: Jaeyoon Jung, Yejun Yoon, Seunghyun Yoon, Kunwoo Park

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-02-04

备注: A system description paper for the AVerImaTeC shared task at the Ninth FEVER Workshop (co-located with EACL 2026)

🔗 代码/项目: GITHUB

💡 一句话要点

VILLAIN：基于多智能体协作验证图像-文本声明的系统

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像-文本验证 多模态事实核查 多智能体协作 视觉-语言模型 知识检索

📋 核心要点

现有方法在图像-文本事实核查中缺乏有效的多模态信息融合和推理能力，难以准确识别细微的错误信息。
VILLAIN系统通过构建多智能体协作框架，利用不同智能体在模态特定和跨模态分析上的优势，提升核查准确性。
该系统在AVerImaTeC共享任务中取得第一名，验证了多智能体协作在图像-文本事实核查中的有效性。

📝 摘要（中文）

本文介绍了VILLAIN，一个多模态事实核查系统，它通过基于提示的多智能体协作来验证图像-文本声明。针对AVerImaTeC共享任务，VILLAIN在事实核查的多个阶段采用视觉-语言模型智能体。文本和视觉证据从知识库中检索，并通过额外的网络收集进行丰富。为了识别关键信息并解决证据项目之间的不一致性，特定模态和跨模态智能体生成分析报告。在随后的阶段，基于这些报告生成问答对。最后，Verdict Prediction智能体基于图像-文本声明和生成的问答对产生验证结果。我们的系统在所有评估指标的排行榜上名列第一。源代码可在https://github.com/ssu-humane/VILLAIN公开获取。

🔬 方法详解

问题定义：论文旨在解决图像-文本声明的事实核查问题。现有方法在处理复杂场景和细粒度语义时，往往难以准确判断声明的真伪。痛点在于缺乏有效的多模态信息融合和推理机制，以及对外部知识的充分利用。

核心思路：论文的核心思路是利用多智能体协作，每个智能体负责不同的任务，例如信息检索、模态特定分析、跨模态推理和结论预测。通过智能体之间的协作，可以更全面地理解图像和文本信息，并有效地利用外部知识，从而提高事实核查的准确性。

技术框架：VILLAIN系统的整体架构包含以下几个主要阶段：1) 知识检索：从知识库（包括额外的网络收集数据）中检索相关的文本和视觉证据。2) 报告生成：模态特定和跨模态智能体生成分析报告，用于识别关键信息和解决证据项目之间的不一致性。3) 问答对生成：基于分析报告生成问答对，用于进一步验证声明的真伪。4) 结论预测：Verdict Prediction智能体基于图像-文本声明和生成的问答对，最终预测验证结果。

关键创新：该论文的关键创新在于提出了一个基于提示的多智能体协作框架，将复杂的事实核查任务分解为多个子任务，并分配给不同的智能体。这种方法能够充分利用不同智能体的优势，实现更高效和准确的事实核查。此外，系统还通过额外的网络收集来丰富知识库，从而提高了对外部知识的利用率。

关键设计：论文中使用了基于提示的智能体，通过精心设计的提示语来引导智能体执行特定的任务。具体的技术细节包括：用于信息检索的查询构建方法、用于模态特定分析和跨模态推理的视觉-语言模型选择和微调策略、以及用于结论预测的分类器设计。此外，知识库的构建和维护也是一个关键的设计环节，需要考虑数据的质量和覆盖范围。

🖼️ 关键图片

📊 实验亮点

VILLAIN系统在AVerImaTeC共享任务中，在所有评估指标的排行榜上均名列第一，证明了其在图像-文本事实核查方面的优越性能。这一结果表明，多智能体协作框架能够有效地提升事实核查的准确性和效率，为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于新闻媒体的事实核查、社交媒体内容审核、以及教育领域的知识验证等场景。通过自动化的图像-文本事实核查，可以有效减少虚假信息的传播，提高信息的可信度，并为用户提供更可靠的信息服务。未来，该技术还可以扩展到其他多模态数据的验证，例如视频和音频。

📄 摘要（原文）

This paper describes VILLAIN, a multimodal fact-checking system that verifies image-text claims through prompt-based multi-agent collaboration. For the AVerImaTeC shared task, VILLAIN employs vision-language model agents across multiple stages of fact-checking. Textual and visual evidence is retrieved from the knowledge store enriched through additional web collection. To identify key information and address inconsistencies among evidence items, modality-specific and cross-modal agents generate analysis reports. In the subsequent stage, question-answer pairs are produced based on these reports. Finally, the Verdict Prediction agent produces the verification outcome based on the image-text claim and the generated question-answer pairs. Our system ranked first on the leaderboard across all evaluation metrics. The source code is publicly available at https://github.com/ssu-humane/VILLAIN.

VILLAIN at AVerImaTeC: Verifying Image-Text Claims via Multi-Agent Collaboration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理