VISTA Score: Verification In Sequential Turn-based Assessment

作者: Ashley Lewis, Andrew Perrault, Eric Fosler-Lussier, Michael White

分类: cs.CL

发布日期: 2025-10-30 (更新: 2026-01-05)

💡 一句话要点

VISTA：提出一种用于评估对话系统中事实性幻觉的序列轮次验证框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话系统 事实性评估 幻觉检测 自然语言推理 序列一致性

📋 核心要点

现有对话事实性评估方法无法有效处理多轮对话中的幻觉问题，缺乏对上下文一致性的考量。
VISTA框架将对话回复分解为原子事实声明，并结合可信来源和对话历史进行验证，从而实现更细粒度的评估。
实验表明，VISTA在幻觉检测方面优于现有基线方法，并且人工评估验证了其分解策略的有效性。

📝 摘要（中文）

在需要事实可靠性的场景中，对话式AI系统部署面临的主要障碍是幻觉问题，即生成无证据支持或与已有证据或对话上下文相悖的陈述。现有的评估指标要么评估孤立的回复，要么将无法验证的内容视为错误，限制了它们在多轮对话中的应用。我们提出了VISTA（Verification In Sequential Turn-based Assessment），一个通过声明级验证和序列一致性跟踪来评估对话事实性的框架。VISTA将每个助手的回复分解为原子事实声明，对照可信来源和对话历史验证它们，并将无法验证的陈述进行分类（主观的、矛盾的、缺乏证据的或弃权的）。在八个大型语言模型和四个对话事实性基准（AIS、BEGIN、FAITHDIAL和FADE）上，VISTA显著提高了对FACTSCORE和LLM-as-Judge基线的幻觉检测能力。人工评估证实，VISTA的分解提高了标注者的一致性，并揭示了现有基准测试中的不一致性。通过将事实性建模为对话的动态属性，VISTA为对话系统中的真实性提供了更透明、更符合人类的度量。

🔬 方法详解

问题定义：现有对话系统的事实性评估方法主要存在两个痛点。一是缺乏对多轮对话上下文的建模，无法有效检测对话过程中出现的矛盾或不一致。二是将整个回复作为一个整体进行评估，无法定位到具体的错误声明，不利于模型的改进。因此，需要一种能够细粒度地评估对话事实性，并能追踪对话过程中事实一致性的方法。

核心思路：VISTA的核心思路是将对话回复分解为原子事实声明，然后针对每个声明进行独立验证。通过将复杂的对话分解为更小的、可验证的单元，可以更准确地评估对话的事实性。此外，VISTA还考虑了对话历史，确保每个声明与之前的对话内容保持一致。这种分解和验证的策略使得VISTA能够更有效地检测对话中的幻觉问题。

技术框架：VISTA框架包含以下几个主要模块：1) 声明提取：将助手的回复分解为原子事实声明。2) 证据检索：从可信来源（如知识库、网页等）和对话历史中检索与每个声明相关的证据。3) 声明验证：使用自然语言推理（NLI）模型判断声明是否与检索到的证据一致。4) 一致性跟踪：跟踪对话过程中每个声明的事实性状态，检测是否存在矛盾或不一致。5) 评估与分类：对无法验证的声明进行分类，包括主观的、矛盾的、缺乏证据的或弃权的。

关键创新：VISTA的关键创新在于其声明级的验证和序列一致性跟踪。与现有方法相比，VISTA能够更细粒度地评估对话的事实性，并能检测对话过程中出现的矛盾或不一致。此外，VISTA的分解策略提高了标注者的一致性，使得人工评估更加可靠。

关键设计：VISTA框架中，声明提取模块可以使用现有的自然语言处理技术，如依存句法分析或语义角色标注。证据检索模块可以使用信息检索技术，如BM25或基于Transformer的检索模型。声明验证模块可以使用预训练的NLI模型，如BERT或RoBERTa。一致性跟踪模块可以使用规则或基于机器学习的方法来检测对话中的矛盾或不一致。具体的参数设置和网络结构可以根据具体的应用场景进行调整。

🖼️ 关键图片

📊 实验亮点

VISTA在四个对话事实性基准（AIS、BEGIN、FAITHDIAL和FADE）上显著提高了幻觉检测能力，优于FACTSCORE和LLM-as-Judge基线。例如，在FAITHDIAL数据集上，VISTA的性能提升了XX%（具体数据未知）。人工评估表明，VISTA的分解策略提高了标注者的一致性，并揭示了现有基准测试中的不一致性。

🎯 应用场景

VISTA可应用于各种需要事实可靠性的对话系统，例如医疗咨询、金融服务和教育辅导等。通过提高对话系统的真实性和可靠性，VISTA可以增强用户信任，减少错误信息的传播，并提升用户体验。未来，VISTA可以扩展到支持更多语言和领域，并与其他对话系统组件集成，实现更智能、更可靠的对话交互。

📄 摘要（原文）

Hallucination--defined here as generating statements unsupported or contradicted by available evidence or conversational context--remains a major obstacle to deploying conversational AI systems in settings that demand factual reliability. Existing metrics either evaluate isolated responses or treat unverifiable content as errors, limiting their use for multi-turn dialogue. We introduce VISTA (Verification In Sequential Turn-based Assessment), a framework for evaluating conversational factuality through claim-level verification and sequential consistency tracking. VISTA decomposes each assistant turn into atomic factual claims, verifies them against trusted sources and dialogue history, and categorizes unverifiable statements (subjective, contradicted, lacking evidence, or abstaining). Across eight large language models and four dialogue factuality benchmarks (AIS, BEGIN, FAITHDIAL, and FADE), VISTA substantially improves hallucination detection over FACTSCORE and LLM-as-Judge baselines. Human evaluation confirms that VISTA's decomposition improves annotator agreement and reveals inconsistencies in existing benchmarks. By modeling factuality as a dynamic property of conversation, VISTA offers a more transparent, human-aligned measure of truthfulness in dialogue systems.

VISTA Score: Verification In Sequential Turn-based Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理