The Narrative Continuity Test: A Conceptual Framework for Evaluating Identity Persistence in AI Systems

📄 arXiv: 2510.24831v2 📥 PDF

作者: Stefano Natangelo

分类: cs.CY, cs.AI, cs.HC

发布日期: 2025-10-28 (更新: 2025-11-01)

备注: 33 pages, 127 references v2: Minor editorial revision: redundant phrasing reduced, punctuation and formatting improved; no conceptual or data changes


💡 一句话要点

提出叙事连续性测试(NCT)框架,评估AI系统中身份持久性和长期连贯性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 叙事连续性 身份持久性 大型语言模型 AI评估 历时连贯性

📋 核心要点

  1. 现有LLM缺乏持久状态,每次推理都重新构建上下文,导致无法维持长期一致的身份。
  2. 提出叙事连续性测试(NCT)框架,通过情境记忆等五个轴评估AI的身份持久性和历时连贯性。
  3. 案例分析表明,当前架构在无状态推理下存在可预测的连续性失败,NCT为未来研究提供了方向。

📝 摘要(中文)

基于大型语言模型(LLM)的人工智能系统现在可以生成连贯的文本、音乐和图像,但它们在没有持久状态的情况下运行:每次推理都从头开始重建上下文。本文介绍了一种叙事连续性测试(NCT),这是一个用于评估AI系统中身份持久性和历时连贯性的概念框架。与评估任务性能的能力基准不同,NCT检查LLM在时间和交互间隔内是否保持相同的对话者身份。该框架定义了五个必要的轴——情境记忆、目标持久性、自主自我纠正、风格和语义稳定性以及角色/角色连续性——并解释了为什么当前的架构系统地未能支持它们。案例分析(Character.AI、Grok、Replit、加拿大航空)显示了无状态推理下可预测的连续性失败。NCT将AI评估从性能重新定义为持久性,概述了未来基准和架构设计的概念要求,这些设计可以在生成模型中维持长期的身份和目标连贯性。

🔬 方法详解

问题定义:现有基于LLM的AI系统,虽然在生成连贯内容方面表现出色,但由于缺乏持久状态,每次交互都从头开始,无法维持长期一致的身份和目标。这导致AI在长时间对话或复杂任务中表现出不连贯的行为,无法形成可靠的“人格”。

核心思路:本文的核心思路是将AI的评估标准从传统的任务性能转向身份的持久性和连贯性。通过定义一系列必要的轴,来衡量AI在不同时间点和交互场景中是否能够保持一致的身份特征。这样可以更全面地评估AI的智能水平,并为未来的架构设计提供指导。

技术框架:NCT框架包含五个关键轴:1) 情境记忆:AI是否能记住之前的交互信息并利用它们来指导后续行为?2) 目标持久性:AI是否能长期坚持设定的目标,即使在面对干扰或变化时?3) 自主自我纠正:AI是否能主动发现并纠正自身行为中的错误或不一致之处?4) 风格和语义稳定性:AI在不同时间点和场景下是否能保持一致的语言风格和语义表达?5) 角色/角色连续性:AI是否能始终如一地扮演设定的角色,避免出现人格分裂或角色混淆?

关键创新:NCT框架的关键创新在于它将AI评估的重点从任务完成度转移到身份的持久性和连贯性。这是一种全新的评估视角,可以更全面地反映AI的智能水平。此外,NCT框架还定义了一系列具体的评估指标,为未来的研究提供了可操作的指导。

关键设计:NCT框架本身是一个概念框架,并没有涉及具体的参数设置或网络结构。然而,它为未来的架构设计提供了一些关键的指导原则:1) 需要引入持久性存储机制,使AI能够记住之前的交互信息;2) 需要设计有效的目标管理机制,使AI能够长期坚持设定的目标;3) 需要引入自我纠正机制,使AI能够主动发现并纠正自身行为中的错误;4) 需要设计风格和语义控制机制,使AI能够保持一致的语言风格和语义表达;5) 需要设计角色管理机制,使AI能够始终如一地扮演设定的角色。

📊 实验亮点

论文通过对Character.AI、Grok、Replit、Air Canada等现有AI系统的案例分析,展示了它们在NCT框架下的表现。结果表明,这些系统在情境记忆、目标持久性等方面存在明显的不足,无法维持长期一致的身份。这些案例分析为NCT框架的有效性提供了支持,并为未来的研究提供了参考。

🎯 应用场景

NCT框架可应用于评估各种AI系统,尤其是在需要长期交互和身份一致性的场景中,如虚拟助手、游戏角色、教育机器人等。通过NCT评估,可以发现现有AI系统的不足,并指导未来的架构设计,从而构建更智能、更可靠的AI系统。这有助于提升用户体验,并推动AI技术在各个领域的应用。

📄 摘要(原文)

Artificial intelligence systems based on large language models (LLMs) can now generate coherent text, music, and images, yet they operate without a persistent state: each inference reconstructs context from scratch. This paper introduces the Narrative Continuity Test (NCT) -- a conceptual framework for evaluating identity persistence and diachronic coherence in AI systems. Unlike capability benchmarks that assess task performance, the NCT examines whether an LLM remains the same interlocutor across time and interaction gaps. The framework defines five necessary axes -- Situated Memory, Goal Persistence, Autonomous Self-Correction, Stylistic & Semantic Stability, and Persona/Role Continuity -- and explains why current architectures systematically fail to support them. Case analyses (Character.\,AI, Grok, Replit, Air Canada) show predictable continuity failures under stateless inference. The NCT reframes AI evaluation from performance to persistence, outlining conceptual requirements for future benchmarks and architectural designs that could sustain long-term identity and goal coherence in generative models.