Agenda-based Narrative Extraction: Steering Pathfinding Algorithms with Large Language Models
作者: Brian Felipe Keith-Norambuena, Carolina Inés Rojas-Córdova, Claudio Juvenal Meneses-Villegas, Elizabeth Johanna Lam-Esquenazi, Angélica María Flores-Bustos, Ignacio Alejandro Molina-Villablanca, Joshua Emanuel Leyton-Vallejos
分类: cs.CL, cs.AI, cs.IR
发布日期: 2026-03-31
备注: Text2Story Workshop 2026 at ECIR 2026
💡 一句话要点
提出基于议程的叙事提取方法,利用大语言模型引导路径搜索,提升叙事一致性和用户可控性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 叙事提取 大语言模型 路径搜索 议程引导 自然语言处理
📋 核心要点
- 现有叙事提取方法难以兼顾连贯性、交互性和多故事线支持,限制了用户对叙事方向的控制。
- 该论文提出一种基于议程的叙事提取方法,利用大语言模型引导路径搜索,实现用户指定视角的叙事构建。
- 实验结果表明,该方法在语义议程上的对齐度显著优于关键词匹配,同时保持了良好的叙事连贯性。
📝 摘要(中文)
现有的叙事提取方法在连贯性、交互性和多故事线支持之间面临权衡。叙事地图支持丰富的交互,并通过其覆盖约束生成多个故事线,但牺牲了单个路径的连贯性。叙事轨迹通过最大容量路径优化实现高连贯性,但没有提供用户指导或多视角机制。我们引入了基于议程的叙事提取,通过将大型语言模型集成到叙事轨迹的路径搜索过程中,根据用户指定的视角引导故事线的构建,从而弥合了这一差距。我们的方法在每一步都使用LLM根据其与给定议程的对齐程度对候选文档进行排序,同时保持叙事连贯性。使用不同的议程运行该算法,可以通过相同的语料库产生不同的故事情节。我们使用Claude Opus 4.5和GPT 5.1的LLM judges在一个新闻文章语料库上评估了我们的方法,测量了64个端点对和6个议程的连贯性和议程对齐程度。LLM驱动的引导在语义议程上的对齐度比关键词匹配高9.9% (p=0.017),在“政权镇压”方面提高了13.3% (p=0.037),而关键词匹配在具有字面关键词重叠的议程上仍然具有竞争力。连贯性成本很小:与议程无关的基线相比,LLM引导仅降低了2.2%的连贯性。与源材料相矛盾的反议程在所有方法中得分都很低(2.2-2.5),证实了引导无法捏造不支持的叙事。
🔬 方法详解
问题定义:现有叙事提取方法存在局限性。Narrative Maps虽然支持多故事线和交互,但牺牲了路径连贯性;Narrative Trails保证了高连贯性,但缺乏用户引导和多视角支持。因此,需要一种方法,既能保持叙事连贯性,又能根据用户指定的议程生成不同的故事线。
核心思路:核心思路是将大语言模型(LLM)集成到Narrative Trails的路径搜索过程中,利用LLM对候选文档与用户指定议程的对齐程度进行排序,从而引导故事线的构建。通过在每一步选择与议程最相关的文档,确保生成的叙事既连贯又符合用户意图。
技术框架:整体框架基于Narrative Trails的路径搜索算法。在每个步骤中,算法会考虑多个候选文档。不同于传统方法,该方法使用LLM对这些候选文档进行排序,评估它们与给定议程的相关性。选择与议程最相关的文档添加到当前路径,并重复此过程直到到达目标节点。通过改变议程,可以生成不同的故事线。
关键创新:关键创新在于利用LLM进行叙事引导。传统方法通常依赖关键词匹配或简单的相似度计算,无法理解语义层面的相关性。LLM能够理解用户议程的深层含义,并选择在语义上与议程对齐的文档,从而实现更精准的叙事引导。
关键设计:关键设计包括:1) 使用LLM(如Claude Opus 4.5和GPT 5.1)作为评估器,对候选文档与议程的对齐程度进行评分;2) 设计合适的提示工程(prompt engineering),指导LLM进行准确的评估;3) 通过实验对比不同议程和不同LLM的效果,验证方法的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于LLM的叙事引导在语义议程上的对齐度比关键词匹配提高了9.9% (p=0.017),在“政权镇压”这一具体议程上提高了13.3% (p=0.037)。同时,与议程无关的基线相比,LLM引导仅降低了2.2%的连贯性,表明该方法在提高议程对齐度的同时,能够保持良好的叙事连贯性。
🎯 应用场景
该研究成果可应用于新闻报道生成、个性化故事创作、教育内容定制等领域。通过用户指定的议程,可以从大量信息中提取出符合特定视角的故事线,为用户提供更具针对性和个性化的信息服务。未来,该技术有望应用于智能写作助手、交互式叙事游戏等领域。
📄 摘要(原文)
Existing narrative extraction methods face a trade-off between coherence, interactivity, and multi-storyline support. Narrative Maps supports rich interaction and generates multiple storylines as a byproduct of its coverage constraints, though this comes at the cost of individual path coherence. Narrative Trails achieves high coherence through maximum capacity path optimization but provides no mechanism for user guidance or multiple perspectives. We introduce agenda-based narrative extraction, a method that bridges this gap by integrating large language models into the Narrative Trails pathfinding process to steer storyline construction toward user-specified perspectives. Our approach uses an LLM at each step to rank candidate documents based on their alignment with a given agenda while maintaining narrative coherence. Running the algorithm with different agendas yields different storylines through the same corpus. We evaluated our approach on a news article corpus using LLM judges with Claude Opus 4.5 and GPT 5.1, measuring both coherence and agenda alignment across 64 endpoint pairs and 6 agendas. LLM-driven steering achieves 9.9% higher alignment than keyword matching on semantic agendas (p=0.017), with 13.3% improvement on \textit{Regime Crackdown} specifically (p=0.037), while keyword matching remains competitive on agendas with literal keyword overlap. The coherence cost is minimal: LLM steering reduces coherence by only 2.2% compared to the agenda-agnostic baseline. Counter-agendas that contradict the source material score uniformly low (2.2-2.5) across all methods, confirming that steering cannot fabricate unsupported narratives.