Prism: Towards Lowering User Cognitive Load in LLMs via Complex Intent Understanding
作者: Zenghua Liao, Jinzhi Liao, Xiang Zhao
分类: cs.AI
发布日期: 2026-01-13
💡 一句话要点
Prism:通过复杂意图理解降低LLM交互中的用户认知负荷
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 意图理解 认知负荷 大型语言模型 人机交互 逻辑推理
📋 核心要点
- 现有方法在澄清用户意图时,未能充分建模澄清问题之间的逻辑依赖关系,导致交互效率低下和用户认知负荷过高。
- Prism框架通过复杂意图分解、逻辑澄清生成、意图感知奖励和自进化意图调整四个模块,实现逻辑连贯且高效的意图澄清。
- 实验结果表明,Prism在逻辑一致性、用户满意度和任务完成时间方面均优于现有方法,显著降低了用户认知负荷。
📝 摘要(中文)
大型语言模型(LLM)正迅速成为社交平台的原生Web界面。在社交网络中,用户通常具有模糊且动态的目标,因此复杂意图理解而非单轮执行,是有效人-LLM协作的基石。现有方法试图通过顺序或并行提问来澄清用户意图,但未能解决核心挑战:对澄清问题之间的逻辑依赖关系进行建模。受认知负荷理论的启发,我们提出了Prism,这是一个用于复杂意图理解的新框架,能够实现逻辑连贯且高效的意图澄清。Prism包含四个定制模块:复杂意图分解模块,将用户意图分解为更小、结构良好的元素,并识别它们之间的逻辑依赖关系;逻辑澄清生成模块,基于这些依赖关系组织澄清问题,以确保连贯、低摩擦的交互;意图感知奖励模块,通过意图感知奖励函数评估澄清轨迹的质量,并利用蒙特卡洛采样模拟用户-LLM交互,以生成大规模、高质量的训练数据;以及自进化意图调整模块,通过数据驱动的反馈和优化,迭代地改进LLM的逻辑澄清能力。Prism在澄清交互、意图执行和认知负荷基准测试中始终优于现有方法。它实现了最先进的逻辑一致性,将逻辑冲突降低至11.5%,用户满意度提高了14.4%,任务完成时间减少了34.8%。所有数据和代码均已发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在社交平台等场景中,理解用户复杂、模糊和动态意图的难题。现有方法如顺序或并行提问,未能有效建模澄清问题之间的逻辑依赖关系,导致交互过程冗长、低效,增加了用户的认知负担。
核心思路:论文的核心思路是借鉴认知负荷理论,将复杂的意图澄清过程分解为一系列逻辑相关的子问题,并通过建模这些子问题之间的依赖关系,生成连贯且高效的澄清问题序列,从而降低用户的认知负荷。
技术框架:Prism框架包含四个主要模块:1) 复杂意图分解模块:将用户意图分解为更小的、结构化的元素,并识别它们之间的逻辑依赖关系。2) 逻辑澄清生成模块:根据意图分解结果和逻辑依赖关系,生成连贯的澄清问题序列。3) 意图感知奖励模块:设计意图感知的奖励函数,评估澄清轨迹的质量,并利用蒙特卡洛采样生成高质量的训练数据。4) 自进化意图调整模块:通过数据驱动的反馈和优化,迭代地提升LLM的逻辑澄清能力。
关键创新:Prism的关键创新在于其对澄清问题之间逻辑依赖关系的建模,以及基于此的逻辑澄清问题生成策略。与现有方法不同,Prism并非简单地顺序或并行提问,而是根据意图分解结果,有针对性地提出问题,确保澄清过程的逻辑连贯性和高效性。
关键设计:意图感知奖励模块是关键设计之一,它通过奖励函数来评估澄清轨迹的质量,鼓励LLM生成更符合用户意图且逻辑连贯的澄清问题。此外,自进化意图调整模块通过数据驱动的反馈和优化,不断提升LLM的逻辑澄清能力,使其能够更好地适应用户的复杂意图。
📊 实验亮点
实验结果表明,Prism在逻辑一致性方面达到了最先进水平,将逻辑冲突降低至11.5%,用户满意度提高了14.4%,任务完成时间减少了34.8%。这些数据表明,Prism能够显著降低用户认知负荷,提高交互效率和用户满意度,优于现有方法。
🎯 应用场景
Prism框架可应用于各种需要与用户进行复杂意图交互的场景,例如智能客服、任务助手、社交平台等。通过降低用户认知负荷,提高交互效率和用户满意度,Prism能够提升人机协作的质量,并促进LLM在实际应用中的普及。
📄 摘要(原文)
Large Language Models are rapidly emerging as web-native interfaces to social platforms. On the social web, users frequently have ambiguous and dynamic goals, making complex intent understanding-rather than single-turn execution-the cornerstone of effective human-LLM collaboration. Existing approaches attempt to clarify user intents through sequential or parallel questioning, yet they fall short of addressing the core challenge: modeling the logical dependencies among clarification questions. Inspired by the Cognitive Load Theory, we propose Prism, a novel framework for complex intent understanding that enables logically coherent and efficient intent clarification. Prism comprises four tailored modules: a complex intent decomposition module, which decomposes user intents into smaller, well-structured elements and identifies logical dependencies among them; a logical clarification generation module, which organizes clarification questions based on these dependencies to ensure coherent, low-friction interactions; an intent-aware reward module, which evaluates the quality of clarification trajectories via an intent-aware reward function and leverages Monte Carlo Sample to simulate user-LLM interactions for large-scale,high-quality training data generation; and a self-evolved intent tuning module, which iteratively refines the LLM's logical clarification capability through data-driven feedback and optimization. Prism consistently outperforms existing approaches across clarification interactions, intent execution, and cognitive load benchmarks. It achieves stateof-the-art logical consistency, reduces logical conflicts to 11.5%, increases user satisfaction by 14.4%, and decreases task completion time by 34.8%. All data and code are released.