Evaluating 5W3H Structured Prompting for Intent Alignment in Human-AI Interaction
作者: Peng Gang
分类: cs.AI
发布日期: 2026-03-19
备注: 27 pages, figures, tables, and appendix. Primary category: human-computer interaction / human-AI interaction. Public artifact repository and implementation resources are referenced in the manuscript
💡 一句话要点
提出基于5W3H结构化提示的PPS框架,提升人机交互中意图对齐效果
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机交互 意图对齐 结构化提示 大型语言模型 5W3H框架
📋 核心要点
- 现有自然语言提示存在意图传达损失,导致AI无法准确理解用户需求。
- 提出PPS框架,利用5W3H结构化表示用户意图,弥合用户需求与AI理解之间的差距。
- 实验表明,渲染的PPS提示在用户意图对齐方面优于简单提示和原始JSON,尤其在高歧义任务中效果显著。
📝 摘要(中文)
自然语言提示常存在意图传达损失,即用户实际需求与传达给AI系统的指令之间存在差距。本文评估了PPS(Prompt Protocol Specification),一个基于5W3H的结构化意图表示框架,用于人机交互。在一项包含60个任务、三个领域(商业、技术和旅行)、三个大型语言模型(DeepSeek-V3、Qwen-Max和Kimi)以及三种提示条件(A:简单提示,B:原始PPS JSON,C:自然语言渲染的PPS)的对照研究中,我们收集了540个AI生成的输出,并由LLM评估器进行评估。我们引入了goal_alignment,一个以用户意图为中心的评估维度,并发现渲染的PPS在此指标上优于简单提示和原始JSON。PPS的增益取决于任务:在高歧义的商业分析任务中增益较大,但在低歧义的旅行计划中则相反。我们还发现标准LLM评估中存在测量不对称性,其中无约束的提示可能会夸大约束遵守分数,并掩盖结构化提示的实际价值。一项初步的回顾性调查(N = 20)进一步表明,所需的后续提示次数减少了66.1%,从3.33轮减少到1.13轮。这些发现表明,结构化意图表示可以提高人机交互中的对齐性和可用性,尤其是在用户意图本身就模糊不清的任务中。
🔬 方法详解
问题定义:现有自然语言提示的模糊性导致大型语言模型(LLM)难以准确理解用户意图,造成意图传达损失。简单提示缺乏结构化信息,而直接使用JSON等结构化数据又不够自然,用户难以接受。因此,如何设计一种既结构化又能自然表达用户意图的提示方法是本文要解决的问题。
核心思路:本文的核心思路是利用5W3H(Who, What, When, Where, Why, How, How much, How to)框架来结构化用户意图,并将其渲染成自然语言,以便用户理解和使用。通过结构化意图,可以减少歧义,提高LLM理解用户需求的准确性。同时,通过自然语言渲染,可以提高用户的使用体验。
技术框架:该研究的技术框架主要包括三个部分:1)基于5W3H的结构化意图表示(PPS);2)将PPS渲染成自然语言提示;3)使用LLM生成输出并进行评估。用户首先使用PPS定义任务,然后将PPS渲染成自然语言提示,输入到LLM中。LLM生成输出后,使用LLM评估器评估输出的质量,并引入goal_alignment指标来衡量用户意图的对齐程度。
关键创新:本文的关键创新在于提出了PPS框架,并将其与自然语言渲染相结合。PPS框架提供了一种结构化的方式来表示用户意图,而自然语言渲染则使得用户可以更自然地与AI系统进行交互。此外,本文还引入了goal_alignment指标,用于更准确地评估用户意图的对齐程度。
关键设计:PPS框架的关键设计在于如何将用户意图映射到5W3H的各个维度。具体来说,需要根据不同的任务类型,定义不同的5W3H属性。例如,在商业分析任务中,可能需要关注“Why”和“How”等维度,而在旅行计划任务中,可能需要关注“Where”和“When”等维度。此外,自然语言渲染的关键设计在于如何将结构化的PPS信息转换成流畅自然的语言,以便用户理解和使用。
📊 实验亮点
实验结果表明,渲染的PPS提示在用户意图对齐(goal_alignment)方面优于简单提示和原始JSON。在高歧义的商业分析任务中,PPS的增益尤为显著。此外,初步的回顾性调查表明,使用PPS后,所需的后续提示次数减少了66.1%,从3.33轮减少到1.13轮,显著提升了用户体验。
🎯 应用场景
该研究成果可应用于各种人机交互场景,例如智能助手、客户服务、数据分析等。通过结构化提示,可以提高AI系统理解用户意图的准确性,从而提供更个性化、更有效的服务。未来,该方法有望应用于更复杂的任务,例如自动化报告生成、智能决策支持等。
📄 摘要(原文)
Natural language prompts often suffer from intent transmission loss: the gap between what users actually need and what they communicate to AI systems. We evaluate PPS (Prompt Protocol Specification), a 5W3H-based framework for structured intent representation in human-AI interaction. In a controlled three-condition study across 60 tasks in three domains (business, technical, and travel), three large language models (DeepSeek-V3, Qwen-Max, and Kimi), and three prompt conditions - (A) simple prompts, (B) raw PPS JSON, and (C) natural-language-rendered PPS - we collect 540 AI-generated outputs evaluated by an LLM judge. We introduce goal_alignment, a user-intent-centered evaluation dimension, and find that rendered PPS outperforms both simple prompts and raw JSON on this metric. PPS gains are task-dependent: gains are large in high-ambiguity business analysis tasks but reverse in low-ambiguity travel planning. We also identify a measurement asymmetry in standard LLM evaluation, where unconstrained prompts can inflate constraint adherence scores and mask the practical value of structured prompting. A preliminary retrospective survey (N = 20) further suggests a 66.1% reduction in follow-up prompts required, from 3.33 to 1.13 rounds. These findings suggest that structured intent representations can improve alignment and usability in human-AI interaction, especially in tasks where user intent is inherently ambiguous.