Dimension-Level Intent Fidelity Evaluation for Large Language Models: Evidence from Structured Prompt Ablation
作者: GAng Peng
分类: cs.CL, cs.AI
发布日期: 2026-05-14
备注: Preprint. 30 tasks, 3 languages, 6 LLMs, 2,880 outputs; includes human evaluation and structured prompt ablation
💡 一句话要点
提出维度级意图保真度评估框架,用于评估大语言模型在用户特定任务中的表现。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型评估 意图保真度 维度级评估 结构化提示 消融研究
📋 核心要点
- 现有整体评估方法无法区分结构还原和意图保留,导致评估结果不够精细。
- 提出维度级意图保真度评估框架,分别衡量结构恢复和意图保真度,更准确评估模型。
- 实验表明,维度级评估能发现整体评估无法识别的质量缺陷,且与人类判断更一致。
📝 摘要(中文)
整体评估分数能够捕捉输出的总体质量,但无法区分模型是否重现了用户请求的结构形式,以及是否保留了用户的特定意图。本文提出了一种维度级意图保真度评估框架,通过结构化提示消融研究,涵盖三种语言、三个任务领域和六个大型语言模型,共计2880个输出,分别测量每个语义维度的结构恢复和意图保真度。该框架揭示了一种系统的结构-保真度分离现象:在具有完整配对分数的中文输出中,25.7%获得了完美的整体对齐分数(GA=5),但表现出可测量的维度意图缺陷;在英文输出中,这一比例上升至58.6%。人工评估证实,这些分离区域的输出代表了真正的质量缺陷,并且维度保真度分数比整体分数更可靠地跟踪人类判断。对2520个消融单元的公共-私有分解描述了模型何时成功补偿缺失的意图,以及何时失败,而代理注释区分了先验可推断性和默认可恢复性。权重扰动实验表明,适度的不对齐通常会被吸收,而严重的维度反转始终是有害的。这些发现表明,在评估用户特定任务的大型语言模型输出时,维度级意图保真度评估是对整体评估的必要补充。
🔬 方法详解
问题定义:现有的大语言模型评估方法,例如整体评估分数,无法细粒度地评估模型在理解和执行用户意图方面的能力。它们无法区分模型是否正确地理解了用户请求的结构(例如,输出格式)以及是否准确地保留了用户在每个语义维度上的具体意图。这种粗粒度的评估方式可能掩盖模型在某些维度上未能准确理解用户意图的情况,从而导致对模型性能的误判。
核心思路:本文的核心思路是将用户意图分解为多个语义维度,并分别评估模型在每个维度上的结构恢复和意图保真度。通过结构化提示消融研究,系统性地移除或修改提示中的某些维度信息,然后观察模型在恢复这些缺失或修改的维度信息方面的表现。这种方法能够更精细地评估模型对用户意图的理解和执行能力。
技术框架:该框架包含以下几个主要步骤:1) 意图维度分解:将用户意图分解为多个语义维度,例如,对于一个菜谱生成任务,维度可能包括菜名、食材、烹饪方法等。2) 结构化提示消融:设计结构化的提示,并系统性地移除或修改提示中的某些维度信息,生成不同的消融提示。3) 模型输出生成:使用大型语言模型对每个消融提示生成输出。4) 维度级评估:分别评估每个维度上的结构恢复和意图保真度。结构恢复评估模型是否正确地输出了该维度的信息,意图保真度评估模型输出的信息是否与用户在该维度上的原始意图一致。5) 整体评估:同时进行整体评估,并将整体评估结果与维度级评估结果进行比较。
关键创新:该论文的关键创新在于提出了维度级意图保真度评估框架,该框架能够更精细地评估模型对用户意图的理解和执行能力。与传统的整体评估方法相比,该框架能够发现模型在某些维度上未能准确理解用户意图的情况,从而提供更准确的评估结果。此外,该论文还通过结构化提示消融研究,系统性地分析了模型在不同维度上的表现,并揭示了一种系统的结构-保真度分离现象。
关键设计:在结构化提示消融研究中,关键的设计包括:1) 消融策略:选择合适的消融策略,例如,完全移除某个维度的信息、修改某个维度的信息等。2) 消融程度:控制消融的程度,例如,移除部分信息、移除全部信息等。3) 评估指标:设计合适的评估指标,例如,使用人工评估或自动评估方法来评估结构恢复和意图保真度。4) 权重扰动实验:通过对不同维度赋予不同的权重,来观察模型对不同维度信息的敏感程度。
📊 实验亮点
实验结果表明,维度级评估能够发现整体评估无法识别的质量缺陷。例如,在中文输出中,25.7%的输出获得了完美的整体对齐分数,但存在可测量的维度意图缺陷;在英文输出中,这一比例上升至58.6%。人工评估证实,这些分离区域的输出代表了真正的质量缺陷,并且维度保真度分数比整体分数更可靠地跟踪人类判断。
🎯 应用场景
该研究成果可应用于大语言模型的评测与优化,尤其是在需要精确理解用户意图的场景下,如智能助手、对话系统、个性化推荐等。通过维度级评估,可以更准确地发现模型在特定任务上的不足,并针对性地进行改进,提升用户体验和任务完成质量。该方法也有助于理解模型内部的推理机制,为开发更可靠、更可控的大语言模型提供指导。
📄 摘要(原文)
Holistic evaluation scores capture overall output quality but do not distinguish whether a model reproduced the structural form of a user's request from whether it preserved the user's specific intent. We propose a dimension-level intent fidelity evaluation framework, applied here through a structured prompt ablation study across 2,880 outputs spanning three languages, three task domains, and six LLMs, that separately measures structural recovery and intent fidelity for each semantic dimension. This framework reveals a systematic structural-fidelity split: among Chinese-language outputs with complete paired scores, 25.7% received perfect holistic alignment scores (GA=5) while exhibiting measurable dimensional intent deficits; among English-language outputs, this proportion rose to 58.6%. Human evaluation confirmed that these split-zone outputs represent genuine quality deficits and that dimensional fidelity scores track human judgements more reliably than holistic scores do. A public-private decomposition of 2,520 ablation cells characterises when models successfully compensate for missing intent and when they fail, while proxy annotation distinguishes prior inferability from default recoverability. A weight-perturbation experiment shows that moderate misalignment is typically absorbed, whereas severe dimensional inversion is consistently harmful. These findings demonstrate that dimension-level intent fidelity evaluation is a necessary complement to holistic assessment when evaluating LLM outputs for user-specific tasks.