Not What, But How: A Communicative Audit of LLM Response Framing

📄 arXiv: 2606.02493v1 📥 PDF

作者: Siddhesh Milind Pawar, Sarah Masud, Haneul Yoo, Alice Oh, Isabelle Augenstein

分类: cs.CL

发布日期: 2026-06-01

备注: 34 main pages, 19 Figures, 4 Tables


💡 一句话要点

提出FRANZ框架,用于评估LLM在主观问题回答中的沟通方式

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 沟通审计 主观问题回答 响应框架 文化定位

📋 核心要点

  1. 现有LLM评估侧重于事实正确性,忽略了主观问题回答中沟通方式的重要性。
  2. FRANZ框架通过文化定位、泛化语言、拟人化线索和会话准则四个维度进行LLM响应的沟通审计。
  3. SQUARE语料库包含37.6万个主观问题,实验表明LLM在响应特征频率上存在显著差异。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于回答主观的、寻求信息的问题,在这些问题中,用户不仅关心答案是否正确,还关心答案的沟通方式。现有的针对主观文化查询的LLM评估主要集中在事实正确性上,忽略了响应的框架。为此,我们引入了FRANZ,一个用于响应特征化的自动化框架,以对LLM响应进行沟通审计,包括四个维度:文化定位、泛化语言的使用、拟人化线索以及对会话准则的遵守。为了实现这一评估,我们贡献了SQUARE,一个包含来自57个subreddit的37.6万个主观问题的语料库,并将其映射到7个国家和19个问题类别。我们通过对三个开源LLM的响应进行评分,展示了FRANZ的适用性。我们观察到,LLM在采用每种响应特征的频率上表现出统计上的显著差异。与单维度审计不同,FRANZ揭示了内部人士定位和拟人化是正相关的,且相关程度因国家而异,为识别框架差异提供了一个诊断视角。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在回答主观性问题时,现有评估方法忽略了沟通方式的问题。现有方法主要关注事实正确性,而忽略了用户对回答框架(framing)的感知,例如文化立场、语言风格等。这种忽略可能导致用户对LLM的信任度降低,甚至产生误解。

核心思路:论文的核心思路是构建一个自动化的评估框架FRANZ,用于对LLM的响应进行多维度的沟通审计。FRANZ从文化定位、泛化语言、拟人化线索和会话准则四个维度来刻画LLM的响应,从而更全面地评估LLM在主观问题回答中的表现。通过这种多维度的评估,可以发现LLM在不同维度上的优势和不足,并为改进LLM的响应策略提供指导。

技术框架:FRANZ框架主要包含以下几个模块:1) 数据收集模块:构建了SQUARE语料库,包含来自多个subreddit的主观问题,并将其映射到不同的国家和问题类别。2) 特征提取模块:针对每个维度,设计了相应的特征提取方法,例如,使用预训练语言模型来识别文化定位,使用关键词匹配来检测泛化语言。3) 评分模块:基于提取的特征,对LLM的响应进行评分,从而量化LLM在每个维度上的表现。4) 分析模块:对评分结果进行统计分析,从而发现LLM在不同维度上的差异,并识别框架差异。

关键创新:论文的关键创新在于提出了一个多维度的沟通审计框架FRANZ,用于评估LLM在主观问题回答中的表现。与现有的单维度评估方法相比,FRANZ可以更全面地刻画LLM的响应,并发现LLM在不同维度上的差异。此外,论文还构建了一个大规模的主观问题语料库SQUARE,为LLM的评估提供了数据基础。

关键设计:FRANZ框架的关键设计包括:1) 文化定位维度:使用预训练语言模型来识别LLM的文化立场,例如,判断LLM是否站在内部人士的角度来回答问题。2) 泛化语言维度:使用关键词匹配来检测LLM是否使用了过于泛化的语言,例如,“所有人都...”。3) 拟人化线索维度:使用规则和关键词匹配来检测LLM是否使用了拟人化的表达方式,例如,“我感觉...”。4) 会话准则维度:评估LLM是否遵守了会话准则,例如,是否提供了足够的信息,是否避免了歧义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在文化定位、泛化语言、拟人化线索和会话准则四个维度上存在显著差异。FRANZ框架揭示了内部人士定位和拟人化之间存在正相关关系,且相关程度因国家而异。这些发现为改进LLM的响应策略提供了重要的诊断信息。

🎯 应用场景

该研究成果可应用于提升LLM在客户服务、在线咨询、教育辅导等领域的应用效果。通过FRANZ框架,可以诊断LLM在沟通方式上的不足,从而优化其响应策略,提高用户满意度和信任度。此外,该研究也有助于开发更具文化敏感性和人情味的AI助手。

📄 摘要(原文)

Large language models (LLMs) are being increasingly used to answer subjective, information-seeking questions, where users are sensitive to how responses are communicated, not just whether the answers are correct. Existing LLM evaluations for subjective cultural queries largely focus on factual correctness, ignoring how the response is framed. To this end, we introduce FRANZ, an automated FRAmework for respoNse characteriZation to conduct communicative audit of LLM responses along four dimensions: cultural positioning, use of generalizing language, anthropomorphic cues, and adherence to conversational maxims. To enable this evaluation, we contribute SQUARE - a corpus of 376k subjective questions sourced from 57 subreddits, and mapped to 7 countries and 19 question categories. We demonstrate FRANZ's applicability by scoring responses from three open-weight LLMs. We observe that LLMs show statistically significant differences in the frequency with which they employ each response characteristic. Unlike single-dimensional audits, FRANZ reveals that insider positioning and anthropomorphism are positively coupled, with the degree of coupling varying by country, providing a diagnostic lens for identifying framing divergences.