Selecting the Right LLM for eGov Explanations

📄 arXiv: 2504.21032v1 📥 PDF

作者: Lior Limonad, Fabiana Fournier, Hadar Mulian, George Manias, Spiros Borotis, Danai Kyrkou

分类: cs.CY, cs.AI, cs.LG

发布日期: 2025-04-27

备注: 8 pages, 7 figures. ICEDEG 2025, Bern, Switzerland, June 2025


💡 一句话要点

针对电子政务解释,提出LLM选择方法,提升用户信任与服务使用率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子政务 大型语言模型 可解释性 用户研究 自动化评估

📋 核心要点

  1. 电子政务解释质量直接影响用户信任度,但缺乏系统方法选择合适的LLM生成高质量解释。
  2. 论文改编现有评估量表,提出一种系统性的LLM选择方法,用于比较不同LLM生成解释的质量。
  3. 通过退税案例的用户研究,验证了该方法的可行性,并初步探索了利用预测技术自动化评估流程。

📝 摘要(中文)

电子政务服务解释的可理解性对于提升用户信任至关重要,进而促进服务的使用。大型语言模型(LLM)的最新进展为自动化生成此类内容提供了可能,提高了可解释性和准确性,并能根据不同受众调整内容。然而,为电子政务服务选择合适的LLM类型已成为一项具有挑战性的任务。本文改编了一种先前开发的评估量表,以辅助LLM的选择,为比较分析不同LLM生成的解释质量提供了一种系统的方法。我们通过退税流程展示了其适用性,将其作为一个示例用例,该用例可以受益于使用LLM生成关于退税决定的解释。通过一项包含128名调查参与者的用户研究,参与者被要求对不同版本的LLM生成的关于退税决定的解释进行评分,从而为选择最合适的LLM提供了方法论基础。考虑到进行此类调查的实际挑战,我们还开始探索该过程的自动化,尝试使用一系列前沿预测技术来复制人类反馈。

🔬 方法详解

问题定义:电子政务服务需要清晰、准确的解释,以提高用户信任度和使用率。现有方法缺乏系统性的LLM选择机制,难以保证解释质量,且人工评估成本高昂。不同LLM在生成解释方面的能力存在差异,如何针对特定电子政务场景选择最优LLM是一个关键问题。

核心思路:论文的核心思路是利用用户对LLM生成解释的感知质量作为选择LLM的标准。通过改编现有的评估量表,构建一个系统化的评估框架,用于比较不同LLM生成的解释质量。同时,探索利用预测模型自动化评估过程,降低人工成本。

技术框架:该方法主要包含以下几个阶段: 1. LLM选择:选择多个候选LLM,例如不同规模、不同架构的LLM。 2. 解释生成:利用候选LLM针对特定的电子政务场景生成解释文本。 3. 用户评估:招募用户对不同LLM生成的解释文本进行评分,使用改编后的评估量表。 4. LLM选择:根据用户评分结果,选择得分最高的LLM作为最终选择。 5. 自动化探索:尝试使用机器学习模型预测用户评分,以实现自动化评估。

关键创新:该方法的主要创新在于: 1. 将用户感知质量作为LLM选择的关键指标,更贴合实际应用需求。 2. 系统化地改编和应用评估量表,为LLM选择提供可量化的依据。 3. 初步探索了自动化评估的可能性,有望降低评估成本。

关键设计: 1. 评估量表:改编自先前开发的量表,具体指标未知,但应包含可理解性、准确性、相关性等维度。 2. 用户研究:招募128名参与者,可能包含不同背景的用户,以保证评估结果的代表性。 3. 预测模型:使用了“一系列前沿预测技术”,具体模型未知,但目标是预测用户对解释文本的评分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过用户研究验证了该方法在退税场景中的有效性。128名参与者对不同LLM生成的解释进行了评分,为选择最合适的LLM提供了数据支持。此外,论文还初步探索了利用预测技术自动化评估流程的可能性,为降低评估成本提供了潜在途径。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于各种电子政务服务场景,例如税务、社保、医疗等,帮助政府机构选择合适的LLM生成高质量的解释文本,提升用户满意度和信任度,促进电子政务服务的普及和使用。未来,该方法可以扩展到其他领域,例如金融、法律等,为自动化生成解释文本提供指导。

📄 摘要(原文)

The perceived quality of the explanations accompanying e-government services is key to gaining trust in these institutions, consequently amplifying further usage of these services. Recent advances in generative AI, and concretely in Large Language Models (LLMs) allow the automation of such content articulations, eliciting explanations' interpretability and fidelity, and more generally, adapting content to various audiences. However, selecting the right LLM type for this has become a non-trivial task for e-government service providers. In this work, we adapted a previously developed scale to assist with this selection, providing a systematic approach for the comparative analysis of the perceived quality of explanations generated by various LLMs. We further demonstrated its applicability through the tax-return process, using it as an exemplar use case that could benefit from employing an LLM to generate explanations about tax refund decisions. This was attained through a user study with 128 survey respondents who were asked to rate different versions of LLM-generated explanations about tax refund decisions, providing a methodological basis for selecting the most appropriate LLM. Recognizing the practical challenges of conducting such a survey, we also began exploring the automation of this process by attempting to replicate human feedback using a selection of cutting-edge predictive techniques.