LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics

作者: Galadrielle Humblot-Renaux, Mohammad N. S. Jahromi, Rohat Bakuri-Jørgensen, Marieke Anne Heyl, Asta S. Stage Jarlner, Maria Vlachou, Anna Murphy Høgenhaug, Desmond Elliott, Thomas Gammeltoft-Hansen, Thomas B. Moeslund

分类: cs.CL, cs.AI

发布日期: 2026-05-13

备注: Accepted at the 20th Linguistic Annotation Workshop (LAW XX), co-located with ACL 2026 (https://sigann.github.io/LAW-XX-2026/)

🔗 代码/项目: GITHUB

💡 一句话要点

利用LLM标注丹麦语庇护决策可信度评估：评估分类性能与误差

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本分类 可信度评估 丹麦语 庇护决策

📋 核心要点

现有方法在低资源语言和专业领域中，利用LLM进行文本标注的有效性有待考察。
研究利用LLM自动标注丹麦语庇护决策文本，识别可信度评估的存在和情感倾向。
实验结果表明LLM在标注庇护决策方面具有潜力，但也存在不完善和不一致性。

📝 摘要（中文）

本文探讨了使用现成的LLM自动标注文本，尤其是在低资源语言和专业领域中，其有效性仍有待考察。研究针对法律NLP任务，即识别庇护决策文本中可信度评估的存在和情感倾向，进行了基于LLM的标注。为此，作者引入了RAB-Cred数据集，这是一个丹麦语文本分类数据集，包含高质量的专家标注和元数据，如标注者置信度和庇护案件结果。研究对21个开源模型和30种系统-用户提示组合进行了基准测试，并系统地评估了模型和提示选择对零样本和少样本分类的影响。深入研究了表现最佳的模型和提示所犯的错误，调查了LLM之间的错误一致性、类间混淆、与人类置信度的相关性以及样本难度和LLM错误的严重程度。结果证实了LLM在经济高效地标注庇护决策方面的潜力，但也强调了LLM标注者的不完善和不一致性，以及超越单个模型的必要性。RAB-Cred数据集和代码可在https://github.com/glhr/RAB-Cred 获取。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在丹麦语庇护决策文本中自动标注可信度评估的有效性。现有方法在低资源语言和专业领域，特别是需要细致专家理解的场景下，LLM的标注能力尚未充分探索。现有的标注方法成本高昂，且可能存在人为偏差。

核心思路：核心思路是利用预训练的LLMs的文本理解和生成能力，通过零样本或少样本学习，直接对丹麦语庇护决策文本进行可信度评估的标注。通过比较不同模型和提示策略，评估LLM作为标注者的性能和局限性。

技术框架：该研究的技术框架主要包括以下几个阶段：1) 构建RAB-Cred数据集，包含专家标注的丹麦语庇护决策文本；2) 选择一系列开源LLMs，并设计不同的提示策略；3) 使用LLMs对数据集进行零样本和少样本分类；4) 评估LLMs的分类性能，并分析其错误类型和一致性；5) 将LLMs的预测结果与人类标注者的置信度进行比较。

关键创新：关键创新在于：1) 针对丹麦语庇护决策文本这一特定领域，构建了高质量的RAB-Cred数据集；2) 系统地评估了多种LLMs和提示策略在可信度评估任务中的性能；3) 深入分析了LLMs的错误类型和一致性，揭示了LLM标注者的局限性。

关键设计：研究中关键的设计包括：1) 选择了21个开源模型和30种系统-用户提示组合，以覆盖不同的模型架构和提示风格；2) 采用了零样本和少样本学习策略，以评估LLMs在不同数据量下的性能；3) 使用了多种评估指标，包括准确率、精确率、召回率和F1值，以全面评估LLMs的分类性能；4) 通过错误分析，深入研究了LLMs的错误类型和一致性，并将其与人类标注者的置信度进行比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在标注丹麦语庇护决策文本方面具有潜力，但性能并不完美且存在不一致性。研究发现，不同的模型和提示策略对分类性能有显著影响。通过错误分析，揭示了LLM标注者在类间混淆、与人类置信度相关性等方面存在的局限性。研究强调了在实际应用中，需要谨慎选择模型和提示策略，并对LLM的预测结果进行人工审核。

🎯 应用场景

该研究成果可应用于法律领域，特别是庇护申请的自动化处理和分析。通过利用LLM自动标注可信度评估，可以降低人工标注成本，提高处理效率，并为决策者提供更全面的信息。此外，该研究也为其他低资源语言和专业领域的文本标注任务提供了参考。

📄 摘要（原文）

Off-the-shelf large language models (LLMs) are increasingly used to automate text annotation, yet their effectiveness remains underexplored for underrepresented languages and specialized domains where the class definition requires subtle expert understanding. We investigate LLM-based annotation for a novel legal NLP task: identifying the presence and sentiment of credibility assessments in asylum decision texts. We introduce RAB-Cred, a Danish text classification dataset featuring high-quality, expert annotations and valuable metadata such as annotator confidence and asylum case outcome. We benchmark 21 open-weight models and 30 system-user prompt combinations for this task, and systematically evaluate the effect of model and prompt choice for zero-shot and few-shot classification. We zoom in on the errors made by top-performing models and prompts, investigating error consistency across LLMs, inter-class confusion, correlation with human confidence and sample-wise difficulty and severity of LLM mistakes. Our results confirm the potential of LLMs for cost-effective labeling of asylum decisions, but highlight the imperfect and inconsistent nature of LLM annotators, and the need to look beyond the predictions of a single, arbitrarily chosen model. The RAB-Cred dataset and code are available at https://github.com/glhr/RAB-Cred

LLMs as annotators of credibility assessment in Danish asylum decisions: evaluating classification performance and errors beyond aggregated metrics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理