Domain-Grounded Evaluation of LLMs in International Student Knowledge
作者: Claudinei Daitx, Haitham Amar
分类: cs.HC, cs.AI, cs.LG
发布日期: 2025-10-07
💡 一句话要点
针对留学知识领域,提出领域相关的LLM评估方法,解决幻觉问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 留学知识 领域评估 幻觉检测 教育科技
📋 核心要点
- 现有LLM在留学咨询等高风险场景中应用广泛,但其可靠性和幻觉问题亟待解决。
- 提出一种领域相关的LLM评估方法,侧重于准确性和幻觉检测,并考虑领域覆盖范围。
- 通过真实留学咨询问题进行评估,揭示了LLM在留学知识领域的常见失败模式。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于回答关于入学、签证、奖学金和资格等高风险的留学问题。然而,它们为学生提供建议的可靠性,以及原本有用的答案中出现无依据声明(“幻觉”)的频率,仍然不清楚。本研究提供了一个清晰的、领域相关的概述,展示了当前LLM在这种场景下的表现。我们使用来自ApplyBoard(一个支持学生从发现到入学的教育科技平台)的咨询工作流程中的真实问题,并肩评估两个要素:准确性(信息是否正确和完整?)和幻觉(模型是否添加了问题或领域证据不支持的内容?)。这些问题按领域范围分类,可以是单领域或多领域——当它必须整合跨领域(如入学、签证和奖学金)的证据时。为了反映真实的咨询质量,我们使用一个简单的评分标准对答案进行评分,分为正确、部分正确或错误。该评分标准具有领域覆盖感知能力:如果答案仅涉及所需领域的一个子集,则该答案可能是部分正确的;如果它引入了额外的、不必要的领域,则该答案可能是过度范围的;这两种模式都在我们的评分中被捕捉为覆盖不足或相关性/幻觉降低。我们还报告了忠实度和答案相关性的度量,以及一个聚合的幻觉分数,以捕捉相关性和有用性。所有模型都使用相同的问题进行测试,以进行公平的正面比较。我们的目标是:(1)清晰地展示哪些模型最适合留学咨询,(2)揭示常见的失败模式——答案不完整、离题或无依据,以及(3)为在教育和咨询环境中部署LLM之前提供一个实用的、可重用的审计协议。
🔬 方法详解
问题定义:论文旨在解决LLM在留学知识领域应用中存在的可靠性问题,特别是模型产生幻觉,提供不准确或无依据信息的现象。现有方法缺乏对特定领域的深入评估,无法有效衡量LLM在留学咨询场景下的真实表现。
核心思路:论文的核心思路是构建一个领域相关的评估框架,该框架不仅关注答案的准确性,还关注答案是否超出问题或领域证据的范围(即幻觉)。通过设计专门的评分标准,可以更全面地评估LLM在留学咨询任务中的表现。
技术框架:该评估框架主要包含以下几个阶段:1) 从ApplyBoard的咨询工作流程中收集真实留学咨询问题;2) 将问题按领域范围分类(单领域或多领域);3) 使用LLM生成答案;4) 使用领域覆盖感知的评分标准(正确、部分正确、错误)对答案进行评分,同时评估忠实度和答案相关性;5) 计算聚合的幻觉分数。
关键创新:该论文的关键创新在于提出了领域覆盖感知的评分标准,该标准能够区分答案的覆盖不足(under-coverage)和过度范围(over-scoped)两种情况,从而更准确地评估LLM的幻觉问题。此外,使用真实留学咨询问题作为评估数据集,使得评估结果更具实际意义。
关键设计:评分标准的设计是关键。它不仅考虑了答案的正确性,还考虑了答案是否完整地覆盖了问题所涉及的领域,以及是否引入了不必要的额外领域。这种设计使得评估能够更全面地反映LLM在留学咨询任务中的表现。
🖼️ 关键图片
📊 实验亮点
该研究通过实验揭示了现有LLM在留学知识领域的不足,并量化了不同模型的幻觉程度。实验结果表明,领域相关的评估方法能够更有效地识别LLM的缺陷,为改进LLM在特定领域的应用提供了有价值的参考。
🎯 应用场景
该研究成果可应用于教育科技领域,帮助留学机构和学生评估和选择更可靠的LLM咨询服务。此外,该评估方法可以推广到其他专业领域,为LLM在特定领域的应用提供质量保障,并为LLM的改进提供指导。
📄 摘要(原文)
Large language models (LLMs) are increasingly used to answer high-stakes study-abroad questions about admissions, visas, scholarships, and eligibility. Yet it remains unclear how reliably they advise students, and how often otherwise helpful answers drift into unsupported claims (``hallucinations''). This work provides a clear, domain-grounded overview of how current LLMs behave in this setting. Using realistic questions set drawn from ApplyBoard's advising workflows -- an EdTech platform that supports students from discovery to enrolment -- we evaluate two essentials side by side: accuracy (is the information correct and complete?) and hallucination (does the model add content not supported by the question or domain evidence). These questions are categorized by domain scope which can be a single-domain or multi-domain -- when it must integrate evidence across areas such as admissions, visas, and scholarships. To reflect real advising quality, we grade answers with a simple rubric which is correct, partial, or wrong. The rubric is domain-coverage-aware: an answer can be partial if it addresses only a subset of the required domains, and it can be over-scoped if it introduces extra, unnecessary domains; both patterns are captured in our scoring as under-coverage or reduced relevance/hallucination. We also report measures of faithfulness and answer relevance, alongside an aggregate hallucination score, to capture relevance and usefulness. All models are tested with the same questions for a fair, head-to-head comparison. Our goals are to: (1) give a clear picture of which models are most dependable for study-abroad advising, (2) surface common failure modes -- where answers are incomplete, off-topic, or unsupported, and (3) offer a practical, reusable protocol for auditing LLMs before deployment in education and advising contexts.