Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation

📄 arXiv: 2604.24665v1 📥 PDF

作者: Sercan Karakaş, Yusuf Şimşek

分类: cs.CL, cs.AI

发布日期: 2026-04-27

备注: Accepted to The 15th edition of the Workshop on Cognitive Modeling and Computational Linguistics, co-located with the Language Resources and Evaluation Conference


💡 一句话要点

评估大型语言模型在土耳其语中对证据来源可信度的推理能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 证据推理 土耳其语 来源可信度 自然语言处理

📋 核心要点

  1. 现有方法难以评估LLM在处理土耳其语证据性时,对信息来源可信度的敏感性。
  2. 通过操纵信息来源的可靠性,对比不同后缀的使用频率,来分析LLM的推理能力。
  3. 实验表明,人类表现出明显的信任效应,而LLM的表现不稳定,存在显著的人机差距。

📝 摘要(中文)

本文研究了来源可信度是否会影响土耳其语的证据形态,以及大型语言模型(LLM)是否能追踪这种敏感性。我们研究了在受控完形填空语境中,-DI 和 -mIs 之间的过去时域对比,其中信息来源是明确的外部来源,但仅操纵其感知到的可靠性(高信任度 vs. 低信任度)。在人类生成实验中,以土耳其语为母语的人表现出强大的信任效应:高信任度语境产生相对更多的 -DI,而低信任度语境产生相对更多的 -mIs,且该模式在敏感性分析中保持稳定。然后,我们评估了 10 个 LLM 在三种提示范式(开放式填空、显式过去时填空和强制选择 A/B)下的表现。LLM 的行为高度依赖于模型和提示:一些模型显示出微弱或局部的与信任一致的转变,但效果通常不稳定,经常出现逆转,并且经常被输出依从性问题和强烈的基本比率后缀偏好所掩盖。结果为基于信任/承诺的土耳其语证据性解释提供了新的证据,并揭示了人类与 LLM 在来源敏感的证据推理方面存在明显的差距。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)是否能够像人类一样,在处理土耳其语证据性时,考虑到信息来源的可信度。现有的LLM评估方法通常忽略了语言中细微的证据性差异,以及这些差异与信息来源可信度之间的关系。因此,现有的方法无法准确评估LLM在处理此类复杂推理任务时的能力。

核心思路:论文的核心思路是通过设计受控的完形填空实验,操纵信息来源的可信度(高信任度 vs. 低信任度),并观察LLM在选择不同的土耳其语过去时后缀(-DI 和 -mIs)时的行为。这种设计允许研究人员隔离并量化LLM对来源可信度的敏感性。之所以选择土耳其语,是因为其证据性形态丰富,能够清晰地反映说话者对信息来源的信任程度。

技术框架:整体实验框架包括以下几个阶段:1) 设计受控的完形填空语境,其中信息来源明确,但其可信度被操纵。2) 进行人类实验,收集土耳其语母语者在不同可信度语境下的后缀选择偏好。3) 使用三种不同的提示范式(开放式填空、显式过去时填空和强制选择 A/B)评估10个LLM。4) 对比人类和LLM的后缀选择模式,分析LLM对来源可信度的敏感性。

关键创新:论文的关键创新在于其研究方法,即通过操纵信息来源的可信度来评估LLM的证据推理能力。与以往的研究不同,该研究不仅关注LLM的语言生成能力,更关注其对信息来源的认知和推理能力。此外,该研究还首次将这种方法应用于土耳其语,为研究LLM在资源较少语言中的推理能力提供了新的视角。

关键设计:在实验设计方面,关键在于构建清晰明确的高信任度和低信任度语境。例如,高信任度语境可能涉及权威专家或可靠的新闻来源,而低信任度语境可能涉及谣言或不可靠的社交媒体帖子。在LLM评估方面,使用了三种不同的提示范式,以测试LLM在不同条件下的表现。此外,还对LLM的输出进行了详细的分析,包括后缀选择频率、输出依从性问题和基本比率后缀偏好等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,人类在不同信任度语境下表现出显著的后缀选择偏好,高信任度语境倾向于使用-DI,低信任度语境倾向于使用-mIs。然而,LLM的表现不稳定,对信任度的敏感性较弱,且受到输出依从性和后缀偏好的影响。这表明LLM在来源敏感的证据推理方面与人类存在显著差距。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解和生成方面的能力,尤其是在处理涉及证据推理和信息来源评估的任务时。例如,可以用于开发更可靠的新闻摘要系统、更智能的对话代理和更准确的知识图谱构建工具。此外,该研究也为评估和改进LLM在其他资源较少语言中的推理能力提供了借鉴。

📄 摘要(原文)

This paper investigates whether source trustworthiness shapes Turkish evidential morphology and whether large language models (LLMs) track this sensitivity. We study the past-domain contrast between -DI and -mIs in controlled cloze contexts where the information source is overtly external, while only its perceived reliability is manipulated (High-Trust vs. Low-Trust). In a human production experiment, native speakers of Turkish show a robust trust effect: High-Trust contexts yield relatively more -DI, whereas Low-Trust contexts yield relatively more -mIs, with the pattern remaining stable across sensitivity analyses. We then evaluate 10 LLMs in three prompting paradigms (open gap-fill, explicit past-tense gap-fill, and forced-choice A/B selection). LLM behavior is highly model- and prompt-dependent: some models show weak or local trust-consistent shifts, but effects are generally unstable, often reversed, and frequently overshadowed by output-compliance problems and strong base-rate suffix preferences. The results provide new evidence for a trust-/commitment-based account of Turkish evidentiality and reveal a clear human-LLM gap in source-sensitive evidential reasoning.