Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation

作者: Sercan Karakaş, Yusuf Şimşek

分类: cs.CL, cs.AI

发布日期: 2026-04-27

备注: Accepted to The 15th edition of the Workshop on Cognitive Modeling and Computational Linguistics, co-located with the Language Resources and Evaluation Conference

💡 一句话要点

评估大型语言模型在土耳其语中对证据来源可信度的推理能力

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 证据推理 土耳其语 来源可信度 自然语言处理

📋 核心要点

现有方法难以评估LLM在处理土耳其语证据性时，对信息来源可信度的敏感性。
通过操纵信息来源的可靠性，对比不同后缀的使用频率，来分析LLM的推理能力。
实验表明，人类表现出明显的信任效应，而LLM的表现不稳定，存在显著的人机差距。

📝 摘要（中文）

本文研究了来源可信度是否会影响土耳其语的证据形态，以及大型语言模型（LLM）是否能追踪这种敏感性。我们研究了在受控完形填空语境中，-DI 和 -mIs 之间的过去时域对比，其中信息来源是明确的外部来源，但仅操纵其感知到的可靠性（高信任度 vs. 低信任度）。在人类生成实验中，以土耳其语为母语的人表现出强大的信任效应：高信任度语境产生相对更多的 -DI，而低信任度语境产生相对更多的 -mIs，且该模式在敏感性分析中保持稳定。然后，我们评估了 10 个 LLM 在三种提示范式（开放式填空、显式过去时填空和强制选择 A/B）下的表现。LLM 的行为高度依赖于模型和提示：一些模型显示出微弱或局部的与信任一致的转变，但效果通常不稳定，经常出现逆转，并且经常被输出依从性问题和强烈的基本比率后缀偏好所掩盖。结果为基于信任/承诺的土耳其语证据性解释提供了新的证据，并揭示了人类与 LLM 在来源敏感的证据推理方面存在明显的差距。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）是否能够像人类一样，在处理土耳其语证据性时，考虑到信息来源的可信度。现有的LLM评估方法通常忽略了语言中细微的证据性差异，以及这些差异与信息来源可信度之间的关系。因此，现有的方法无法准确评估LLM在处理此类复杂推理任务时的能力。

核心思路：论文的核心思路是通过设计受控的完形填空实验，操纵信息来源的可信度（高信任度 vs. 低信任度），并观察LLM在选择不同的土耳其语过去时后缀（-DI 和 -mIs）时的行为。这种设计允许研究人员隔离并量化LLM对来源可信度的敏感性。之所以选择土耳其语，是因为其证据性形态丰富，能够清晰地反映说话者对信息来源的信任程度。

技术框架：整体实验框架包括以下几个阶段：1) 设计受控的完形填空语境，其中信息来源明确，但其可信度被操纵。2) 进行人类实验，收集土耳其语母语者在不同可信度语境下的后缀选择偏好。3) 使用三种不同的提示范式（开放式填空、显式过去时填空和强制选择 A/B）评估10个LLM。4) 对比人类和LLM的后缀选择模式，分析LLM对来源可信度的敏感性。

关键创新：论文的关键创新在于其研究方法，即通过操纵信息来源的可信度来评估LLM的证据推理能力。与以往的研究不同，该研究不仅关注LLM的语言生成能力，更关注其对信息来源的认知和推理能力。此外，该研究还首次将这种方法应用于土耳其语，为研究LLM在资源较少语言中的推理能力提供了新的视角。

关键设计：在实验设计方面，关键在于构建清晰明确的高信任度和低信任度语境。例如，高信任度语境可能涉及权威专家或可靠的新闻来源，而低信任度语境可能涉及谣言或不可靠的社交媒体帖子。在LLM评估方面，使用了三种不同的提示范式，以测试LLM在不同条件下的表现。此外，还对LLM的输出进行了详细的分析，包括后缀选择频率、输出依从性问题和基本比率后缀偏好等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，人类在不同信任度语境下表现出显著的后缀选择偏好，高信任度语境倾向于使用-DI，低信任度语境倾向于使用-mIs。然而，LLM的表现不稳定，对信任度的敏感性较弱，且受到输出依从性和后缀偏好的影响。这表明LLM在来源敏感的证据推理方面与人类存在显著差距。

🎯 应用场景

该研究成果可应用于提升LLM在自然语言理解和生成方面的能力，尤其是在处理涉及证据推理和信息来源评估的任务时。例如，可以用于开发更可靠的新闻摘要系统、更智能的对话代理和更准确的知识图谱构建工具。此外，该研究也为评估和改进LLM在其他资源较少语言中的推理能力提供了借鉴。

📄 摘要（原文）

This paper investigates whether source trustworthiness shapes Turkish evidential morphology and whether large language models (LLMs) track this sensitivity. We study the past-domain contrast between -DI and -mIs in controlled cloze contexts where the information source is overtly external, while only its perceived reliability is manipulated (High-Trust vs. Low-Trust). In a human production experiment, native speakers of Turkish show a robust trust effect: High-Trust contexts yield relatively more -DI, whereas Low-Trust contexts yield relatively more -mIs, with the pattern remaining stable across sensitivity analyses. We then evaluate 10 LLMs in three prompting paradigms (open gap-fill, explicit past-tense gap-fill, and forced-choice A/B selection). LLM behavior is highly model- and prompt-dependent: some models show weak or local trust-consistent shifts, but effects are generally unstable, often reversed, and frequently overshadowed by output-compliance problems and strong base-rate suffix preferences. The results provide new evidence for a trust-/commitment-based account of Turkish evidentiality and reveal a clear human-LLM gap in source-sensitive evidential reasoning.

Benchmarking Source-Sensitive Reasoning in Turkish: Humans and LLMs under Evidential Trust Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理