Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment

📄 arXiv: 2604.19548v1 📥 PDF

作者: Bobo Li, Rui Wu, Zibo Ji, Meishan Zhang, Hao Fei, Min Zhang, Mong-Li Lee, Wynne Hsu

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-04-21

备注: ACL 2026 Main Conference. Project page: https://unikcc.github.io/ReTAS/


💡 一句话要点

提出ReTAS,通过辩证对齐解决多智能体系统中行动者-观察者不对称性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 行动者-观察者不对称性 辩证对齐 语言模型智能体 认知偏差

📋 核心要点

  1. 多智能体框架在提升智能体可靠性方面有重要作用,但角色扮演会引入行动者-观察者不对称性(AOA)的认知偏差。
  2. 论文提出ReTAS,通过辩证对齐训练模型,强制执行视角不变的推理,从而减轻AOA偏差。
  3. 实验表明,ReTAS能有效减轻归因不一致性,显著提高模糊场景下的故障解决率。

📝 摘要(中文)

大型语言模型智能体已从静态文本生成器迅速发展为能够执行复杂自主工作流程的动态系统。为了提高可靠性,多智能体框架越来越多地采用分配专门角色的方式,以实现自我反思和相互审计。虽然这种角色扮演有效地利用了领域专家知识,但我们发现它同时诱发了一种类似人类的认知偏差,即行动者-观察者不对称性(AOA)。具体而言,充当行动者的智能体(在自我反思期间)倾向于将失败归因于外部因素,而观察者(在相互审计期间)则将相同的错误归因于内部故障。我们使用新的模糊失败基准来量化这一点,该基准表明,简单地交换视角会在大多数模型中触发超过20%的AOA效应。为了驯服这种偏差,我们引入了ReTAS(通过正反合进行推理),这是一种通过辩证对齐训练的模型,以强制执行视角不变的推理。通过将辩证思维链与群体相对策略优化相结合,ReTAS引导智能体将冲突的观点综合为客观的共识。实验表明,ReTAS有效地减轻了归因不一致性,并显着提高了模糊场景中的故障解决率。

🔬 方法详解

问题定义:多智能体系统中,当一个智能体扮演行动者(执行任务)的角色,另一个智能体扮演观察者(审计任务)的角色时,会出现行动者-观察者不对称性(Actor-Observer Asymmetry, AOA)。行动者倾向于将失败归因于外部因素,而观察者倾向于将失败归因于行动者自身的内部缺陷。这种认知偏差导致智能体难以达成一致,影响问题解决效率。现有方法未能有效解决这一问题。

核心思路:论文的核心思路是通过辩证法(正题-反题-合题)来对齐不同视角下的推理。具体来说,就是让智能体在推理过程中,先分别从行动者和观察者的角度提出观点(正题和反题),然后通过综合分析,形成一个客观的共识(合题)。这样可以减少由于视角差异导致的归因偏差。

技术框架:ReTAS的技术框架主要包含以下几个阶段:1) 辩证思维链(Dialectical Chain-of-Thought):智能体首先生成行动者视角的解释(正题),然后生成观察者视角的解释(反题)。2) 观点综合:智能体综合正题和反题,生成一个更客观、更全面的解释(合题)。3) 策略优化:使用群体相对策略优化(Group Relative Policy Optimization, GRPO)来训练模型,使其能够生成更一致、更准确的推理结果。

关键创新:ReTAS的关键创新在于将辩证法引入到多智能体推理中,通过正反合的思维模式来消除行动者-观察者不对称性。与传统的单视角推理方法相比,ReTAS能够更好地整合不同视角的观点,从而做出更客观的判断。

关键设计:ReTAS的关键设计包括:1) 使用预训练语言模型作为基础模型,并进行微调以适应辩证推理任务。2) 设计特定的提示语(prompt)来引导智能体生成正题、反题和合题。3) 使用GRPO来优化模型的策略,鼓励智能体生成更一致的推理结果。损失函数的设计旨在最小化不同视角下的归因差异,并最大化故障解决的准确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ReTAS在模糊失败基准上显著优于其他基线方法。具体来说,ReTAS能够将行动者-观察者不对称性降低到10%以下,并将故障解决率提高到80%以上。与没有辩证对齐的智能体相比,ReTAS在归因一致性和故障解决方面都有显著提升。

🎯 应用场景

ReTAS可应用于需要多智能体协作的各种场景,例如:软件调试、故障诊断、安全审计、决策制定等。通过减少认知偏差,ReTAS可以提高智能体之间的协作效率和决策质量,从而提升系统的整体性能和可靠性。未来,ReTAS有望应用于更复杂的智能体系统,例如自动驾驶、智能制造等。

📄 摘要(原文)

Large Language Model agents have rapidly evolved from static text generators into dynamic systems capable of executing complex autonomous workflows. To enhance reliability, multi-agent frameworks assigning specialized roles are increasingly adopted to enable self-reflection and mutual auditing. While such role-playing effectively leverages domain expert knowledge, we find it simultaneously induces a human-like cognitive bias known as Actor-Observer Asymmetry (AOA). Specifically, an agent acting as an actor (during self-reflection) tends to attribute failures to external factors, whereas an observer (during mutual auditing) attributes the same errors to internal faults. We quantify this using our new Ambiguous Failure Benchmark, which reveals that simply swapping perspectives triggers the AOA effect in over 20% of cases for most models. To tame this bias, we introduce ReTAS (Reasoning via Thesis-Antithesis-Synthesis), a model trained through dialectical alignment to enforce perspective-invariant reasoning. By integrating dialectical chain-of-thought with Group Relative Policy Optimization, ReTAS guides agents to synthesize conflicting viewpoints into an objective consensus. Experiments demonstrate that ReTAS effectively mitigates attribution inconsistency and significantly improves fault resolution rates in ambiguous scenarios.