Seeing Eye to Eye: Enabling Cognitive Alignment Through Shared First-Person Perspective in Human-AI Collaboration
作者: Zhuyu Teng, Pei Chen, Yichen Cai, Ruoqing Lu, Zhaoqu Jiang, Jiayang Li, Weitao You, Lingyun Sun
分类: cs.HC, cs.AI
发布日期: 2026-03-13
备注: 19 pages, 11 figures. Accepted at ACM CHI 2026, Barcelona
💡 一句话要点
Eye2Eye:通过共享第一人称视角实现人机协作中的认知对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人机协作 认知对齐 第一人称视角 增强现实 联合注意力
📋 核心要点
- 现有视觉助手在人机协作中存在沟通和理解鸿沟,导致效率低下。
- Eye2Eye框架利用第一人称视角,通过联合注意力、可修改记忆和反思性反馈实现认知对齐。
- 实验表明,Eye2Eye能显著减少任务完成时间,降低交互负担,并提高用户信任度。
📝 摘要(中文)
尽管多模态人工智能取得了进展,但目前基于视觉的助手在协作任务中效率仍然不高。我们发现了两个关键鸿沟:一是沟通鸿沟,由于通道不匹配,用户必须将丰富的并行意图转化为口头命令;二是理解鸿沟,人工智能难以解释微妙的具身线索。为了解决这些问题,我们提出了Eye2Eye,一个利用第一人称视角作为人机认知对齐通道的框架。它集成了三个组件:(1)用于流畅焦点对齐的联合注意力协调,(2)用于维护不断演变的共同基础的可修改记忆,以及(3)允许用户澄清和完善AI理解的反思性反馈。我们在AR原型中实现了这个框架,并通过用户研究和事后pipeline评估对其进行了评估。结果表明,Eye2Eye显著减少了任务完成时间和交互负担,同时增加了信任,证明了其组件协同工作以改善协作。
🔬 方法详解
问题定义:论文旨在解决人机协作中,由于沟通方式和理解能力差异导致的效率低下问题。现有方法主要依赖于语音指令,用户需要将视觉信息转化为语言,造成信息损失。同时,AI难以理解人类的非语言线索,影响协作效果。
核心思路:论文的核心思路是利用第一人称视角作为共享通道,实现人机之间的认知对齐。通过让AI“看到”人类所看到的,并理解人类的意图,从而减少沟通成本,提高协作效率。这种设计模拟了人类之间的协作方式,更自然和直观。
技术框架:Eye2Eye框架包含三个主要模块:1) 联合注意力协调:用于对齐人与AI的关注焦点,确保双方关注同一对象。2) 可修改记忆:用于维护和更新人机之间的共同知识基础,允许用户纠正AI的错误理解。3) 反思性反馈:允许用户对AI的理解进行澄清和改进,从而提高AI的理解能力。整体流程是,用户通过第一人称视角与AI交互,AI利用联合注意力确定关注点,更新可修改记忆,并通过反思性反馈不断学习和改进。
关键创新:该论文的关键创新在于将第一人称视角引入人机协作,并将其与联合注意力、可修改记忆和反思性反馈相结合,形成一个完整的认知对齐框架。与传统方法相比,Eye2Eye能够更好地理解人类的意图,减少沟通成本,提高协作效率。
关键设计:论文中联合注意力模块的具体实现方式未知。可修改记忆模块可能采用了某种知识图谱或记忆网络结构,具体细节未知。反思性反馈模块的设计也未详细描述,可能涉及自然语言处理和对话管理技术。损失函数和网络结构等技术细节也未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
用户研究表明,Eye2Eye显著减少了任务完成时间和交互负担,同时增加了用户对AI的信任度。具体性能数据和对比基线未在摘要中给出,但结果表明Eye2Eye的三个组件协同工作,有效改善了人机协作。
🎯 应用场景
Eye2Eye框架具有广泛的应用前景,例如远程协助、智能家居、机器人辅助手术等。它可以帮助人们更高效地与AI系统协作,完成各种复杂任务。未来,该技术有望应用于教育、医疗、工业等领域,提高生产效率和服务质量。
📄 摘要(原文)
Despite advances in multimodal AI, current vision-based assistants often remain inefficient in collaborative tasks. We identify two key gulfs: a communication gulf, where users must translate rich parallel intentions into verbal commands due to the channel mismatch , and an understanding gulf, where AI struggles to interpret subtle embodied cues. To address these, we propose Eye2Eye, a framework that leverages first-person perspective as a channel for human-AI cognitive alignment. It integrates three components: (1) joint attention coordination for fluid focus alignment, (2) revisable memory to maintain evolving common ground, and (3) reflective feedback allowing users to clarify and refine AI's understanding. We implement this framework in an AR prototype and evaluate it through a user study and a post-hoc pipeline evaluation. Results show that Eye2Eye significantly reduces task completion time and interaction load while increasing trust, demonstrating its components work in concert to improve collaboration.