Multi-Turn Human-LLM Interaction Through the Lens of a Two-Way Intelligibility Protocol

📄 arXiv: 2410.20600v4 📥 PDF

作者: Harshvardhan Mestha, Karan Bania, Shreyas V Sathyanarayana, Sidong Liu, Ashwin Srinivasan

分类: cs.AI, cs.HC, cs.LG, cs.MA

发布日期: 2024-10-27 (更新: 2025-10-09)

备注: Multi-Turn Interactions in Large Language Models (MTI-LLM) Workshop at NeurIPS 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于双向可理解性协议的多轮人-LLM交互框架,提升数据分析任务效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人机交互 大型语言模型 双向可理解性 有限状态机 数据分析

📋 核心要点

  1. 现有LLM在复杂数据分析任务中,难以有效利用人类专家的知识和创造力,导致问题解决效率受限。
  2. 论文提出基于双向可理解性协议的多轮交互框架,通过有限状态机建模人与LLM的通信过程,提升交互效率。
  3. 实验结果表明,该协议能够有效捕捉人-LLM交互中的可理解性,并在放射学和药物设计领域展现出应用潜力。

📝 摘要(中文)

本文研究了人-专家与大型语言模型(LLM)之间在数据分析任务中,通过自然语言进行交互的软件系统设计。针对复杂问题,LLM可以利用人类的专业知识和创造力来寻找难以获得的解决方案。这种交互通过人提出的提示和LLM的响应进行多轮迭代。本文基于[3]中描述的代理交互抽象协议,提出了一种更结构化的方法,该协议受到“双向可理解性”概念的驱动,并由一对通信有限状态机建模。我们实现了该协议,并提供了经验证据,证明该实现可以协调LLM和人类在放射学和药物设计两个科学领域的交互。我们进行了与人类代理(数据库)的受控实验,以及与人类受试者的非受控实验。结果表明,该协议能够捕捉人-LLM交互中的单向和双向可理解性,并证明了双向可理解性在人机系统设计中的效用。代码可在https://github.com/karannb/interact 获取。

🔬 方法详解

问题定义:论文旨在解决人与LLM在复杂数据分析任务中进行有效多轮交互的问题。现有方法通常依赖于非结构化的自然语言交互,缺乏明确的协议和可理解性保证,导致交互效率低下,难以充分利用人类专家的知识。

核心思路:论文的核心思路是引入“双向可理解性”的概念,并将其形式化为一个交互协议。该协议旨在确保人与LLM在交互过程中能够相互理解对方的意图和信息,从而提高交互效率和问题解决能力。通过结构化的协议,可以减少歧义,并促进更有效的知识传递。

技术框架:该框架基于一个双向可理解性协议,该协议由一对通信有限状态机建模。人类专家和LLM分别对应一个有限状态机,通过状态转移和消息传递进行交互。交互过程包括以下主要阶段:1) 人类专家提出问题或任务;2) LLM尝试理解问题并生成初步解决方案;3) 人类专家评估LLM的解决方案并提供反馈;4) LLM根据反馈调整解决方案;5) 重复步骤3和4,直到达到满意的解决方案或达到最大迭代次数。

关键创新:论文的关键创新在于将双向可理解性概念形式化为一个可执行的交互协议,并使用有限状态机进行建模。这种方法提供了一种结构化的方式来管理人与LLM之间的交互,从而提高了交互效率和可理解性。与传统的非结构化自然语言交互相比,该方法能够更好地捕捉人类专家的知识,并将其有效地传递给LLM。

关键设计:协议的具体状态和转移规则需要根据具体的应用场景进行设计。论文在放射学和药物设计两个领域进行了实验,并针对这两个领域设计了相应的协议。关键设计包括:1) 定义清晰的状态集合,例如“提出问题”、“生成解决方案”、“评估解决方案”、“提供反馈”等;2) 定义明确的状态转移规则,例如“如果人类专家对LLM的解决方案不满意,则转移到‘提供反馈’状态”;3) 定义消息传递机制,例如使用自然语言或结构化数据格式进行信息交换。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过受控实验(与数据库交互)和非受控实验(与人类受试者交互)验证了该协议的有效性。实验结果表明,该协议能够有效捕捉人-LLM交互中的单向和双向可理解性。具体性能数据和提升幅度在论文中进行了详细描述,但摘要中未明确给出具体数值。

🎯 应用场景

该研究成果可应用于各种需要人与LLM协同完成的复杂数据分析任务,例如医疗诊断、药物研发、金融分析等。通过提高人机交互的效率和可理解性,可以加速问题解决过程,并提高决策质量。未来,该方法有望应用于更广泛的人工智能系统设计中,促进人与机器的更有效协作。

📄 摘要(原文)

Our interest is in the design of software systems involving a human-expert interacting -- using natural language -- with a large language model (LLM) on data analysis tasks. For complex problems, it is possible that LLMs can harness human expertise and creativity to find solutions that were otherwise elusive. On one level, this interaction takes place through multiple turns of prompts from the human and responses from the LLM. Here we investigate a more structured approach based on an abstract protocol described in [3] for interaction between agents. The protocol is motivated by a notion of "two-way intelligibility" and is modelled by a pair of communicating finite-state machines. We provide an implementation of the protocol, and provide empirical evidence of using the implementation to mediate interactions between an LLM and a human-agent in two areas of scientific interest (radiology and drug design). We conduct controlled experiments with a human proxy (a database), and uncontrolled experiments with human subjects. The results provide evidence in support of the protocol's capability of capturing one- and two-way intelligibility in human-LLM interaction; and for the utility of two-way intelligibility in the design of human-machine systems. Our code is available at https://github.com/karannb/interact.