ECG-Agent: On-Device Tool-Calling Agent for ECG Multi-Turn Dialogue

📄 arXiv: 2601.20323v1 📥 PDF

作者: Hyunseung Chung, Jungwoo Oh, Daeun Kyung, Jiho Kim, Yeonsu Kwon, Min-Gyu Kim, Edward Choi

分类: cs.AI

发布日期: 2026-01-28

备注: Accepted to ICASSP 2026 (5 pages, 2 figures, 5 tables)


💡 一句话要点

提出ECG-Agent,用于心电图多轮对话的端侧工具调用Agent。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心电图分析 多轮对话 工具调用 大型语言模型 端侧部署

📋 核心要点

  1. 现有心电图LLM模型缺乏多轮对话能力,难以在实际场景中应用,且端侧效率不高。
  2. ECG-Agent通过工具调用机制,实现对心电图测量值的精确理解和多轮对话能力。
  3. 实验表明,ECG-Agent在响应准确性上优于基线模型,且端侧Agent性能接近大型Agent。

📝 摘要(中文)

本文提出ECG-Agent,首个基于LLM的工具调用Agent,用于心电图多轮对话,旨在解决现有模型在多轮对话能力、端侧效率以及对PQRST间期等心电图测量精确理解方面的不足。为了促进其开发和评估,本文还提出了ECG-MTD数据集,该数据集收集了针对不同心电图导联配置的真实用户-助手多轮对话。本文开发了各种规模的ECG-Agent,包括可在端侧运行的小型Agent和大型Agent。实验结果表明,ECG-Agent在响应准确性方面优于基线ECG-LLM。此外,端侧Agent在评估响应准确性、工具调用能力和幻觉等指标上,取得了与大型Agent相当的性能,证明了其在实际应用中的可行性。

🔬 方法详解

问题定义:现有心电图大型语言模型(ECG-LLM)主要集中在分类、报告生成和单轮问答任务上,缺乏在实际应用中至关重要的多轮对话能力。此外,这些模型通常无法在端侧高效运行,并且对心电图测量(如PQRST间期)的理解不够精确。这些局限性阻碍了ECG-LLM在临床环境中的广泛应用。

核心思路:ECG-Agent的核心思路是利用大型语言模型(LLM)的强大推理能力,结合工具调用机制,使其能够与用户进行多轮对话,并精确理解和利用心电图测量数据。通过将LLM与专门的工具(例如,用于测量PQRST间期的工具)集成,ECG-Agent可以更准确地回答用户的问题,并提供更全面的心电图分析。

技术框架:ECG-Agent的整体框架包括以下几个主要模块:1) 对话管理模块:负责处理用户输入,维护对话历史,并确定下一步需要执行的操作。2) 工具调用模块:根据对话内容和用户需求,选择合适的工具(例如,心电图测量工具、数据库查询工具等)并调用。3) LLM推理模块:利用LLM的推理能力,生成自然语言回复,并整合工具的输出结果。4) 心电图处理模块:负责对心电图数据进行预处理、特征提取和分析。

关键创新:ECG-Agent的关键创新在于将LLM与工具调用机制相结合,实现了心电图多轮对话的端侧高效运行。这是首个针对心电图领域的多轮对话Agent,并针对端侧部署进行了优化。与现有方法相比,ECG-Agent能够更准确地理解用户意图,并利用工具提供更全面的心电图分析。

关键设计:ECG-Agent的关键设计包括:1) 针对不同规模的LLM,设计了不同的Agent版本,以适应不同的端侧设备。2) 开发了ECG-MTD数据集,用于训练和评估ECG-Agent的多轮对话能力。3) 采用了特定的提示工程(Prompt Engineering)技术,以提高LLM的推理能力和工具调用准确性。4) 针对端侧部署,对模型进行了量化和剪枝等优化。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ECG-Agent在响应准确性方面优于基线ECG-LLM。更重要的是,端侧Agent在响应准确性、工具调用能力和幻觉等多个评估指标上,取得了与大型Agent相当的性能。这证明了ECG-Agent在实际应用中的可行性,尤其是在资源受限的端侧设备上。

🎯 应用场景

ECG-Agent可应用于远程医疗、家庭健康监测、急诊室等场景。医生或患者可以通过自然语言与Agent交互,获取心电图分析结果和建议。该研究有助于提高心电图诊断的效率和准确性,并降低医疗成本,未来可集成到智能手表等可穿戴设备中,实现实时心电监测和预警。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models have rapidly expanded to electrocardiograms, focusing on classification, report generation, and single-turn QA tasks. However, these models fall short in real-world scenarios, lacking multi-turn conversational ability, on-device efficiency, and precise understanding of ECG measurements such as the PQRST intervals. To address these limitations, we introduce ECG-Agent, the first LLM-based tool-calling agent for multi-turn ECG dialogue. To facilitate its development and evaluation, we also present ECG-Multi-Turn-Dialogue (ECG-MTD) dataset, a collection of realistic user-assistant multi-turn dialogues for diverse ECG lead configurations. We develop ECG-Agents in various sizes, from on-device capable to larger agents. Experimental results show that ECG-Agents outperform baseline ECG-LLMs in response accuracy. Furthermore, on-device agents achieve comparable performance to larger agents in various evaluations that assess response accuracy, tool-calling ability, and hallucinations, demonstrating their viability for real-world applications.