ECG-Agent: On-Device Tool-Calling Agent for ECG Multi-Turn Dialogue

作者: Hyunseung Chung, Jungwoo Oh, Daeun Kyung, Jiho Kim, Yeonsu Kwon, Min-Gyu Kim, Edward Choi

分类: cs.AI

发布日期: 2026-01-28

备注: Accepted to ICASSP 2026 (5 pages, 2 figures, 5 tables)

💡 一句话要点

提出ECG-Agent，用于心电图多轮对话的端侧工具调用Agent。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心电图分析 多轮对话 工具调用 大型语言模型 端侧部署

📋 核心要点

现有心电图LLM模型缺乏多轮对话能力，难以在实际场景中应用，且端侧效率不高。
ECG-Agent通过工具调用机制，实现对心电图测量值的精确理解和多轮对话能力。
实验表明，ECG-Agent在响应准确性上优于基线模型，且端侧Agent性能接近大型Agent。

📝 摘要（中文）

本文提出ECG-Agent，首个基于LLM的工具调用Agent，用于心电图多轮对话，旨在解决现有模型在多轮对话能力、端侧效率以及对PQRST间期等心电图测量精确理解方面的不足。为了促进其开发和评估，本文还提出了ECG-MTD数据集，该数据集收集了针对不同心电图导联配置的真实用户-助手多轮对话。本文开发了各种规模的ECG-Agent，包括可在端侧运行的小型Agent和大型Agent。实验结果表明，ECG-Agent在响应准确性方面优于基线ECG-LLM。此外，端侧Agent在评估响应准确性、工具调用能力和幻觉等指标上，取得了与大型Agent相当的性能，证明了其在实际应用中的可行性。

🔬 方法详解

问题定义：现有心电图大型语言模型（ECG-LLM）主要集中在分类、报告生成和单轮问答任务上，缺乏在实际应用中至关重要的多轮对话能力。此外，这些模型通常无法在端侧高效运行，并且对心电图测量（如PQRST间期）的理解不够精确。这些局限性阻碍了ECG-LLM在临床环境中的广泛应用。

核心思路：ECG-Agent的核心思路是利用大型语言模型（LLM）的强大推理能力，结合工具调用机制，使其能够与用户进行多轮对话，并精确理解和利用心电图测量数据。通过将LLM与专门的工具（例如，用于测量PQRST间期的工具）集成，ECG-Agent可以更准确地回答用户的问题，并提供更全面的心电图分析。

技术框架：ECG-Agent的整体框架包括以下几个主要模块：1) 对话管理模块：负责处理用户输入，维护对话历史，并确定下一步需要执行的操作。2) 工具调用模块：根据对话内容和用户需求，选择合适的工具（例如，心电图测量工具、数据库查询工具等）并调用。3) LLM推理模块：利用LLM的推理能力，生成自然语言回复，并整合工具的输出结果。4) 心电图处理模块：负责对心电图数据进行预处理、特征提取和分析。

关键创新：ECG-Agent的关键创新在于将LLM与工具调用机制相结合，实现了心电图多轮对话的端侧高效运行。这是首个针对心电图领域的多轮对话Agent，并针对端侧部署进行了优化。与现有方法相比，ECG-Agent能够更准确地理解用户意图，并利用工具提供更全面的心电图分析。

关键设计：ECG-Agent的关键设计包括：1) 针对不同规模的LLM，设计了不同的Agent版本，以适应不同的端侧设备。2) 开发了ECG-MTD数据集，用于训练和评估ECG-Agent的多轮对话能力。3) 采用了特定的提示工程（Prompt Engineering）技术，以提高LLM的推理能力和工具调用准确性。4) 针对端侧部署，对模型进行了量化和剪枝等优化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ECG-Agent在响应准确性方面优于基线ECG-LLM。更重要的是，端侧Agent在响应准确性、工具调用能力和幻觉等多个评估指标上，取得了与大型Agent相当的性能。这证明了ECG-Agent在实际应用中的可行性，尤其是在资源受限的端侧设备上。

🎯 应用场景

ECG-Agent可应用于远程医疗、家庭健康监测、急诊室等场景。医生或患者可以通过自然语言与Agent交互，获取心电图分析结果和建议。该研究有助于提高心电图诊断的效率和准确性，并降低医疗成本，未来可集成到智能手表等可穿戴设备中，实现实时心电监测和预警。

📄 摘要（原文）

Recent advances in Multimodal Large Language Models have rapidly expanded to electrocardiograms, focusing on classification, report generation, and single-turn QA tasks. However, these models fall short in real-world scenarios, lacking multi-turn conversational ability, on-device efficiency, and precise understanding of ECG measurements such as the PQRST intervals. To address these limitations, we introduce ECG-Agent, the first LLM-based tool-calling agent for multi-turn ECG dialogue. To facilitate its development and evaluation, we also present ECG-Multi-Turn-Dialogue (ECG-MTD) dataset, a collection of realistic user-assistant multi-turn dialogues for diverse ECG lead configurations. We develop ECG-Agents in various sizes, from on-device capable to larger agents. Experimental results show that ECG-Agents outperform baseline ECG-LLMs in response accuracy. Furthermore, on-device agents achieve comparable performance to larger agents in various evaluations that assess response accuracy, tool-calling ability, and hallucinations, demonstrating their viability for real-world applications.

ECG-Agent: On-Device Tool-Calling Agent for ECG Multi-Turn Dialogue

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理