Better with Experience: Self-Evolving LLM Agents for Evidence-Grounded Health Community Notes
作者: Zihang Fu, Fanxiao Li, Jianyang Gu, Haonan Wang, Preslav Nakov, Bryan Hooi, Min-Yen Kan, Jiaying Wu
分类: cs.CL, cs.SI
发布日期: 2026-06-01
💡 一句话要点
EvoNote:基于经验自进化的LLM Agent,用于生成证据充分的健康社区笔记
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社区笔记 错误信息纠正 自进化Agent 强化学习
📋 核心要点
- 现有基于LLM的社区笔记方法在每次处理新帖子时都会重置,无法利用先前案例的纠正经验。
- EvoNote通过构建一个不断演化的经验记忆,使LLM Agent能够从先前的错误信息纠正事件中学习并自我进化。
- 实验表明,EvoNote生成的笔记在质量和效率上均优于人工编写的笔记,并能有效减少生成更正所需的时间。
📝 摘要(中文)
本文提出EvoNote,一个agentic框架,旨在通过不断演化的经验记忆,使健康社区笔记的生成能够自我进化,从而更有效地纠正社交平台上的健康错误信息。EvoNote的核心是细粒度的信用分配:它将轨迹级别的反馈与特定于健康的笔记质量相结合,并将其提炼为行动级别的记忆,用于声明分析、证据获取和笔记编写。在MM-HealthCN数据集上的评估表明,EvoNote生成的笔记在89.6%的情况下优于人工编写的笔记。此外,EvoNote还将生成候选更正的中位数时间从人工笔记流程的超过13小时缩短到2分钟以内。分析表明,这些改进与更强的证据使用和可重用的更正策略有关,这使得自进化的笔记生成成为健康错误信息治理的一个有希望的范例。
🔬 方法详解
问题定义:论文旨在解决社交平台上健康错误信息难以有效且及时纠正的问题。现有基于大型语言模型(LLM)的社区笔记方法虽然具有可扩展性,但每次处理新的帖子时都会重置,无法利用先前案例的纠正经验,导致效率低下和知识重复。
核心思路:论文的核心思路是构建一个能够自我进化的LLM Agent,该Agent通过不断积累和利用先前的经验来提高生成高质量社区笔记的效率和准确性。通过细粒度的信用分配机制,Agent可以学习哪些行动在过去是成功的,并将这些知识应用于未来的任务中。
技术框架:EvoNote框架包含以下主要模块:1) 声明分析:分析用户发布的健康相关声明,识别潜在的错误信息。2) 证据获取:从各种来源(如医学数据库、新闻报道等)收集支持或反驳该声明的证据。3) 笔记编写:基于声明分析和证据获取的结果,生成简洁明了、证据充分的社区笔记。4) 经验记忆:存储先前纠正错误信息的经验,包括采取的行动、获得的反馈以及最终的结果。5) 信用分配:将轨迹级别的反馈(例如,笔记的有用性)分配给各个行动,从而使Agent能够学习哪些行动是有效的。
关键创新:EvoNote的关键创新在于其自进化能力,即Agent能够通过不断学习和利用先前的经验来提高自身的性能。这种自进化能力是通过细粒度的信用分配机制实现的,该机制能够将轨迹级别的反馈分配给各个行动,从而使Agent能够学习哪些行动是有效的。与现有方法相比,EvoNote能够更好地利用先前的经验,从而生成更高质量、更有效的社区笔记。
关键设计:EvoNote使用强化学习方法来训练Agent,目标是最大化社区笔记的有用性。具体来说,Agent通过与环境(即社交平台和用户)交互来学习,并根据获得的反馈来调整其策略。论文使用了一种分层效用判断器来评估社区笔记的质量,该判断器考虑了笔记的准确性、清晰度和相关性等因素。此外,论文还设计了一种特殊的记忆结构来存储先前的经验,该结构能够有效地检索和利用相关的知识。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EvoNote生成的笔记在89.6%的情况下优于人工编写的笔记。在没有人群帮助度判定的“需要更多评分”的帖子集合上,EvoNote为82.0%的案例生成了有用的笔记。此外,EvoNote还将生成候选更正的中位数时间从人工笔记流程的超过13小时缩短到2分钟以内。这些结果表明,EvoNote能够显著提高社区笔记的质量和效率。
🎯 应用场景
EvoNote具有广泛的应用前景,可用于自动化生成各种类型的社区笔记,从而提高社交平台上信息质量。该技术可应用于健康、政治、科学等多个领域,帮助用户识别和纠正错误信息,促进更健康、更理性的在线讨论。此外,EvoNote还可以用于培训和评估LLM Agent,使其能够更好地理解和处理复杂的信息。
📄 摘要(原文)
Large Language Model (LLM)-augmented Community Notes offer a scalable path for timely, evidence-grounded correction of health misinformation on social platforms. However, they still reset at every post, leaving useful correction experience from prior cases unused. We introduce EvoNote, an agentic framework that enables health Community Notes generation to self-evolve through an evolving experience memory of prior misinformation correction episodes. Its core is fine-grained credit assignment: EvoNote grounds trajectory-level feedback in health-specific note qualities and distills it into action-level memory for claim analysis, evidence acquisition, and note writing. We evaluate EvoNote on MM-HealthCN, a 1.2K-instance multimodal benchmark of user-flagged health posts with human-written Community Notes and crowd-derived helpfulness labels. Under a human-validated hierarchical utility judge, EvoNote-generated notes are preferred over corresponding human-written notes in 89.6% of cases; on a separate set of Needs More Ratings posts without a crowd helpfulness verdict, EvoNote produces helpful notes for 82.0% of cases. It also reduces the median time needed to produce a candidate correction from over 13 hours in the human-note pipeline to under 2 minutes. Analyses link these gains to stronger evidence use and reusable correction strategies, positioning self-evolving note generation as a promising paradigm for health misinformation governance.