Introspection of Thought Helps AI Agents
作者: Haoran Sun, Shaoning Zeng
分类: cs.AI
发布日期: 2025-07-11
💡 一句话要点
提出INoT框架,通过LLM内部自省推理降低AI Agent的token成本并提升性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI Agent 大型语言模型 思维内省 提示工程 推理框架
📋 核心要点
- 现有AI Agent依赖外部推理框架,但受限于LLM的自然语言理解能力,且迭代推理成本高昂。
- INoT框架通过设计LLM-Read代码提示,使LLM在内部进行自省和反思,实现程序化对话推理。
- 实验表明,INoT在多个任务上性能提升7.95%,token成本平均降低58.3%,并验证了其在图像任务中的有效性。
📝 摘要(中文)
AI Agent依赖大型语言模型(LLM)和多模态LLM(MLLM)在文本和图像任务中进行解释和推理,无需进行后训练。LLM和MLLM在其中起着至关重要的作用,决定了AI Agent的初始能力和局限性。通常,AI Agent利用复杂的提示工程和外部推理框架来获得与LLM的有希望的交互,例如,思维链、思维迭代和图像思维。然而,它们仍然受到LLM在理解自然语言方面的固有局限性的约束,并且迭代推理过程将产生大量的推理成本。为此,我们提出了一种新颖的AI Agent推理框架,即具有思维内省(INoT)的框架,通过设计一种新的LLM-Read代码提示。它使LLM能够按照提示中的代码执行程序化的对话推理过程。因此,自我否定和反思发生在LLM内部而不是外部,这可以有效地降低token成本。通过我们在三个不同任务的六个基准上的实验,验证了INoT的有效性,性能平均提高了7.95%,超过了基线。此外,INoT的token成本平均比基线中表现最佳的方法低58.3%。此外,我们通过验证实验证明了INoT在图像解释和推理方面的多功能性。
🔬 方法详解
问题定义:现有AI Agent在进行复杂推理时,依赖于外部推理框架(如思维链),这导致了两个主要问题:一是LLM本身对自然语言理解的局限性会影响推理效果;二是外部迭代推理会产生大量的token消耗,增加计算成本。因此,如何提升LLM的推理能力,同时降低token成本,是本文要解决的核心问题。
核心思路:INoT的核心思路是将推理过程尽可能地在LLM内部完成,而不是依赖外部的迭代。通过设计一种特殊的“LLM-Read代码”提示,引导LLM像执行代码一样执行推理步骤,从而实现自我反思和修正。这种方式减少了与外部环境的交互,降低了token消耗,同时利用了LLM自身的知识和推理能力。
技术框架:INoT框架主要包含以下几个阶段:首先,将问题转化为LLM可以理解的“LLM-Read代码”提示。然后,LLM根据该提示执行推理过程,并在内部进行自我评估和修正。最后,输出最终的推理结果。整个过程都在LLM内部完成,减少了与外部环境的交互。
关键创新:INoT最重要的创新点在于“LLM-Read代码”提示的设计,它使得LLM能够像执行代码一样执行推理步骤,从而实现自我反思和修正。与传统的思维链方法相比,INoT将推理过程内化到LLM内部,减少了外部迭代,降低了token成本。
关键设计:关于“LLM-Read代码”提示的具体设计细节,论文中可能包含如何将自然语言问题转化为LLM可执行的代码形式,以及如何引导LLM进行自我评估和修正的具体策略。此外,可能还包括一些关键的参数设置,例如控制推理步数、调整自我评估的阈值等。这些细节对于INoT的性能至关重要,但具体内容需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,INoT在六个基准测试中,性能平均提升了7.95%,显著优于基线方法。更重要的是,INoT的token成本平均比表现最佳的基线方法降低了58.3%,这表明INoT在提升性能的同时,显著降低了计算成本,具有很强的实用价值。此外,实验还验证了INoT在图像解释和推理方面的有效性。
🎯 应用场景
INoT框架具有广泛的应用前景,可应用于智能客服、自动问答、知识图谱推理、图像理解等领域。通过降低推理成本和提升推理性能,INoT有望推动AI Agent在实际场景中的应用,并加速人工智能的普及。未来,该技术还可扩展到更多模态的数据处理和推理任务中。
📄 摘要(原文)
AI Agents rely on Large Language Models (LLMs) and Multimodal-LLMs (MLLMs) to perform interpretation and inference in text and image tasks without post-training, where LLMs and MLLMs play the most critical role and determine the initial ability and limitations of AI Agents. Usually, AI Agents utilize sophisticated prompt engineering and external reasoning framework to obtain a promising interaction with LLMs, e.g., Chain-of-Thought, Iteration of Thought and Image-of-Thought. However, they are still constrained by the inherent limitations of LLM in understanding natural language, and the iterative reasoning process will generate a large amount of inference cost. To this end, we propose a novel AI Agent Reasoning Framework with Introspection of Thought (INoT) by designing a new LLM-Read code in prompt. It enables LLM to execute programmatic dialogue reasoning processes following the code in prompt. Therefore, self-denial and reflection occur within LLM instead of outside LLM, which can reduce token cost effectively. Through our experiments on six benchmarks for three different tasks, the effectiveness of INoT is verified, with an average improvement of 7.95\% in performance, exceeding the baselines. Furthermore, the token cost of INoT is lower on average than the best performing method at baseline by 58.3\%. In addition, we demonstrate the versatility of INoT in image interpretation and inference through verification experiments.