Automated Meta Prompt Engineering for Alignment with the Theory of Mind

作者: Aaron Baughman, Rahul Agarwal, Eduardo Morales, Gozde Akay

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-05-13

备注: 9 pages, 6 figures, 3 tables

💡 一句话要点

提出基于Agent强化学习的元提示工程，提升大语言模型与人类心智理论的对齐

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 元提示工程 心智理论 强化学习 大语言模型 人机对齐

📋 核心要点

现有大语言模型在复杂任务中生成内容时，难以与人类的预期和信念对齐，导致内容质量和用户满意度下降。
利用LLM作为裁判（LLMaaJ），通过强化学习和上下文学习，指导另一个LLM生成更符合人类心智理论（ToM）的内容。
实验表明，该方法能显著提高AI生成内容与人类期望的对齐率，并在实际应用中提升内容质量和覆盖范围。

📝 摘要（中文）

本文提出了一种元提示方法，该方法在生成复杂任务的流畅文本的同时，优化人类心智预期与大语言模型（LLM）神经状态之间的相似性。采用了一种基于Agent的强化学习技术，其中LLM作为裁判（LLMaaJ），通过上下文学习教导另一个LLM生成内容，并解释预期和非预期的生成文本特征。为了衡量人类对内容制作的心智信念，用户在美国网球公开赛2024上发布前修改了AI生成的长篇文本文章。现在，LLMaaJ可以通过预测并在LLM文本创建中包含人类编辑来解决心智理论（ToM）对齐问题。通过实验和对实时生产系统结果的解释，人类内容审查员的期望与AI的对齐率在53.8%的时间内达到100%，平均迭代次数为4.38。内容特征（如事实性、新颖性、重复性和相关性）在希尔伯特向量空间上的几何解释，结合了空间体积（所有特征的重要性）和顶点对齐（各个特征的相关性），使LLMaaJ能够优化人类ToM。这通过扩展网球动作的覆盖范围提高了内容质量。我们在美国网球公开赛2024上部署的工作已应用于体育和娱乐领域的其他现场活动。

🔬 方法详解

问题定义：论文旨在解决大语言模型（LLM）生成内容时，与人类心智理论（Theory of Mind, ToM）不对齐的问题。现有方法难以准确捕捉人类的预期和信念，导致生成的内容可能不符合人类的偏好，缺乏事实性、新颖性或相关性。这限制了LLM在需要高度个性化和情境化内容生成场景中的应用。

核心思路：论文的核心思路是利用一个LLM作为裁判（LLMaaJ），通过强化学习的方式，指导另一个LLM生成更符合人类ToM的内容。LLMaaJ通过分析人类对生成内容的修改，学习人类的偏好和预期，并将其转化为对生成LLM的指导信号。这种方法模拟了人类导师指导学生的过程，使LLM能够更好地理解和满足人类的需求。

技术框架：整体框架包含两个主要的LLM：一个作为内容生成器，另一个作为裁判（LLMaaJ）。流程如下：1) 内容生成器生成初始文本；2) 人类专家对文本进行修改；3) LLMaaJ分析原始文本和修改后的文本，提取人类的偏好和预期；4) LLMaaJ生成提示，指导内容生成器生成更符合人类ToM的文本；5) 重复步骤1-4，直到生成的内容满足要求。

关键创新：最重要的创新点在于利用LLMaaJ进行元提示工程，通过强化学习的方式，自动优化提示，使生成的内容更符合人类的ToM。与传统的提示工程方法相比，该方法无需人工设计提示，能够自动适应不同的任务和用户偏好。此外，论文还提出了利用希尔伯特向量空间对内容特征进行几何解释的方法，使LLMaaJ能够更好地理解和优化内容质量。

关键设计：关键设计包括：1) LLMaaJ的训练方式，通过分析人类修改后的文本，学习人类的偏好和预期；2) 提示生成策略，如何将人类的偏好和预期转化为有效的提示；3) 奖励函数的设计，如何衡量生成内容与人类ToM的对齐程度；4) 内容特征的几何表示，如何利用希尔伯特向量空间对内容特征进行量化和优化。具体参数设置和网络结构未知。

📊 实验亮点

实验结果表明，该方法能够显著提高AI生成内容与人类期望的对齐率。在美国网球公开赛2024的实际应用中，人类内容审查员的期望与AI的对齐率在53.8%的时间内达到100%，平均迭代次数为4.38。此外，该方法还能够扩展网球动作的覆盖范围，提高内容质量。具体对比基线未知。

🎯 应用场景

该研究成果可广泛应用于需要高度个性化和情境化内容生成的领域，例如：新闻报道、社交媒体内容生成、教育内容定制、智能客服等。通过使AI生成的内容更符合人类的预期和偏好，可以提高用户满意度，提升内容质量，并降低人工干预的成本。未来，该方法有望应用于更复杂的任务，例如：人机协作、情感计算等。

📄 摘要（原文）

We introduce a method of meta-prompting that jointly produces fluent text for complex tasks while optimizing the similarity of neural states between a human's mental expectation and a Large Language Model's (LLM) neural processing. A technique of agentic reinforcement learning is applied, in which an LLM as a Judge (LLMaaJ) teaches another LLM, through in-context learning, how to produce content by interpreting the intended and unintended generated text traits. To measure human mental beliefs around content production, users modify long form AI-generated text articles before publication at the US Open 2024 tennis Grand Slam. Now, an LLMaaJ can solve the Theory of Mind (ToM) alignment problem by anticipating and including human edits within the creation of text from an LLM. Throughout experimentation and by interpreting the results of a live production system, the expectations of human content reviewers had 100% of alignment with AI 53.8% of the time with an average iteration count of 4.38. The geometric interpretation of content traits such as factualness, novelty, repetitiveness, and relevancy over a Hilbert vector space combines spatial volume (all trait importance) with vertices alignment (individual trait relevance) enabled the LLMaaJ to optimize on Human ToM. This resulted in an increase in content quality by extending the coverage of tennis action. Our work that was deployed at the US Open 2024 has been used across other live events within sports and entertainment.

Automated Meta Prompt Engineering for Alignment with the Theory of Mind

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理