Empowering NPC Dialogue with Environmental Context Using LLMs and Panoramic Images

作者: Grega Radež, Ciril Bohak

分类: cs.GR

发布日期: 2026-04-21

💡 一句话要点

利用LLM和全景图像增强NPC对话的环境感知能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: NPC对话增强 环境感知 大型语言模型 计算机视觉 语义分割

📋 核心要点

传统NPC对话缺乏空间理解，对玩家行为的响应有限，降低了游戏沉浸感。
利用全景图像和语义分割提取环境信息，构建结构化JSON表示，赋能LLM理解环境。
用户研究表明，具有环境感知能力的NPC比传统NPC更受欢迎，提升了游戏体验。

📝 摘要（中文）

本文提出了一种通过结合大型语言模型（LLM）和计算机视觉来增强游戏中非玩家角色（NPC）的方法，使其具备环境感知能力。传统的NPC通常依赖于预先编写的对话，缺乏空间理解，这限制了它们对玩家行为的响应，并降低了整体沉浸感。我们的方法通过捕获NPC环境的全景图像并应用语义分割来识别物体及其空间位置来解决这些限制。提取的信息用于生成环境的结构化JSON表示，结合了来自分割的物体位置和NPC边界球内的附加场景图数据，编码为方向向量。此表示作为LLM的输入，使NPC能够将空间知识融入到玩家交互中。因此，NPC可以动态地引用附近的物体、地标和环境特征，从而带来更可信和引人入胜的游戏体验。我们描述了该系统的技术实现，并通过两个阶段对其进行评估。首先，进行专家访谈以收集反馈并确定需要改进的领域。在整合这些改进后，进行了一项用户研究，表明参与者更喜欢具有上下文感知能力的NPC，而不是不具有上下文感知能力的基线，从而证实了所提出方法的有效性。

🔬 方法详解

问题定义：现有游戏中NPC的对话通常是预先设定的，缺乏对周围环境的感知能力。这导致NPC无法根据玩家的行为或环境的变化做出相应的反应，从而降低了游戏的真实感和沉浸感。痛点在于NPC无法理解和利用其所处的空间环境信息。

核心思路：核心思路是利用计算机视觉技术（全景图像和语义分割）提取NPC周围环境的信息，并将这些信息以结构化的方式（JSON）提供给大型语言模型（LLM）。LLM利用这些环境信息来生成更具上下文感知能力的对话，使NPC能够根据周围环境与玩家进行互动。

技术框架：整体框架包括以下几个主要模块：1) 全景图像捕获：获取NPC周围环境的全景图像。2) 语义分割：对全景图像进行语义分割，识别图像中的物体及其位置。3) 环境信息结构化：将语义分割的结果（物体位置）和场景图数据（物体间的关系）转换为结构化的JSON表示。4) LLM对话生成：将结构化的环境信息作为输入，利用LLM生成具有上下文感知能力的NPC对话。

关键创新：关键创新在于将计算机视觉和自然语言处理技术相结合，使NPC能够理解和利用其所处的环境信息。通过全景图像和语义分割提取环境信息，并将其以结构化的方式提供给LLM，从而实现了NPC对话的上下文感知能力。与现有方法相比，该方法能够使NPC更加智能和真实。

关键设计：关键设计包括：1) 使用全景图像来捕捉NPC周围360度的环境信息。2) 使用语义分割来识别图像中的物体及其位置。3) 将环境信息编码为结构化的JSON格式，方便LLM进行处理。4) 在JSON中，物体的位置信息被表示为相对于NPC的方向向量。5) 实验中使用了特定的LLM（具体型号未知）进行对话生成，并进行了专家访谈和用户研究来评估系统的性能。

🖼️ 关键图片

📊 实验亮点

通过用户研究表明，参与者更喜欢具有上下文感知能力的NPC，而不是不具有上下文感知能力的基线NPC。这证实了所提出方法的有效性。专家访谈也为系统改进提供了宝贵的反馈，进一步提升了系统的性能。具体的性能数据和提升幅度未知，但用户偏好表明该方法在提升NPC的智能化水平方面具有显著效果。

🎯 应用场景

该研究成果可广泛应用于各类游戏中，提升NPC的智能化水平和游戏的沉浸感。此外，该方法还可以应用于虚拟现实、增强现实等领域，使虚拟角色能够更好地理解和响应用户的行为，从而提供更自然和真实的交互体验。未来，该技术有望应用于智能助手、机器人等领域，使其具备更强的环境感知和交互能力。

📄 摘要（原文）

We present an approach for enhancing non-playable characters (NPCs) in games by combining large language models (LLMs) with computer vision to provide contextual awareness of their surroundings. Conventional NPCs typically rely on pre-scripted dialogue and lack spatial understanding, which limits their responsiveness to player actions and reduces overall immersion. Our method addresses these limitations by capturing panoramic images of an NPC's environment and applying semantic segmentation to identify objects and their spatial positions. The extracted information is used to generate a structured JSON representation of the environment, combining object locations derived from segmentation with additional scene graph data within the NPC's bounding sphere, encoded as directional vectors. This representation is provided as input to the LLM, enabling NPCs to incorporate spatial knowledge into player interactions. As a result, NPCs can dynamically reference nearby objects, landmarks, and environmental features, leading to more believable and engaging gameplay. We describe the technical implementation of the system and evaluate it in two stages. First, an expert interview was conducted to gather feedback and identify areas for improvement. After integrating these refinements, a user study was performed, showing that participants preferred the context-aware NPCs over a non-context-aware baseline, confirming the effectiveness of the proposed approach.

Empowering NPC Dialogue with Environmental Context Using LLMs and Panoramic Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理