Intelligent Co-Design: An Interactive LLM Framework for Interior Spatial Design via Multi-Modal Agents
作者: Ren Jian Lim, Rushi Dai
分类: cs.AI, cs.HC, cs.MA
发布日期: 2026-03-16
备注: 25 pages, 20 figures; accepted for publication in the Proceedings of ACADIA 2025
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于LLM的多模态交互式室内空间智能协同设计框架,提升设计效率与用户参与度。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 室内设计 大型语言模型 多模态 智能体 协同设计 人机交互 检索增强生成
📋 核心要点
- 传统室内设计方法依赖硬编码规则或大量数据训练,限制了用户参与和灵活性,沟通成本高。
- 该研究提出基于LLM的多智能体框架,通过自然语言和图像输入,实现3D室内设计的动态生成与迭代优化。
- 实验表明,该框架能有效提升用户意图对齐、美学一致性、功能性和流通性,用户满意度显著提升。
📝 摘要(中文)
本文提出了一种基于LLM的多模态多智能体框架,用于室内空间智能协同设计。该框架旨在解决建筑室内设计中,由于客户缺乏设计知识和设计师难以解释复杂空间关系导致的沟通不畅问题。通过将自然语言描述和图像动态转换为3D设计,该框架利用专门的智能体(参考、空间、交互、评分)协同工作,并通过检索增强生成(RAG)减少了对大量训练数据的依赖。该框架支持实时用户交互,迭代优化空间设计,提高了设计效率,并鼓励非专业人士参与。实验结果表明,该框架能够准确理解空间意图,生成优化的3D室内设计,用户满意度达到77%,且优于传统设计软件。
🔬 方法详解
问题定义:室内设计中,客户与设计师之间常因设计知识不对等和空间关系难以解释而产生沟通障碍,导致项目延期和经济损失。现有的基于规则或数据驱动的方法,要么限制了用户参与,要么需要大量训练数据,难以满足实际需求。
核心思路:利用大型语言模型(LLM)在自然语言理解和推理方面的优势,构建一个能够理解用户意图并将其转化为3D设计的交互式框架。通过多智能体协同工作,实现空间关系的推理和设计的迭代优化。
技术框架:该框架包含四个主要智能体:Reference Agent(提供参考信息),Spatial Agent(处理空间关系),Interactive Agent(处理用户交互),Grader Agent(评估设计质量)。用户通过自然语言描述和图像输入设计需求,这些智能体协同工作,将需求转化为3D室内设计。框架采用检索增强生成(RAG)技术,减少对大量训练数据的依赖。
关键创新:该框架的关键创新在于其交互式协同设计流程和多智能体架构。通过实时用户交互和智能体之间的协同,实现了设计的迭代优化和用户意图的准确捕捉。RAG技术的应用降低了对大规模训练数据的需求,提高了框架的泛化能力。
关键设计:每个智能体都通过特定的prompt guidelines进行约束,以确保其行为符合预期。Spatial Agent负责将自然语言描述转化为空间布局,Interactive Agent负责处理用户的反馈和修改请求,Grader Agent使用LLM评估设计方案的质量,并提供改进建议。具体参数设置和网络结构细节未知。
📊 实验亮点
实验结果表明,该框架在用户意图对齐、美学一致性、功能性和流通性方面均优于传统设计方法。独立LLM评估器一致认为,该框架生成的参与式布局在上述指标上表现更佳。用户问卷调查显示,77%的用户对该框架表示满意,并明显偏好于传统设计软件。
🎯 应用场景
该研究成果可应用于室内设计、建筑设计、虚拟现实等领域,为设计师和非专业人士提供更高效、便捷的设计工具。通过降低设计门槛,促进用户参与,实现更个性化、用户友好的设计方案。未来可扩展到其他设计领域,如产品设计、城市规划等。
📄 摘要(原文)
In architectural interior design, miscommunication frequently arises as clients lack design knowledge, while designers struggle to explain complex spatial relationships, leading to delayed timelines and financial losses. Recent advancements in generative layout tools narrow the gap by automating 3D visualizations. However, prevailing methodologies exhibit limitations: rule-based systems implement hard-coded spatial constraints that restrict participatory engagement, while data-driven models rely on extensive training datasets. Recent large language models (LLMs) bridge this gap by enabling intuitive reasoning about spatial relationships through natural language. This research presents an LLM-based, multimodal, multi-agent framework that dynamically converts natural language descriptions and imagery into 3D designs. Specialized agents (Reference, Spatial, Interactive, Grader), operating via prompt guidelines, collaboratively address core challenges: the agent system enables real-time user interaction for iterative spatial refinement, while Retrieval-Augmented Generation (RAG) reduces data dependency without requiring task-specific model training. This framework accurately interprets spatial intent and generates optimized 3D indoor design, improving productivity, and encouraging nondesigner participation. Evaluations across diverse floor plans and user questionnaires demonstrate effectiveness. An independent LLM evaluator consistently rated participatory layouts higher in user intent alignment, aesthetic coherence, functionality, and circulation. Questionnaire results indicated 77% satisfaction and a clear preference over traditional design software. These findings suggest the framework enhances user-centric communication and fosters more inclusive, effective, and resilient design processes. Project page: https://rsigktyper.github.io/AICodesign/