Semantic Glitch: Agency and Artistry in an Autonomous Pixel Cloud

📄 arXiv: 2511.16048v1 📥 PDF

作者: Qing Zhang, Jing Huang, Mingyang Xu, Jun Rekimoto

分类: cs.RO, cs.AI, cs.HC

发布日期: 2025-11-20

备注: NeurIPS 2025 Creative AI Track, The Thirty-Ninth Annual Conference on Neural Information Processing Systems


💡 一句话要点

提出基于多模态大语言模型的低精度自主导航框架,用于软体飞行机器人艺术装置。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 多模态大语言模型 自主导航 软体机器人 艺术装置 语义理解

📋 核心要点

  1. 传统机器人依赖高精度传感器和算法,但忽略了低精度系统在创造性应用中的潜力。
  2. 论文提出“语义故障”概念,利用多模态大语言模型赋予机器人“叙事思维”,实现自主导航。
  3. 实验验证了该框架在创造具有独特人格特征的机器人方面的有效性,并观察到有趣的涌现行为。

📝 摘要(中文)

本文探索了一种刻意“低精度”方法的创造潜力,有别于主流机器人追求的度量精度和完美性能。我们提出了“语义故障”,这是一种软体飞行机器人艺术装置,其物理形态(3D像素风格的云)是源自数字考古的“物理故障”。我们详细介绍了一种新颖的自主流程,该流程拒绝使用激光雷达和SLAM等传统传感器,仅依靠多模态大语言模型对环境的定性、语义理解来进行导航。通过自然语言提示为机器人赋予受生物启发的人格,我们创造了一个“叙事思维”,以补充“弱”且具有历史负载的身体。我们的分析从一个13分钟的自主飞行日志开始,并通过后续研究统计验证了该框架在创作可量化区分的人格方面的稳健性。综合分析揭示了涌现行为,从基于地标的导航到引人注目的“计划到执行”差距,以及一个角色的不可预测的、合理的行为,这些行为源于缺乏精确的本体感觉。这证明了一个低精度框架可以创造不完美的伙伴,其成功是通过性格而非效率来衡量的。

🔬 方法详解

问题定义:现有机器人导航方法过度依赖高精度传感器(如激光雷达、SLAM),成本高昂且缺乏艺术性。这些方法难以模拟生物的非完美感知和行为,限制了机器人在艺术和娱乐领域的应用。论文旨在探索一种低成本、低精度但具有创造性的机器人导航方法。

核心思路:利用多模态大语言模型(MLLM)对环境进行语义理解,赋予机器人“叙事思维”,使其能够像生物一样进行导航和交互。通过自然语言提示,可以定制机器人的“人格”,使其行为具有一定的不可预测性和趣味性。这种方法的核心在于放弃对精确度量信息的依赖,转而关注对环境的定性理解和行为的合理性。

技术框架:该框架主要包含以下几个模块:1) 多模态感知模块:使用摄像头等传感器获取环境信息,并输入到MLLM中。2) 语义理解模块:MLLM对环境信息进行语义分析,提取关键地标和导航信息。3) 行为规划模块:根据MLLM的理解和预设的“人格”,生成导航指令。4) 运动控制模块:将导航指令转化为机器人的具体运动控制信号。整个流程是一个闭环反馈系统,机器人根据实际环境不断调整行为。

关键创新:该方法最重要的创新点在于使用MLLM进行导航,摆脱了对传统高精度传感器的依赖。通过自然语言提示赋予机器人“人格”,使其行为具有一定的不可预测性和趣味性,这与传统机器人追求的完美性能形成鲜明对比。此外,该方法强调“计划到执行”的差距,认为这种不完美性是创造性的来源。

关键设计:论文的关键设计包括:1) 选择合适的MLLM,并针对机器人导航任务进行微调。2) 设计有效的自然语言提示,以塑造机器人的“人格”。3) 设计合理的运动控制策略,使机器人能够根据MLLM的指令进行运动。4) 评估指标的选择,论文更关注机器人的行为是否合理和有趣,而非导航的精度。

📊 实验亮点

论文通过13分钟的自主飞行日志展示了机器人的导航能力,并进行了统计分析,验证了该框架在创作可量化区分的人格方面的稳健性。实验结果表明,通过不同的自然语言提示,可以使机器人表现出不同的行为模式,例如对特定地标的偏好或不同的运动轨迹。这些结果表明,该框架可以有效地创造具有独特个性的机器人。

🎯 应用场景

该研究成果可应用于艺术展览、娱乐表演、教育等领域。例如,可以创造具有独特个性的机器人演员,与人类进行互动表演。此外,该方法还可以用于开发低成本的家庭服务机器人,这些机器人不需要精确的地图和定位,只需要能够理解人类的指令并做出合理的反应。

📄 摘要(原文)

While mainstream robotics pursues metric precision and flawless performance, this paper explores the creative potential of a deliberately "lo-fi" approach. We present the "Semantic Glitch," a soft flying robotic art installation whose physical form, a 3D pixel style cloud, is a "physical glitch" derived from digital archaeology. We detail a novel autonomous pipeline that rejects conventional sensors like LiDAR and SLAM, relying solely on the qualitative, semantic understanding of a Multimodal Large Language Model to navigate. By authoring a bio-inspired personality for the robot through a natural language prompt, we create a "narrative mind" that complements the "weak," historically, loaded body. Our analysis begins with a 13-minute autonomous flight log, and a follow-up study statistically validates the framework's robustness for authoring quantifiably distinct personas. The combined analysis reveals emergent behaviors, from landmark-based navigation to a compelling "plan to execution" gap, and a character whose unpredictable, plausible behavior stems from a lack of precise proprioception. This demonstrates a lo-fi framework for creating imperfect companions whose success is measured in character over efficiency.