PhotoAgent: A Robotic Photographer with Spatial and Aesthetic Understanding

📄 arXiv: 2603.22796v1 📥 PDF

作者: Lirong Che, Zhenfeng Gan, Yanbo Chen, Junbo Tan, Xueqian Wang

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-03-24

备注: Accepted to the IEEE International Conference on Robotics and Automation (ICRA) 2026


💡 一句话要点

PhotoAgent:融合空间与美学理解的机器人摄影师

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人摄影 大型多模态模型 思维链推理 3D高斯溅射 具身智能体

📋 核心要点

  1. 现有摄影机器人难以将高层美学指令转化为精确的几何控制,导致拍摄效果不佳。
  2. PhotoAgent利用大型多模态模型进行推理,将美学目标转化为几何约束,并结合内部世界模型进行优化。
  3. 实验表明,PhotoAgent在空间推理方面表现出色,并能生成美学质量更高的图像。

📝 摘要(中文)

用于摄影等创意任务的具身智能体必须弥合高层语言指令和几何控制之间的语义鸿沟。我们提出了PhotoAgent,它通过将大型多模态模型(LMM)的推理与一种新颖的控制范式相结合来实现这一点。PhotoAgent首先通过LMM驱动的思维链(CoT)推理将主观的美学目标转化为可解的几何约束,从而允许分析求解器计算高质量的初始视点。然后,通过在用3D高斯溅射(3DGS)构建的逼真内部世界模型中进行视觉反射,迭代地细化该初始姿势。这种“心理模拟”取代了代价高昂且缓慢的物理试错,从而能够快速收敛到美学上更优越的结果。评估证实,PhotoAgent擅长空间推理,并实现了卓越的最终图像质量。

🔬 方法详解

问题定义:现有摄影机器人难以理解和执行包含美学意图的指令,例如“拍摄一张具有对称构图的照片”。它们通常依赖于简单的规则或预定义的模板,无法根据场景的特点进行灵活调整,导致拍摄结果缺乏艺术性和个性化。物理试错成本高昂且效率低下。

核心思路:PhotoAgent的核心思路是将高层的美学目标转化为具体的几何约束,然后通过优化这些约束来控制机器人的视角和姿态。利用大型多模态模型(LMM)的强大推理能力,将主观的美学描述转化为客观的几何参数。同时,构建一个基于3D高斯溅射(3DGS)的内部世界模型,允许智能体在虚拟环境中进行“心理模拟”,从而避免了昂贵的物理试错。

技术框架:PhotoAgent的整体框架包含以下几个主要模块:1) LMM推理模块:接收用户的美学指令,利用思维链(CoT)推理将其分解为一系列几何约束。2) 分析求解器:根据LMM推理得到的几何约束,计算出一个高质量的初始视点。3) 3DGS世界模型:构建一个逼真的内部世界模型,用于视觉反射和优化。4) 视觉反射模块:在内部世界模型中进行渲染,评估当前视点的美学质量,并根据评估结果迭代地调整视点。

关键创新:PhotoAgent的关键创新在于将大型多模态模型的推理能力与基于3DGS的内部世界模型相结合,实现了一种高效的机器人摄影控制范式。与传统的基于规则或模板的方法相比,PhotoAgent能够更好地理解和执行包含美学意图的指令。与物理试错相比,内部世界模型能够显著降低成本和提高效率。

关键设计:LMM推理模块使用预训练的大型多模态模型,并针对摄影任务进行了微调。几何约束的表示方式包括目标物体的位置、大小、角度等。3DGS世界模型使用现有的方法进行构建和优化。视觉反射模块使用预训练的图像质量评估模型来评估渲染图像的美学质量。迭代优化过程使用梯度下降算法,目标是最大化图像的美学质量评分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhotoAgent在空间推理方面表现出色,能够准确地理解和执行包含空间关系的指令。与基线方法相比,PhotoAgent生成的图像在美学质量方面有显著提升。具体而言,在用户偏好测试中,PhotoAgent生成的图像的胜率明显高于其他方法,表明用户更喜欢PhotoAgent的拍摄结果。

🎯 应用场景

PhotoAgent可应用于自动化摄影、虚拟现实内容创作、机器人辅助设计等领域。例如,它可以用于自动生成高质量的产品宣传照片,或者帮助用户在虚拟环境中设计和拍摄个性化的场景。该研究的未来影响在于,它为具身智能体在创意任务中的应用提供了一种新的思路,有望推动机器人技术在艺术和设计领域的进一步发展。

📄 摘要(原文)

Embodied agents for creative tasks like photography must bridge the semantic gap between high-level language commands and geometric control. We introduce PhotoAgent, an agent that achieves this by integrating Large Multimodal Models (LMMs) reasoning with a novel control paradigm. PhotoAgent first translates subjective aesthetic goals into solvable geometric constraints via LMM-driven, chain-of-thought (CoT) reasoning, allowing an analytical solver to compute a high-quality initial viewpoint. This initial pose is then iteratively refined through visual reflection within a photorealistic internal world model built with 3D Gaussian Splatting (3DGS). This ``mental simulation'' replaces costly and slow physical trial-and-error, enabling rapid convergence to aesthetically superior results. Evaluations confirm that PhotoAgent excels in spatial reasoning and achieves superior final image quality.