cs.CV（2024-07-20）

📊 共 8 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (3 🔗1) 支柱一：机器人控制 (Robot Control) (2 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (2) 支柱三：空间感知与语义 (Perception & Semantics) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
1	Automatic Generation of Fashion Images using Prompting in Generative Machine Learning Models	提出基于提示工程的生成模型，用于自动生成时尚图像和描述。	large language model chain-of-thought	✅
2	Sim-CLIP: Unsupervised Siamese Adversarial Fine-Tuning for Robust and Semantically-Rich Vision-Language Models	Sim-CLIP：通过无监督对抗微调增强CLIP视觉编码器的鲁棒性和语义丰富性	multimodal
3	Diffusion Models as Data Mining Tools	利用扩散模型进行视觉数据挖掘，实现数据典型性分析与模式发现	TAMP

🔬 支柱一：机器人控制 (Robot Control) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
4	DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control	DISCO：提出基于可微场景语义和双层控制的具身导航与交互方法	manipulation mobile manipulation affordance	✅
5	FedPartWhole: Federated domain generalization via consistent part-whole hierarchies	FedPartWhole：通过一致的部分-整体层次结构实现联邦域泛化	manipulation

🔬 支柱二：RL算法与架构 (RL & Architecture) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
6	Adapt2Reward: Adapting Video-Language Models to Generalizable Robotic Rewards via Failure Prompts	Adapt2Reward：通过失败提示自适应视频-语言模型，实现通用机器人奖励函数	reinforcement learning language conditioned
7	Scaling Up Single Image Dehazing Algorithm by Cross-Data Vision Alignment for Richer Representation Learning and Beyond	提出基于跨数据视觉对齐的单图像去雾算法，提升表征学习能力	representation learning

🔬 支柱三：空间感知与语义 (Perception & Semantics) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
8	Realistic Surgical Image Dataset Generation Based On 3D Gaussian Splatting	提出基于3D高斯溅射的真实感手术图像数据集生成方法，解决手术数据集匮乏问题。	3D gaussian splatting gaussian splatting splatting

⬅️ 返回 cs.CV 首页 · 🏠 返回主页