TorR: Towards Brain-Inspired Task-Oriented Reasoning via Cache-Oriented Algorithm-Architecture Co-design

📄 arXiv: 2603.22855v1 📥 PDF

作者: Hyunwoo Oh, SungHeon Jeong, Suyeon Jang, Hanning Chen, Sanggeon Yun, Tamoghno Das, Mohsen Imani

分类: cs.AR, cs.LG

发布日期: 2026-03-24

备注: Accepted to DAC 2026


💡 一句话要点

TorR:面向边缘端实时目标检测的脑启发式算法-架构协同设计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 目标检测 边缘计算 脑启发式计算 超维计算 算法-架构协同设计

📋 核心要点

  1. 现有基于CLIP的目标检测方法计算密集、内存访问频繁,难以在边缘设备上实现实时部署。
  2. TorR提出了一种脑启发式的算法-架构协同设计,利用超维计算和缓存机制来降低计算复杂度和内存访问。
  3. 实验结果表明,TorR在保持竞争力的检测精度下,显著降低了能量消耗,实现了边缘端的实时目标检测。

📝 摘要(中文)

面向任务的目标检测(TOOD)结合CLIP提供了开放词汇和提示驱动的语义信息,但其密集的逐窗口计算和巨大的内存流量阻碍了在实时、功率受限的边缘设备上的部署。我们提出了TorR,一种脑启发式的算法-架构协同设计,它用超维(HDC)关联推理器取代了CLIP风格的密集对齐,并将时间连贯性转化为重用。在算法方面,TorR将对齐重新定义为HDC相似性和图组合,通过(i)使用每个类别的分数累积进行查询缓存,(ii)仅当少量超向量位发生变化时进行精确的δ更新,以及(iii)在高系统负载下进行相似性/负载门控旁路,引入了部分相似性重用。在架构方面,TorR实例化了一个lane可扩展的、位切片的项目存储器,具有bank/精度门控和一个轻量级控制器,该控制器调度旁路/δ/完整路径,以满足对象数量变化时的RT-30/RT-60目标。在TSMC 28nm工艺中合成并使用周期精确的模拟器进行测试,TorR以毫焦耳级的每窗口能量(在60 FPS时约为50 mJ;在30 FPS时约为113 mJ)和低延迟抖动维持了实时吞吐量,同时在五个任务提示中提供了具有竞争力的AP@0.5(平均44.27%),在强大的VLM基线的一定范围内,但能量消耗却降低了几个数量级。该设计公开了部署时的可配置性(有效维度D',阈值,精度),以在边缘预算内权衡准确性、延迟和能量。

🔬 方法详解

问题定义:现有基于CLIP的目标检测方法,如TOOD,虽然能实现开放词汇的目标检测,但其逐窗口的密集计算和高内存带宽需求使其难以在资源受限的边缘设备上实现实时部署。现有方法的痛点在于计算复杂度高、功耗大,无法满足边缘设备的需求。

核心思路:TorR的核心思路是借鉴大脑的关联记忆和缓存机制,使用超维计算(HDC)来替代CLIP中的密集对齐计算,并通过缓存和部分更新机制来减少冗余计算和内存访问。这样设计的目的是降低计算复杂度和功耗,从而实现边缘端的实时目标检测。

技术框架:TorR的整体框架包括算法和架构两部分。在算法层面,TorR将目标检测中的对齐问题转化为HDC相似度计算和图组合。在架构层面,TorR设计了一个lane可扩展的、位切片的项目存储器,并配备了bank/精度门控和一个轻量级控制器。控制器根据系统负载动态调度旁路/δ/完整路径,以满足实时性要求。

关键创新:TorR最重要的技术创新点在于使用HDC关联推理器取代了CLIP风格的密集对齐计算。HDC是一种基于高维向量的计算模型,可以高效地进行相似度计算和模式识别。此外,TorR还提出了部分相似性重用机制,包括查询缓存、精确δ更新和相似性/负载门控旁路,进一步降低了计算复杂度和内存访问。

关键设计:TorR的关键设计包括:(1) 使用HDC进行相似度计算,选择合适的维度和编码方式;(2) 设计查询缓存,存储已计算的相似度结果,避免重复计算;(3) 实现精确δ更新,仅当少量超向量位发生变化时进行更新,减少计算量;(4) 设计相似性/负载门控旁路,在高负载情况下跳过部分计算,保证实时性;(5) 设计lane可扩展的、位切片的项目存储器,并配备bank/精度门控,优化内存访问。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TorR在TSMC 28nm工艺中合成,并通过周期精确的模拟器进行测试。实验结果表明,TorR能够以毫焦耳级的每窗口能量(在60 FPS时约为50 mJ;在30 FPS时约为113 mJ)和低延迟抖动维持实时吞吐量。同时,TorR在五个任务提示中提供了具有竞争力的AP@0.5(平均44.27%),与强大的VLM基线相比,能量消耗降低了几个数量级。

🎯 应用场景

TorR技术可应用于智能安防、自动驾驶、机器人等领域。在智能安防中,TorR可以实现对监控视频中的目标进行实时检测和识别。在自动驾驶中,TorR可以用于检测车辆周围的行人、车辆等障碍物。在机器人领域,TorR可以帮助机器人理解周围环境,并进行自主导航和目标抓取。该研究的实际价值在于降低了目标检测算法的功耗和延迟,使其能够在资源受限的边缘设备上运行,从而推动了人工智能在各行业的应用。

📄 摘要(原文)

Task-oriented object detection (TOOD) atop CLIP offers open-vocabulary, prompt-driven semantics, yet dense per-window computation and heavy memory traffic hinder real-time, power-limited edge deployment. We present \emph{TorR}, a brain-inspired \textbf{algorithm--architecture co-design} that \textbf{replaces CLIP-style dense alignment with a hyperdimensional (HDC) associative reasoner} and turns temporal coherence into reuse. On the \emph{algorithm} side, TorR reformulates alignment as HDC similarity and graph composition, introducing \emph{partial-similarity reuse} via (i) query caching with per-class score accumulation, (ii) exact $δ$-updates when only a small set of hypervector bits change, and (iii) similarity/load-gated bypass under high system load. On the \emph{architecture} side, TorR instantiates a lane-scalable, bit-sliced item memory with bank/precision gating and a lightweight controller that schedules bypass/$δ$/full paths to meet RT-30/RT-60 targets as object counts vary. Synthesized in a TSMC 28\,nm process and exercised with a cycle-accurate simulator, TorR sustains real-time throughput with millijoule-scale energy per window ($\approx$50\,mJ at 60\,FPS; $\approx$113\,mJ at 30\,FPS) and low latency jitter, while delivering competitive AP@0.5 across five task prompts (mean 44.27\%) within a bounded margin to strong VLM baselines, but at orders-of-magnitude lower energy. The design exposes deployment-time configurability (effective dimension $D'$, thresholds, precision) to trade accuracy, latency, and energy for edge budgets.