近存计算新突破:RISC-V 可编程架构为边缘计算带来高能效解决方案

在人工智能和机器学习等数据密集型应用日益普及的今天, 传统冯·诺依曼计算架构在能效方面的局限性日益凸显。为应对这一挑战, 来自都灵理工大学和洛桑联邦理工学院的研究人员提出了两种新型近存计算 (NMC) 架构——NM-Caesar 和 NM-Carus, 有望为下一代边缘计算节点带来突破性进展。

传统架构面临挑战

随着边缘计算的兴起, 对实时数据处理的需求不断增加, 而传统计算架构在处理这些数据密集型工作负载时表现不佳。主要原因在于:

  1. 数据和指令需要不断在内存和 CPU 寄存器之间移动, 造成能耗浪费。
  2. SRAM 集成技术的发展速度落后于逻辑电路, 导致"内存墙"问题。

根据计算机体系结构专家 John Hennessy 和 David Patterson 的研究,SRAM 访问的能耗通常是 CPU 算术运算的 100 倍。

近存计算: 破解能效困局的关键

为解决上述问题, 研究人员提出了计算存储一体化 (CIM) 范式, 包括存内计算 (IMC) 和近存计算 (NMC) 。其核心思想是:

  • 将处理单元移至靠近数据的位置
  • 减少指令获取开销
  • 降低系统总线压力
  • 优化内存带宽利用

NMC 方案保留了灵活的内存访问能力, 更适合传统可编程系统的语义, 因此成为本研究的重点。

NM-Caesar: 面向轻量级应用的高效方案

NM-Caesar 是一种面向面积受限场景的 NMC 单元, 主要特点包括:

  • 支持 SIMD 指令
  • 由主机系统进行微控制
  • 适用于具有规则控制流的 TinyML 基准测试
  • 适合处理生物医学应用中的峰值检测等算法
  • 可用于心律失常检测等轻量级人工神经网络

NM-Carus: 全自主 RISC-V 向量处理单元

NM-Carus 则是一种功能更强大的 NMC 架构:

  • 基于 RISC-V 指令集
  • 支持向量运算
  • 完全自主运行
  • 适用于高度并行和复杂的 TinyML 应用
  • 可处理深度神经网络等计算密集型工作负载
  • 支持数据依赖控制流的任务

性能大幅提升

研究人员对这两种架构进行了详细的评估。结果表明:

  • NM-Caesar 可将执行时间缩短至原来的 1/25.8, 能效提高 23.2 倍
  • NM-Carus 在执行时间和能效方面分别实现了 50 倍和 33.1 倍的提升
  • 在 8 位矩阵乘法中,NM-Carus 达到了 306.7 GOPS/W 的峰值能效, 超越了现有的最先进存内和近存计算电路

易于集成是关键优势

与现有 CIM 解决方案相比,NM-Caesar 和 NM-Carus 的一大亮点在于其易于集成的特性:

  1. 提供与 SRAM 兼容的接口, 可作为传统 SRAM 的直接替代品
  2. 除计算模式外, 还支持透明的内存操作模式
  3. 对主机系统的软件栈和物理特性影响最小化

这种低成本、低集成难度的方法, 有望推动 NMC 技术在通用低功耗边缘设备中的广泛应用。

未来展望

随着边缘 AI 和 IoT 应用的进一步普及, 对高能效计算解决方案的需求将持续增长。 NM-Caesar 和 NM-Carus 的成功, 为未来边缘计算芯片的设计指明了方向。研究人员表示, 下一步将进一步优化架构, 并探索在更先进工艺节点上的实现, 以进一步提升性能和能效。


《 Scalable and RISC-V Programmable Near-Memory Computing Architectures for Edge Nodes 》

发表评论