前沿|深度学习芯片研究新趋势：以存储器为处理核心

大家好，如果您还对前沿|深度学习芯片研究新趋势：以存储器为处理核心不太了解，没有关系，今天就由本站为大家分享前沿|深度学习芯片研究新趋势：以存储器为处理核心的知识，包括的问题都会给大家分析到，还望可以解决大家的问题，下面我们就开始吧！

参演：赵化龙、蒋思源

近两年，为了满足机器学习的需求，特别是深度神经网络的需求，出现了创新架构的研究热潮。我们在《The Next Platform》中报告了许多架构替代方案，包括训练端和推理端，正是在这样做的过程中，我们开始注意到一个有趣的趋势。一些为机器学习市场定制ASIC 的公司似乎也在沿着同样的路线发展。 ——使用内存作为处理的核心。

内存处理（PIM）架构实际上并不是什么新鲜事，但由于内存中相对简单的逻辑单元很好地满足了神经网络（尤其是卷积网络）的训练需求，因此内存正在成为未来的下一个平台。我们已经引入了许多公司的深度学习芯片，例如Nervana Systems（2016 年被英特尔收购）和WaveComputing，以及其他有望超越AlexNet 等基准的新架构。内存是其性能和效率的关键驱动因素。

今天，我们还推出了这个内存驱动深度学习架构家族的新成员。这就是由博洛尼亚大学提出的Neurostream，在某些方面与Nervana、Wave 和其他使用下一代内存（例如混合内存立方体(HMC) 和高带宽内存(HBM)）的深度学习架构类似。而这个架构也为进一步理解我们刚才提到的公司是如何设计深度学习架构提供了一个新的思路。在过去的介绍中，我们从Nervana、Wave等发布的架构中提取了一些设计细节，该架构的设计团队为我们带来了一些关于为什么内存驱动设备将成为深度学习定制硬件的未来的见解。主流更深入的见解。

“虽然卷积神经网络是计算密集型算法，但其可扩展性和能效受到主存的极大限制，而且这些网络中的参数和通道都比较大，因此都需要存储在主存中。由于上述原因，简单地提高卷积网络加速器的性能和效率而不考虑主存瓶颈将是一个错误的设计决策。”

Neurostream 将其内存处理方法应用于扩展卷积神经网络。该设计使用混合内存立方体的变体，他们称之为“智能内存立方体”。 “智能内存立方体”增强了称为NeuroCluster 的多核PIM 平台。 NeuroCluster采用基于NeuroStream浮点协处理器（用于卷积密集型计算）和通用处理器RISC-V的模块化设计。他们还提到了一种简单的DRAM 阵列机制和可扩展的编程环境。该架构最吸引人的一点是，它通过仅占芯片面积8% 的HMC 实现了240GFLOPS 性能，同时仅消耗2.5 瓦的总功率。

“这个平台可以将卷积神经网络计算任务完全分散到存储体中，系统功耗更小。这意味着主SoC中的计算逻辑可以被释放出来去做其他事情。而且，相比于基本的HMC，额外的开销该系统几乎可以忽略不计。”

设计团队正在宣传其Neurostream 架构的每瓦性能数据。 “在单个三维堆叠封装中，我们实现了每瓦22.5GFLOPS（每秒22.5G 浮点计算）的计算能效，这是目前可用的最佳GPU 性能的5 倍以上。”他们还提到“较小的系统级功率增加和可忽略不计的面积增加使该PIM 系统成为一种经济高效且节能的解决方案，可以通过4 个SMC 网络轻松扩展到955 GFLOPS。”他们用于比较的GPU Nvidia Tesla K40，在235 瓦功率下可以达到1092 GFLOPS 的处理速度。 “Neuro阵列可以在42.8瓦的功率下达到955GFLOPS，超过对手的能效4.8倍。”该团队还评论道。由于减少了对串行链路的需求，该架构还可以扩展到更多节点。

Neurostream的创建者期望通过进行一些面向应用的调整和降低算术计算的精度来进一步提高其能源效率。正如他们所强调的，“降低计算精度预计可减少高达70% 的功耗。”在下一步的改进中，他们将专注于在硅片上实现具有四个NeuroCluster 的架构，这将使其能够监控自身的反向传播和训练方式。

我们涵盖了许多协处理器、ASIC、GPU 和x86 处理器的性能和效率基准分数，以及针对深度学习框架的其他软件优化。尽管我们对这些持保留态度并尽可能地进行比较，但时间最终会告诉我们哪种架构会胜出。我在这里想说的不是基准分数，而是架构本身。 Neuro Array 和Nervana、Wave 等方法一样，将HMC 和HBM 发挥到了极致——，以利用有限的内存处理能力，其结果是几乎可以很好地处理卷积神经网络的计算。